不开心,就爬取个搞笑段子乐乐,众所周知,Python是写爬虫的利器,今天用Python写一个小爬虫爬一个段子网站的众多搞笑段子。
目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的url特点,可以轻易发现为“http://ishuo.cn/subject/”+数字,经过测试发现,该网站的反扒机制薄弱,可以轻易地爬遍其所有站点。
现在利用python的re及urllib库将其所有段子扒下
参考代码:
import sys
import re
import urllib
#返回html格式
def gethtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
def getmessage(html):
p=re.compile(r'<div class="content">(.*)</div><script type="text/javascript">')
#对段子内容进行正则匹配
message=re.findall(p,html)#返回正则匹配的结果
return message
fp=open('data.txt','w+')
#实际范围比1~7000要大,因为时间原因这里暂定为1~7000
for i in range(1,7000):
i=str(i)
web=gethtml('http://ishuo.cn/subject/'+i)
#该网站段子的链接特点
message=getmessage(web)
message2=''.join(message)#将结果转换为字符串类型
#message2=message2.decode('utf8','strict')
message2=str(message2)
print message2
fp.writelines(message2+'\n')
#将爬下的众多段子写入文件中
fp.close()
很多初学Python 爬虫小白,其实Python 入门爬虫比较简单易学,不需要在一开始掌握太多太基础太底层的知识就可以很快上手很快可以做出成果,下面我分享下我收藏的视频与书籍,非常适合小白去学习,点击.领取
总结
以上就是本文关于Python爬虫实例爬取网站搞笑段子的全部内容,希望能让你们乐乐,快活些,更多Python有关精彩内容可以关注小编看小编主页
①3000多本Python电子书有
②Python开发环境安装教程有
③Python400集自学视频有
④软件开发常用词汇有
⑤Python学习路线图有
⑥项目源码案例分享有