生活这么苦，用Python爬取搞笑网站段子乐乐

原创

AI channe 布道师 2021-07-09 13:35:33 ©著作权

文章标签 python 程序员爬虫经验分享 Python基础入门 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者AI channe 布道师的原创作品，请联系作者获取转载授权，否则将追究法律责任

生活这么苦，用Python爬取搞笑网站段子乐乐_python

不开心，就爬取个搞笑段子乐乐，众所周知，Python是写爬虫的利器，今天用Python写一个小爬虫爬一个段子网站的众多搞笑段子。

目标段子网站为“http://ishuo.cn/”，我们先分析其下段子的所在子页的url特点，可以轻易发现为“http://ishuo.cn/subject/”+数字，经过测试发现，该网站的反扒机制薄弱，可以轻易地爬遍其所有站点。

现在利用python的re及urllib库将其所有段子扒下

参考代码：

import sys
import re
import urllib
#返回html格式
def gethtml(url):
  page=urllib.urlopen(url)
  html=page.read()
  return html
def getmessage(html):
  p=re.compile(r'<div class="content">(.*)</div><script type="text/javascript">')
  #对段子内容进行正则匹配
  message=re.findall(p,html)#返回正则匹配的结果
  return message
fp=open('data.txt','w+')
#实际范围比1~7000要大，因为时间原因这里暂定为1~7000
for i in range(1,7000):
  i=str(i)
  web=gethtml('http://ishuo.cn/subject/'+i)
  #该网站段子的链接特点
  message=getmessage(web)
  message2=''.join(message)#将结果转换为字符串类型
  #message2=message2.decode('utf8','strict')
  message2=str(message2)
  print message2
  fp.writelines(message2+'\n')
  #将爬下的众多段子写入文件中
fp.close()

很多初学Python 爬虫小白，其实Python 入门爬虫比较简单易学，不需要在一开始掌握太多太基础太底层的知识就可以很快上手很快可以做出成果，下面我分享下我收藏的视频与书籍，非常适合小白去学习，点击.领取
生活这么苦，用Python爬取搞笑网站段子乐乐_爬虫_02