python html显示 python html.parser

转载

mob6454cc73e9a6 2023-10-11 12:15:38

文章标签 python html显示 python 解析模块脚本 Python HTML 自定义 文章分类 Python 后端开发

本文实例讲述了Python HTML解析模块HTMLParser用法。共享给大家供大家参考，详细如下：

简介

先简略简介一下。实际上，HTMLParser是python用来解析HTML的内置模块。它可以分析出HTML里面的标签、数据等等，是一种处理HTML的简便途径。HTMLParser使用的是一种事件驱动的项目，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以"handle_"开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新版的类，然后重新版定义这几个以"handle_"开头的函数就行了。这几个函数包括：

(1)handle_startendtag 　　处理开始标签和结束标签(即单标签)

(2)handle_starttag 　　处理开始标签，比如

(3)handle_endtag 　　处理结束标签，比如

(4)handle_charref 　　处理特殊字符串，就是以开头的，一般是内码表示的字符

(5)handle_entityref 　　处理一些特殊字符，以&开头的，比如

(6)handle_data 　　处理数据，就是data中间的那些数据

(7)handle_comment 处理注释

(8)handle_decl 　　处理

(9)handle_pi 　　处理形如<?instruction>的东西

实例

OK，废话少说，直接上手，来一个简单的爬虫实例——抓取贴吧图片。

from html.parser import HTMLParser

from urllib import request

class MyHTMLParser(HTMLParser): # 创建HTML解析类

def __init__(self):

HTMLParser.__init__(self)

self.gifs_urls = [] # 创建列表，保存gif

self.jpgs_urls = [] # 创建列表，保存jpg

# 重写HTMLParser中的内置方法

def handle_starttag(self, tags, attrs): # 处理起始标记

if tags == 'img': # 处理图片

for attr in attrs:

for t in attr:

if 'gif' in t and 'https' in t:

self.gifs_urls.append(t) # 添加到gif列表

elif 'jpg' in t and 'https' in t:

self.jpgs_urls.append(t) # 添加到jpg列表

else:

pass

# 自定义的方法

def get_gifs(self): # 返回gif列表

return self.gifs_urls

def get_jpgs(self): # 返回jpg列表

return self.jpgs_urls

# 自定义的方法，获取网页

def getHTML(self,url):

req=request.Request(url,method='GET')

html=request.urlopen(req,timeout=30)

return html.read()

# 自定义的方法，批量下载图片

def downImgs(self,img_urls,n=10,path='Image/'):

count=1

for url in img_urls:

request.urlretrieve(url=url,filename='{0}{1}{2}'.format(path,count,'.jpg'))

count=count+1

if count == n + 1:

print('共下载%d张图片' %(n))

return

if __name__ == '__main__':

Url = 'http://tieba.baidu.com/p/2256306796'

HtmlParser=MyHTMLParser()

Html=HtmlParser.getHTML(Url)

# print(Html)

HtmlParser.feed(str(Html)) #开始解析HTML，自动调用HTMLParser中的内置方法

HtmlParser.downImgs(HtmlParser.get_jpgs())

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql 每页page 1170 mysql page size

下一篇：netbios名怎么检测是否冲突 netbios信息

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python html显示 python html.parser

python html显示 python html.parser

51CTO博客