python html onclick参数 python html.parser

转载

mob6454cc696f04 2023-09-27 09:09:31

文章标签 Python HTML Web 文章分类 Python 后端开发

　一、从HTML文档中提取链接

　　Python语言还有一个非常有用的模块HTMLParser，该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以，在处理HTML文档的时候，HTMLParser是最常用的模块之一。

#!/usr/bin/python
import urllib, HTMLParser

class parseLinks(HTMLParser.HTMLParser):
    def handle_starttag(self,tag,attrs):
        if tag=='a':
            for name,value in attrs:
                if name=='href':
                    print value,"\n", self.get_starttag_text()

lParser = parseLinks()
lPurl = urllib.urlopen("http://www.winddesktop.com").read() 
f = open('./hyplink.text','a')
f.write(lPurl)
f.close()
lParser.feed(lPurl)
lParser.close()
#f.write(lParser(lPurl))
#f.close()

处理HTML文档的时候，我们常常需要从其中提取出所有的链接。使用HTMLParser模块后，这项任务将变得易如反掌。首先，我们需要定义一个新的HTMLParser类，以覆盖handle_starttag()方法，我们将使用这个方法来显示所有标签的HRef属性值。

　　定义好新的HTMLParser类之后，需要创建一个实例来返回HTMLParser对象。然后，就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

　　为了解析HTML文件的内容并显示包含其中的链接，可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据，并通过定义的HTMLParser对象对数据进行相应的解析。需要注意，如果传给HTMLParser的feed()函数的数据不完整的话，那么不完整的标签会保存下来，并在下一次调用feed()函数时进行解析。当HTML文件很大，需要分段发送给解析器的时候，这个功能就会有用武之地了。

二、从HTML文档中提取图像

　　处理HTML文档的时候，我们常常需要从其中提取出所有的图像。使用HTMLParser模块后，这项任务将变得易如反掌。首先，我们需要定义一个新的HTMLParser类，以覆盖handle_starttag()方法，该方法的作用是查找img标签，并保存src属性值所指的文件。

#!/usr/bin/python/
#-*-coding:utf-8-*-
import HTMLParser
import urllib
import sys,urllib2,htmllib,formatter

#urlString = "http://www.winddesktop.com"
urlString = "http://image.baidu.com"
def getimage(addr):
    u = urllib.urlopen(addr)
    data = u.read()
    splitPath = addr.split('/')
    fName = splitPath.pop()
    print "Saving %s" %fName
    f = open("./image/"+fName,'wb')
    f.write(data)
    f.close()

class parseImages(HTMLParser.HTMLParser):
    def handle_starttag(self,tag,attrs):
        if tag == 'img':
            for name,value in attrs:
                if name == 'src':
                    getimage(urlString+"/"+value)

lParser = parseImages()
u = urllib.urlopen(urlString)
print "Opening URL \n------"
print u.info()
lParser.feed(u.read())
lParser.close()

　三、从HTML文档中提取文本

　　处理HTML文档的时候，我们常常需要从其中提取出所有的文本。使用HTMLParser模块后，这项任务将变得非常简单了。首先，我们需要定义一个新的HTMLParser类，以覆盖handle_data()方法，该方法是用来解析并文本数据的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。