python抓取网页之helloWord

原创

814ZHONG 2012-07-24 17:55:10 博主文章分类：python ©著作权

文章标签 python、url 文章分类 办公效率

©著作权归作者所有：来自51CTO博客作者814ZHONG的原创作品，请联系作者获取转载授权，否则将追究法律责任

学习python基础有一小段时间了,一直没有用python做实际的应用,心理面感觉空空的！于是决定开始用python的优势写一些python的程序,把python学好！第一个python的应用,就从Python的爬虫开始吧！

一：python打开UR内容

#urllib2提供了打开一个url,得到该url所有内容等一些实现

import urllib2

content=urllib2.urlopen('http://developer.51cto.com/col/1005/').read()

print content

注：通过以上方法能获取到该url页面下的所有内容！

二：python解析URL

#urlparse 提供了URL解析的实现

from urlparse import urlparse

url=urlparse('http://www.onepub.net/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html')

print url

注意：通过打印可以得出解析的结果：

ParseResult(scheme='http', netloc='www.onepub.net', path='/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html', params='', query='', fragment='')

根据需要,我们可以从结果中获取、重组我们的要的内容!

注：更多python抓取网页内容,将根据学习的深入进而续写......!

上一篇：python的四种数据结构浅析

下一篇：java实现将日志信息写入TxT

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯