python2 爬虫:从网页上采取数据 爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml 1.urllib 2.request 3.bs4 4.正则re 5种数据类型 (1)数字Number (2)字符串String (3)列表List[] 中文在可迭代对象就是unicode对象 (4)元组Tuple() (5)字典Set{} 爬虫思路: 1.静态 urlopen打开网页------获取源码read 2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议) 3.bs4 能够解析HTML和XML #-- coding:utf-8 -- from bs4 import BeautifulSoup #1 #html="<div>2018.1.8 14:03</div>" #soup=BeautifulSoup(html,'html.parser') #解析网页 #print soup.div #2从文件中读取 html='' soup=BeautifulSoup(open('index.html'),'html.parser') print soup.prettify() 4.获取所需信息
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Python爬虫:清华大学新闻爬虫的实现
这个爬虫功能强大,代码简介,是爬虫学习入门的不二之选。该文章将一步一步但你探索其中奥秘,解决你在这方面的困惑。
python 爬虫 请求头 jieba -
python爬虫如何构建基础爬虫思路
对于长期游弋于大数据中的程序来说,正常来说基础爬虫有5个模块,通过多个文件相互间配合,然而实现一个相对完善的爬虫方案,以便于后期做更完善的爬虫方案做准备。
html 数据 爬虫 python爬虫 爬虫思路 -
Python爬虫实战,完整的思路和步骤(附源码)
前言小的时候心中总有十万个为什么类似的问题,今天带大家爬取一个问答类的网站。本堂课使用正则表达式对文本类的数据
正则表达式 json python 数据