import requests
response=requests.get('https://www.autohome.com.cn/news/') #发出http请求
#<Response [200]>
response.encoding='gbk' #编码转换
#response.text 是返回的内容--html文本---是字符串
#res=response.content #是返回的内容--字节形式
#print(response.text)
from bs4 import BeautifulSoup
#bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签
#安装 pip3 install Beautifulsoup4
soup = BeautifulSoup(response.text, "html.parser") #对html进行解析
#两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html.parser,这个是bs4自带的解析器。
#如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的
#x=obj.find(name='a',id='i1') #找出id='i1'的a标签--返回第一个匹配成功的标签
#在html中id是不会重复的
#x=obj.find(name='a') #找出a标签--返回第一个匹配成功的标签
#<a class="orangelink" href="//www.autohome.com.cn/beijing/cheshi/" target="_blank"><i class="topbar-icon topbar-icon16 topbar-icon16-building"></i>½øÈë±±¾©³µÊÐ</a>
#对x这个标签,还可继续寻找其它标签
#x=obj.find_all(name='a') #找出所有匹配成功的a标签
#返回一个列表
#print('标签',x)
tag=soup.find(id='auto-channel-lazyload-article') #寻找id='auto-channel-lazyload-article',返回匹配成功的第一个
#tag=soup.find(name='h3',attrs={'class':'xxx','id':'xxx'}) #find格式
#tag=soup.find(name='h3',class_='xxx') #find格式
#class_ 是类
h3=tag.find_all(name='h3')
print(h3)
python--爬虫
原创
©著作权归作者所有:来自51CTO博客作者天子骄龙的原创作品,请联系作者获取转载授权,否则将追究法律责任
上一篇:电脑技巧
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Python爬虫:清华大学新闻爬虫的实现
这个爬虫功能强大,代码简介,是爬虫学习入门的不二之选。该文章将一步一步但你探索其中奥秘,解决你在这方面的困惑。
python 爬虫 请求头 jieba -
python--爬虫--爬虫学习路线指南
取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。拉勾网、智联:爬取各类职位信息,分析各行业人才需...
python 爬虫 学习路线 数据 Python -
python--爬虫--selenium的简介和使用
selenium简介什么是seleniumselenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏
爬虫 python selenium chrome 加载