from bs4 import BeautifulSoup
with open('new_index.html') as wb_date:
Soup = BeautifulSoup(wb_date,'lxml')
lis = Soup.select('body > div.main-content > ul > li')
for li in lis:
image=li.select('li > img')[0].get('src')
title= li.select('li > div.article-info > h3 > a')[0].get_text()
descs = li.select('li > div.article-info > p.description')[0].get_text()
rates = li.select('li > div.rate > span')[0].get_text()
cates =list(li.select('li > div.article-info > p.meta-info ')[0].stripped_strings)
if float(rates)>3:
print(title,descs,rates,image)
'''
from bs4 import BeautifulSoup
info =[]
with open('new_index.html') as wb_date:
Soup = BeautifulSoup(wb_date,'lxml')
images=Soup.select('body > div.main-content > ul > li > img')
titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')
descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')
rates = Soup.select('body > div.main-content > ul > li > div.rate > span')
cates =Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info ')
#print(images,title,descs,rates,cates,sep ='\n------------------\n')
for title,desc,rate,cate,image in zip(titles,descs,rates,cates,images):
data = {
'title': title.get_text(),
'desc': desc.get_text(),
'rate': rate.get_text(),
'cate': list(cate.stripped_strings),
'image': image.get('src')
}
#print(date)
info.append(data)
for i in info:
if float(i['rate'])>3:
print(i['title'],i['cate'])
'''
爬虫实战
原创
©著作权归作者所有:来自51CTO博客作者Bypass007的原创作品,请联系作者获取转载授权,否则将追究法律责任
上一篇:“原谅宝”事件前后
下一篇:IBM安全产品--QRadar
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
实战反爬虫
python爬虫系列之Senium反爬虫0.说在前面1.反爬虫方案2.实现2.1 导库2.2 selenium2.3 BS处理图片3.作者的话0....
html 反爬虫 chrome 字符串 子图 -
py爬虫实战
一、糗事百科视频爬取 先找到对应的页面,分析视频的来源,通过正则匹配到链接,然后再通过
Python html json safari -
Python爬虫实战
在上面的代码中,我们首先使用 get_movies_data() 函数从 MongoDB 数据库中获取所有电影的数据,并将这些数据存储
python 爬虫 开发语言 数据 数据分析 -
爬虫实战案例
在上面的代码中,我们首先使用 get_movies_data() 函数从 MongoDB 数据库中获取所有电影的数
爬虫 python 开发语言 数据 数据分析