简单爬取豆瓣电影相关信息

原创

秃头小苏 2023-04-04 20:55:11 博主文章分类：杂文 ©著作权

文章标签 python 正则表达式爬虫 Network 正则 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者秃头小苏的原创作品，请联系作者获取转载授权，否则将追究法律责任

平台：pycharm
目标：爬取豆瓣网页电影名称，评分等信息，并存储存在csv文件中

代码（代码中的url和headers获取方法在下）

import re
import requests
import csv


#拿到页面源代码
url = "https://movie.douban.com/chart"
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"}

resq = requests.get(url=url,headers = headers)

page_content = resq.text


#通过re提取想要的有效信息
#解析数据

#预加载正则
obj = re.compile(r' <table width="100%" class="">.*?title="(?P<name>.*?)">'
                 r'.*?<span class="rating_nums">(?P<grade>.*?)</span>'
                 r'.*?<span class="pl">(?P<review>.*?)</span>',re.S)

res = obj.finditer(page_content)
f = open("data.csv",mode="w")
csvwriter = csv.writer(f)

for it in res:
    # print(it.group("name"))
    # print(it.group("grade"))
    # print(it.group("review"))
    dic = it.groupdict()
    csvwriter.writerow(dic.values())

f.close()
resq.close()

1、首先、随便找一个豆瓣网页，获取其url,如图

简单爬取豆瓣电影相关信息_Network