Python 爬取电影天堂 python爬取电影数据

转载

jordana 2020-02-19 16:55:37

文章标签 python 服务器数据分析 文章分类 Python 后端开发

文章目录

1. 什么是爬虫
2. 爬虫能干什么
3. 爬虫的核心功能

网页的特点
爬取步骤

4. 爬虫的用途
5. 猫眼电影资源爬取

1. 什么是爬虫

写程序，然后去互联网上抓取数据的过程。

2. 爬虫能干什么

自动的批量的采集我们需要的资源

3. 爬虫的核心功能

网页请求
数据分析
结果存储

网页的特点

（1）网页都有自己唯一的url
（2）网页内容都是HTML结构的
（3）使用的都是http、https协议

爬取步骤

（1）给一个url
（2）写程序，模拟浏览器访问url
（3）解析内容，提取数据

4. 爬虫的用途

数据分析
人工智能数据集
作为社交软件冷启动
舆情监控
竞争对手监控

5. 猫眼电影资源爬取

操作环境：
Windows、vscode、python3.8.1
运行代码：
import requests
from lxml import etree

def getOnePage(n):

    url = 'https://maoyan.com/board/4?offect{n*10}'

    # 告诉服务器，我们是服务器
    header =  {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}

    r = requests.get(url,headers=header)

    #返回文本
    return r.text

def parse(text):
    # 初始化
    html = etree.HTML(text)
    # 提取我们想要的信息，需要些xpath语法
    # names是列表xpath返回一定是names
    names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')

    print(names)

text = getOnePage(1)

parse(text)

运行结果：
PS C:\Users\Lenovo\Desktop\猫眼> & "D:/python 3.8.1/python.exe" c:/Users/Lenovo/Desktop/猫眼.py
['霸王别姬', '肖生克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '喜剧之王']

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。