文章目录

  • 1. 什么是爬虫
  • 2. 爬虫能干什么
  • 3. 爬虫的核心功能
  • 网页的特点
  • 爬取步骤
  • 4. 爬虫的用途
  • 5. 猫眼电影资源爬取


1. 什么是爬虫

写程序,然后去互联网上抓取数据的过程。

2. 爬虫能干什么

自动的批量的采集我们需要的资源

3. 爬虫的核心功能

网页请求
数据分析
结果存储

网页的特点

(1)网页都有自己唯一的url
(2)网页内容都是HTML结构的
(3)使用的都是http、https协议

爬取步骤

(1)给一个url
(2)写程序,模拟浏览器访问url
(3)解析内容,提取数据

4. 爬虫的用途

数据分析
人工智能数据集
作为社交软件冷启动
舆情监控
竞争对手监控

5. 猫眼电影资源爬取

操作环境:
Windows、vscode、python3.8.1
运行代码:
import requests
from lxml import etree

def getOnePage(n):

    url = 'https://maoyan.com/board/4?offect{n*10}'

    # 告诉服务器,我们是服务器
    header =  {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}

    r = requests.get(url,headers=header)

    #返回文本
    return r.text

def parse(text):
    # 初始化
    html = etree.HTML(text)
    # 提取我们想要的信息,需要些xpath语法
    # names是列表xpath返回一定是names
    names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')

    print(names)

text = getOnePage(1)

parse(text)

运行结果:
PS C:\Users\Lenovo\Desktop\猫眼> & "D:/python 3.8.1/python.exe" c:/Users/Lenovo/Desktop/猫眼.py
['霸王别姬', '肖生克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '喜剧之王']