文章目录
- 1. 什么是爬虫
- 2. 爬虫能干什么
- 3. 爬虫的核心功能
- 网页的特点
- 爬取步骤
- 4. 爬虫的用途
- 5. 猫眼电影资源爬取
1. 什么是爬虫
写程序,然后去互联网上抓取数据的过程。
2. 爬虫能干什么
自动的批量的采集我们需要的资源
3. 爬虫的核心功能
网页请求
数据分析
结果存储
网页的特点
(1)网页都有自己唯一的url
(2)网页内容都是HTML结构的
(3)使用的都是http、https协议
爬取步骤
(1)给一个url
(2)写程序,模拟浏览器访问url
(3)解析内容,提取数据
4. 爬虫的用途
数据分析
人工智能数据集
作为社交软件冷启动
舆情监控
竞争对手监控
5. 猫眼电影资源爬取
操作环境:
Windows、vscode、python3.8.1
运行代码:
import requests
from lxml import etree
def getOnePage(n):
url = 'https://maoyan.com/board/4?offect{n*10}'
# 告诉服务器,我们是服务器
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}
r = requests.get(url,headers=header)
#返回文本
return r.text
def parse(text):
# 初始化
html = etree.HTML(text)
# 提取我们想要的信息,需要些xpath语法
# names是列表xpath返回一定是names
names = html.xpath('//div[@class="movie-item-info"]/p[@class="name"]/a/@title')
print(names)
text = getOnePage(1)
parse(text)
运行结果:
PS C:\Users\Lenovo\Desktop\猫眼> & "D:/python 3.8.1/python.exe" c:/Users/Lenovo/Desktop/猫眼.py
['霸王别姬', '肖生克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '喜剧之王']