前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: Woo_home

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.co-m/noteshare?id=3054cce4add8a909e784ad934f956cef

安装库

该示例使用到的库有requests、lxml、re,其中re是python自带的,所以无需安装,只需安装requests和lxml库即可

安装命令如下:

pip install requests
pip install lxml

分析网页数据

打开一个视频网页如下:

python保存为html python保存网页到本地_Python爬虫

右键进行开发者模式,点击一个视频右键,点击Open in new tab

python保存为html python保存网页到本地_xml_02

ok,可以打开

python保存为html python保存网页到本地_Python爬虫_03

代码实现

先导入要使用的库

import requests
from lxml import etree
import re

拿到网站的url

python保存为html python保存网页到本地_python保存为html_04

获取User-Agent

python保存为html python保存网页到本地_python保存为html_05

发起请求

python保存为html python保存网页到本地_xml_06

筛选数据

python保存为html python保存网页到本地_python保存为html_07

遍历数据

python保存为html python保存网页到本地_Python爬虫_08

匹配数据

python保存为html python保存网页到本地_xml_09

保存数据

python保存为html python保存网页到本地_python保存为html_10

下载的视频已经保存在文件夹中

python保存为html python保存网页到本地_xml_11

.