puppeteer vue 爬取 webscraper爬取文件

关注冷月星

文章目录

教程
安装
基本操作
打开Web scraper
使用Web scraper
创建爬取
运行爬虫，查看数据
这里讲一个复杂一点的例子帮助大家学习

puppeteer vue 爬取 webscraper爬取文件

转载

冷月星 2024-05-04 20:12:47

文章标签 puppeteer vue 爬取爬虫选择器 Web 数据 文章分类 运维

教程

安装
基本操作

打开Web scraper
使用Web scraper

创建爬取
运行爬虫，查看数据
这里讲一个复杂一点的例子帮助大家学习
参考：

安装

Web scraper只支持chrome浏览器，可以从chrome网上应用店下载这个插件，安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制，模拟人手动操作浏览器，适合轻度的数据爬取，而且免费！

基本操作

打开Web scraper

当我们想要抓取某网页的时候，需要调出来Web scraper的开发界面，这点开发人员肯定很懂。
不懂的下面提供几种方法：

windows 系统下可以使用快捷键 F12，有的型号的笔记本需要按 Fn+F12
Mac 系统下可以使用快捷键 command+option+i
在网页右键点击检查（ctrl+shift+i）
直接在 Chrome 界面上操作，点击设置 $puppeteer vue 爬取 webscraper爬取文件_爬虫$ 更多工具 $puppeteer vue 爬取 webscraper爬取文件_爬虫$ 开发者工具
打开之后长这样，如果不在网页的下方就点这三个竖着的小圆点，给它换到网页下方。

换好之后长这样，就可以看的Web scraper插件了~

使用Web scraper

创建爬取

首先需要创建一个新的爬取：Create new sitemap $puppeteer vue 爬取 webscraper爬取文件_爬虫$ Create sitemap
Import sitemap是导入脚本
添加请求头，命名和将我们要爬取的网页url填好之后点Create Sitemap
这里要说明一下，一个Sitemap可以有多个Selector，
理解工具

创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。
1）Id - 爬取标题的命名，自己随意取
2）Type - 抓取数据的类型名字

Text（文本）选择器；
Link（链接）选择器；
Popup LINK（弹出链接）选择器；
Image（图像）选择器；
Table（表格）选择器；
Element attribute（元素属性）选择器；
HTML 选择器；
Element；
Element scroll down（滑动）；
Element click（点击）；
Grouped（组块）选择器。

3）selector - CSS 选择器选取所需元素；
4）multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中；
5）delay - 选择器生效前的延迟时长；
6）parent selectors - 为此选择器选择母选择器以产生选择器树形结构；
7）文本选择器（Text selector）；
8）链接选择器（Link selector）；
9）元素选择器（Element selector）。

运行爬虫，查看数据

puppeteer vue 爬取 webscraper爬取文件_爬虫_04

1）Selector graph - 查看爬虫逻辑

2）Scrape - 运行爬虫

3）Browse - 查看数据

4）Export data as CSV - 保存数据

这里讲一个复杂一点的例子帮助大家学习

任务：
账号：中国日报（https://weibo.com/chinadailywebsite?is_all=1）
时间：2020年3月11号——2021年3月10号
关键词：新冠
爬取符合以上条件的所有推送的文字部分，以及发布时间，和转发，评论和点赞的数量

利用微博自己的高级搜索，锁定关键词和具体时间段

puppeteer vue 爬取 webscraper爬取文件_Web_05

如果抓取多页网站，Start url可以设定page=[2-5]表示第2页到第5页，如果是步长为2页，则可以:[2-5:2]。
建立selector，Type选择Element scroll down用于爬取下拉滚动式的页面结构体。

puppeteer vue 爬取 webscraper爬取文件_puppeteer vue 爬取_06

建立新的selector，负责展开全文。Type选择Element click来模拟点击。

puppeteer vue 爬取 webscraper爬取文件_数据_07

建立新的selector，负责抓取正文内容。Type选择Text。

puppeteer vue 爬取 webscraper爬取文件_Web_08

建立新的selector，负责抓取时间日期。Type选择Text。

puppeteer vue 爬取 webscraper爬取文件_Web_09

同理，建立新的selector，负责抓取转赞评。Type选择Text。就不放图了。

注意：每次选择网页元素一定要点击Mutiple，从top到bottom选择两次自己要抓取的内容，比如要抓取微博推送内容，抓取该页面第一条和第二条，接下来板块都会自动抓取。
speed要调整一下，不然抓取的内容会不全。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：kafka eagle无法访问 kafka-eagle使用文档

下一篇：java 多线程update数据库部分数据更新失败多线程批量更新数据库

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册