机器学习实验报告静态网页文本爬取python 静态网页爬虫

关注 mob6454cc63af5e

文章目录

爬虫基础——静态网页与动态网页
静态网页
动态网页

机器学习实验报告静态网页文本爬取python 静态网页爬虫

转载

mob6454cc63af5e 2023-12-18 12:44:22

文章标签 静态网页动态网页数据 文章分类 机器学习人工智能

爬虫基础——静态网页与动态网页

在爬虫前应首先名确待爬取的页面是静态的，还是动态的，只有确定了页面类型，才方便后续对网页进行分析和程序编写。对于不同的网页类型，编写爬虫程序时所使用的方法也不尽相同

静态网页

静态网页是标准的 HTML 文件，通过 GET 请求方法可以直接获取，文件的扩展名是.html、.htm等，网面中可以包含文本、图像、声音、FLASH 动画、客户端脚本和其他插件程序等。静态网页是网站建设的基础，早期的网站一般都是由静态网页制作的。静态并非静止不动，它也包含一些动画效果
，网页的生成速度会降低，由于静态网页的内容相对固定，且不需要连接后台数据库，因此响应速度非常快。但静态网页更新比较麻烦，每次更新都需要重新加载整个网页。
静态网页的数据全部包含在 HTML 中，因此爬虫程序可以直接在 HTML 中提取数据。通过分析静态网页的 URL，并找到 URL 查询参数的变化规律，就可以实现页面抓取。

动态网页

动态网页指的是采用了动态网页技术的页面，它不需要重新加载整个页面内容，就可以实现网页的局部更新。动态页面使用“动态页面技术”与服务器进行少量的数据交换，从而实现了网页的异步加载。
抓取动态网页的过程较为复杂，需要通过动态抓包来获取客户端与服务器交互的 JSON 数据。抓包时，可以使用谷歌浏览器开发者模式（快捷键：F12）Network选项，然后点击 XHR，找到获取 JSON 数据的 URL，或者使用专业的抓包工具 Fiddler。

记录学习的点点滴滴

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python throw可throw的类型 python trigger

下一篇：vue项目怎么用微信开发者工具调试分享功能 vue实现微信分享

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册