Python爬虫学习框架

关注 xing兴xing

Python爬虫学习框架

原创

xing兴xing 2023-11-29 13:51:18 ©著作权

文章标签 python爬虫 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者xing兴xing的原创作品，请联系作者获取转载授权，否则将追究法律责任

目录

1、什么是爬虫

2、如何实现

一、什么是爬虫，爬虫是获取信息的一种方式

大家都应该多多少少听说过’爬虫‘一词，但并不是很了解。今天有我给大家分享一下我多爬虫的理解。首先，我们先说一下浏览器的使用和访问过程。我们在使用浏览器访问时浏览器一方发出请求，服务器把你想浏览的网页的代码文件发送给浏览器，之后浏览器解析成可视化的网页，获取信息。我为什么说这个，因为’爬虫‘爬取的过程跟这个流程可以说’一样‘，请求网页代码文件，在代码文件中寻找我们想要的信息，以文字形式直接显示出来。

Python爬虫学习框架_python爬虫

Python爬虫学习框架_python爬虫_02

举个例子，我们想获取百度首页的热搜信息，用浏览器的方式是：浏览器向服务器请求，返回网页代码，浏览器解析呈现出这样

Python爬虫学习框架_python爬虫_03

让用户去看今天热搜有什么。而爬虫则是在返回的网页代码中直接获取热搜内容。

Python爬虫学习框架_python爬虫_04

这就是爬虫。

二、如何实现，只讲学习方向不细讲具体实现

前面讲过爬虫与浏览器过程差不多，获得网页代码，获取信息。

1、获得网页代码requests库获取

2、获取信息有两种方式一种是，re库，例如，找出以“以中国”开始以“条件”结束的句子。另一种，beautifulsoup4库，以标签的形式获取信息，获取<div></div>标签中的内容“缩进”。

Python爬虫学习框架_python爬虫_05

赞
收藏
评论
分享
举报

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册