Python爬虫简易入门

原创

mb60d938b35946c 2021-07-07 11:44:05 ©著作权

文章标签 Python学习笔记 python爬虫实战 Python 爬虫 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mb60d938b35946c的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

什么是爬虫

查看网页源代码

写一个最简单的爬虫

结果分析

什么是爬虫

Python爬虫简易入门_python爬虫实战

查看网页源代码

我们首先打开进入浏览器打开搜狐网

然后点击鼠标右键选择查看网页源代码

Python爬虫简易入门_Python_02

我们发现网站背后都是一些数据，如果我们可以用一个自动化的程序轻轻松松就能把它们给爬取下来是不是很爽？比如，一些图片和电影的网站，我们只要用 Python 写几行代码然后一运行这个程序就帮我们爬取所有的图片和电影到我们本地，完全不需要我们费一点力气，我们刚刚提到的，一个自动化的程序就是爬虫

一般爬虫可以分为通用爬虫和聚焦爬虫两种：

通用爬虫：通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫：是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

写一个最简单的爬虫

# 导入本文件所有的包
import urllib.request
#设置请求的网页
url = "http://www.baidu.com"
#发送url请求，并达到响应结果
response = urllib.request.urlopen(url=url)
#从服务器的响应中获取到页面内容
content = response.read()
print(content)
html = content.decode('UTF-8')
print(html)
# 将获取到的内容保持到硬盘
f = open("baidu.html", "w", encoding="utf-8")
f.write(html)
f.close()
# with open("baidu.html", "w", encoding="utf-8") as f:
#   f.write(html)