文章目录

  • 什么是爬虫
  • 查看网页源代码
  • 写一个最简单的爬虫
  • 结果分析

 

什么是爬虫

Python爬虫简易入门_python爬虫实战

查看网页源代码

我们首先打开进入浏览器打开搜狐网


然后点击鼠标右键选择查看网页源代码

Python爬虫简易入门_Python_02


我们发现网站背后都是一些数据,如果我们可以用一个自动化的程序轻轻松松就能把它们给爬取下来是不是很爽?比如,一些图片和电影的网站,我们只要用 Python 写几行代码然后一运行这个程序就帮我们爬取所有的图片和电影到我们本地,完全不需要我们费一点力气,我们刚刚提到的,一个自动化的程序就是爬虫

一般爬虫可以分为 通用爬虫 和 聚焦爬虫 两种:

通用爬虫:通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

聚焦爬虫:是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

写一个最简单的爬虫

# 导入本文件所有的包
import urllib.request
#设置请求的网页
url = "http://www.baidu.com"
#发送url请求,并达到响应结果
response = urllib.request.urlopen(url=url)
#从服务器的响应中获取到页面内容
content = response.read()
print(content)
html = content.decode('UTF-8')
print(html)
# 将获取到的内容保持到硬盘
f = open("baidu.html", "w", encoding="utf-8")
f.write(html)
f.close()
# with open("baidu.html", "w", encoding="utf-8") as f:
# f.write(html)

结果分析

此爬虫程序可打印出baidu网页的源代码及html

并将baidu网页写入本地,这样就可以在本地文件夹中打开网页

Python爬虫简易入门_Python_03

打开此文件发现就是百度网页

Python爬虫简易入门_Python学习笔记_04


Python爬虫简易入门_Python_05