python爬取dblp文献信息 python文献搜索文献爬取

转载

mob64ca140f9cec 2023-09-04 22:27:39

文章标签 python爬取dblp文献信息 python dictwriter python url编码 python 写csv 文章分类 Python 后端开发

事隔几天，终于已经接近尾声。今天给大家分享一下python的爬虫知识，若分享的不好，还望海涵。

python爬取dblp文献信息 python文献搜索文献爬取_python爬取dblp文献信息

前言：

前期对于urllib、re、BeautifulSoup 这三个库的用法，已经在文章中说明，更多的则是理论基础，实践才是真知。因此，此次主要讲解如何利用我们刚才的几个库去实战。

一、确定爬虫目标：

任何网站皆可爬取，就看你要不要爬取而已。本次选取的爬取目标是当当网，爬取内容是以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示：

python爬取dblp文献信息 python文献搜索文献爬取_python url编码_02

二、本次爬取任务：

本次爬取结果有三项：

图书的封面图片
图书的书名
图书的链接页面
最后把这三项内容保存到 csv 文件中。

三、爬取过程

总所周知，每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析，再确定自己要获取的内容，再定义程序爬取内容的规则。

四、确定 URL 地址

我们可以通过利用浏览器来确定URL 地址，为 urllib 发起请求提供入口地址。

接下来，我们就一步步来确定请求地址。

1、搜索结果页面为 1 时，URL 地址如下：

python爬取dblp文献信息 python文献搜索文献爬取_python爬取dblp文献信息_03

2、搜索结果页面为 3 时，URL 地址如下：

python爬取dblp文献信息 python文献搜索文献爬取_python爬取dblp文献信息_04

3、搜索结果页面为 21 时，即最后一页，URL 地址如下：

python爬取dblp文献信息 python文献搜索文献爬取_python url编码_05

4、确认url地址差异的值：

从上面的图片中，我们发现 URL 地址的差异就在于 page_index 的值，所以 URL 地址最终为

URL 地址http://search.dangdang.com/?key=python&act=input&show=big&page_index=

而 page_index 的值，我们可以通过循环依次在地址后面添加。

因此， urllib 请求代码可以这样写：

5、urllib 请求代码：

# 爬取地址, 当当所有 Python 的书籍, 一共是 21 页    url = "http://search.dangdang.com/?key=python&act=input&show=big&page_index="        index = 1    while index <= 21:        # 发起请求        request = urllib.request.Request(url=url+str(index), headers=headers)        response = urllib.request.urlopen(request)        index = index + 1        # 解析爬取内容        parseContent(response)        time.sleep(1)  # 休眠1秒

6、确定爬取节点

有了 URL 地址，就能使用 urllib 获取到页面的 html 内容。

到这里，我们就需要找到爬取的节点的规则，以便于 BeautifulSoup 地解析。

搞定这个问题，就要祭出大招 —— Chrome 浏览器的开发者功能(按下 F12 键就能启动)。

我们按下 F12 键盘，依次对每本书进行元素检查(在页面使用鼠标右键，点击“检查”即可)，具体结果如下：

python爬取dblp文献信息 python文献搜索文献爬取_python 写csv_06

从上图可以得知解析规则：每本书的节点是一个 a 标签，a 标签具有 title，href，子标签 img 的 src 三个属性，这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动，感叹这不就是我们要感兴趣的内容吗？得到解析规则，编写BeautifulSoup 解析代码就有了思路，具体代码如下：

# 提取爬取内容中的 a 标签, 例如：# ##   # soup = BeautifulSoup(response)books = soup.find_all('a', class_='pic')print(books)

运行结果如下：

python爬取dblp文献信息 python文献搜索文献爬取_python url编码_07

这证明刚才制定规则是正确爬取我们所需的内容。

7、保存爬取信息

我写爬虫程序有个习惯，就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。

如果爬取数据量比较大，我们可以用其做数据分析。

我这里为了方便，就将数据保存到 csv 文件中。

用 Python 将数据写到文件中，我们经常中文乱码问题所烦恼。

如果单纯使用 csv 库，可能摆脱不了这烦恼。

所以我们将 csv 和 codecs 结合一起使用。

在写数据到 csv 文件的时候，我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:

fileName = 'PythonBook.csv'# 指定编码为 utf-8, 避免写 csv 文件出现中文乱码with codecs.open(fileName, 'w', 'utf-8') as csvfile:    filednames = ['书名', '页面地址', '图片地址']    writer = csv.DictWriter(csvfile, fieldnames=filednames)    writer.writeheader()    for book in books:        # print(book)        # print(book.attrs)        # 获取子节点        # (book.children)[0]        if len(list(book.children)[0].attrs) == 3:            img = list(book.children)[0].attrs['data-original']        else:            img = list(book.children)[0].attrs['src']        writer.writerow({'书名': book.attrs['title'], '页面地址': book.attrs['href'], '图片地址': img})

看到这里，你可能会问为什么不把编码指定为 gb2312 呢，这样用 ecxel 打开就不会乱码了？原因是当书名全部为英文单词时，使用 gb2312 编码，writer.writerow()会出现编码错误的问题。

如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步：