python爬虫(三、提取网页内容,文档遍历)

原创

Issue!!! 2022-02-11 14:59:06 博主文章分类：python爬虫 ©著作权

©著作权归作者所有：来自51CTO博客作者Issue!!!的原创作品，请联系作者获取转载授权，否则将追究法律责任

先通过一下代码获取豆瓣的首主页文档先通过一下代码获取豆瓣的首主页文档先通过一下代码获取豆瓣的首主页文档

import urllib.request,urllib.error
import urllib.parse
from bs4 import BeautifulSoup
url="http://www.douban.com/"
head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"}
reponse=urllib.request.Request(url=url,headers=head)
html=urllib.request.urlopen(reponse).read().decode('utf-8')
bs=BeautifulSoup(html,"html.parser")

Ⅰ . . c o n t e n t s ( ) 方法 \color{Red}Ⅰ.\ \ \ \ \ \ .contents()方法 Ⅰ. .contents()方法

这个方法返回某个节点下的所有子节点 , 构成一个列表这个方法返回某个节点下的所有子节点,构成一个列表这个方法返回某个节点下的所有子节点,构成一个列表

list=bs.head.contents
print(list)

python爬虫(三、提取网页内容,文档遍历)_子节点

有了这个列表 , 就可以方便的遍历想要的内容有了这个列表,就可以方便的遍历想要的内容有了这个列表,就可以方便的遍历想要的内容

Ⅱ . . f i n d _ a l l ( ) 方法 \color{orange}Ⅱ.\ \ \ \ .find\_all()方法 Ⅱ. .find_all()方法

Ⅱ . 1 、查询所有的某类标签 , 组成一个列表返回 Ⅱ.1、查询所有的某类标签,组成一个列表返回 Ⅱ.1、查询所有的某类标签,组成一个列表返回

list=bs.find_all("p")
print(list)

这是返回了所有 p 标签的列表这是返回了所有p标签的列表这是返回了所有p标签的列表

Ⅱ . 2 、使用正则表达式匹配搜索 Ⅱ.2、使用正则表达式匹配搜索 Ⅱ.2、使用正则表达式匹配搜索

这里需要额外引入正则的库 r e 这里需要额外引入正则的库re 这里需要额外引入正则的库re

import re
list=bs.find_all(re.compile("a"))  #re.compile()创造一个正则表达式
print(list)

使用正则表达式匹配 , 只要标签中含此字样 , 都会加入列表返回回来使用正则表达式匹配,只要标签中含此字样,都会加入列表返回回来使用正则表达式匹配,只要标签中含此字样,都会加入列表返回回来

Ⅱ . 3 、传入自定义的函数 , 依靠函数要求来搜索 Ⅱ.3、传入自定义的函数,依靠函数要求来搜索 Ⅱ.3、传入自定义的函数,依靠函数要求来搜索

如下面函数的作用是返回有 n a m e 属性的标签如下面函数的作用是返回有name属性的标签如下面函数的作用是返回有name属性的标签

def name_is_exits(tag):
    return tag.has_attr("name") #.has_attr()检查是否有该属性

list=bs.find_all(name_is_exits)
print(list)

Ⅱ . 4 、传入参数按照参数要求查找 Ⅱ.4、传入参数按照参数要求查找 Ⅱ.4、传入参数按照参数要求查找

下面是找 i d = " f t " 的标签 , 包括此标签内的所有节点组成列表下面是找id="ft"的标签,包括此标签内的所有节点组成列表下面是找id="ft"的标签,包括此标签内的所有节点组成列表

list=bs.find_all(id="ft")
for item in list:
    print(item)

下面是找 c l a s s 存在的标签 , 包含子节点返回组成列表下面是找class存在的标签,包含子节点返回组成列表下面是找class存在的标签,包含子节点返回组成列表

list=bs.find_all(class_=True)
for item in list:
    print(item)

Ⅱ . 5 、 t e x t 参数 Ⅱ.5、text参数 Ⅱ.5、text参数

传入 t e x t 参数可以匹配标签内的文本内容传入text参数可以匹配标签内的文本内容传入text参数可以匹配标签内的文本内容

list=bs.find_all(text=["豆瓣","电影"])
for item in list:
    print(item)

python爬虫(三、提取网页内容,文档遍历)_正则表达式_02

当然 , 也可以给 t e x t 一个正则表达式去匹配当然,也可以给text一个正则表达式去匹配当然,也可以给text一个正则表达式去匹配

Ⅱ . 6 、 l i m i t 参数 Ⅱ.6、limit参数 Ⅱ.6、limit参数

设置 l i m i t 来限制查找的数目设置limit来限制查找的数目设置limit来限制查找的数目

list=bs.find_all("a",limit=3)
for item in list:
    print(item)

这样只会返回一个含 3 个 a 标签的列表这样只会返回一个含3个a标签的列表这样只会返回一个含3个a标签的列表

Ⅲ . 选择器 . s e l e c t ( ) 搜索 \color{green}Ⅲ.选择器.select()搜索 Ⅲ.选择器.select()搜索

使用 . s e l e c t ( ) 方法 , 搜索 c l a s s , i d 等等使用.select()方法,搜索class,id等等使用.select()方法,搜索class,id等等

list1=bs.select('.content') #获取class=content的标签
list2=bs.select('#ft') #获取id=ft的标签
list3=bs.select('div[class="content"]')  #获取class="content"的div标签
list4=bs.select("head > title") #获取head下面的title标签