测验2: Python网络爬虫之提取 (第2周)
1. 下面哪个Python库不能用于提取网页信息?
- A re
- B Beautiful Soup
- C lxml
- D requests
正确答案 D
requests是爬虫库,只用于获取页面,不对页面信息进行提取。
2. 下面代码中,BeautifulSoup指什么?
from bs4 import BeautifulSoup
- A bs4库中的一个函数名称
- B 类的名称
- C Python第三方库的名字
- D 用户定义的变量名称
正确答案 B
from bs4 import BeautifulSoup
指从bs4库中引入一个元素(函数或类),这里BeautifulSoup是类。
3. 在bs4库中,下面说法错误的是:
- A 一个HTML文档可以包含多个标签树
- B 一个HTML文档与一个标签树等价
- C 标签树上除了标签外,节点还可能是字符串(NavigableString)类型。
- D 一个HTML文档与BeautifulSoup对象等价
正确答案 A
一个文档只对应一个标签树
4. 下面代码中,href属于哪个类别?
<a class="title" href="https://python123.io/ws/demo.html"> TEXT </a>
- A 字符串
- B 名称
- C 属性
- D 标签
正确答案 C
a是标签,href是属性。
5. 获得soup对象中,能够获得a标签全部属性的代码是:
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
- A soup.a.attrs[0]
- B soup.a[0].attrs
- C soup.a.attrs[]
- D soup.a.attrs
正确答案 D
a标签是HTML预定义标签,通过soup.a可以直接获取。
6. 下面哪个不是信息提取的思路?
- A 通过自然语言处理方式找到所需提取的信息。
- B 结合部分格式解析和搜索的方式提取所需要的信息。
- C 无视格式,直接搜索找到所需提取的信息。
- D 按照信息格式完全解析,解析后找到所需提取的信息。
正确答案 A
自然语言理解一般针对语言文本,HTML等信息标记格式产生的文本需要采用信息提取方式获得语言文本,才使用自然语言理解方式进一步处理(如果有需要的话)。
7. 为什么Beautiful Soup库叫这个名字?
- A 开发者喜欢煲汤
- B 原因不详,第三方库起名原因多种多样,没必要深究
- C 之前有类似的库叫类似的名字
- D Python Software Foundation要求开发者叫这个名字
正确答案 B
Python计算生态采用"集市"模式,命名权归贡献者。
8. Beautiful Soup库不可加载的解析器是:
- A lxml
- B html.parser
- C html5lib
- D re
正确答案 D
bs4解析器是能够解释HTML或XML的一个第三方库,re是用来表达并匹配正则表达式的,不能够装载到bs4库中。
9. 不属于bs4库遍历标签树方法的是:
- A 下行遍历
- B 跳跃遍历
- C 平行遍历
- D 上行遍历
正确答案 B
遍历树一般没有"跳跃遍历"。
10. 关于Beautiful Soup库说法错误的是:
- A Beautiful Soup库能够对HTML和XML等格式进行解析
- B Beautiful Soup库可常用于生成标签树
- C Beautiful Soup库也叫bs4库
- D Beautiful Soup库是解析、遍历、维护标签树的功能库
正确答案 B
Beautiful Soup库不能够生成标签树,只能解析、遍历和维护。