官方文档加载比较慢(估计是我党的原因)
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-parents-find-parent
1、下载BeautifulSoup4
2、导入模块
from bs4 import BeautifulSoup
3、使用BeautifulSoup获取标签中的text
from bs4 import BeautifulSoup s1 = """ <p class="ql-align-justify"> 在纪录表上,火箭少女中包括孟美岐、吴宣仪、杨超越、段奥娟、Yamy、赖美云、张紫宁及李紫婷,在身高、体重的字段上都有至少一项的数据,不过除了赖美云之外,其他像孟美岐、吴宣仪等人的身高都比官方公布的数字矮1到3厘米,像杨超越官方数字是168厘米,但实际身高是166.5厘米。</p> """ bs = BeautifulSoup(s1, "html.parser") print(bs.text)
目的:从HTML文件提取文本
4、作用:去除指定的标签,目的:富文本框防止XSS攻击
from bs4 import BeautifulSoup bs = BeautifulSoup(s1, "html.parser") ret = bs.text # print(ret) ret = bs.find_all() print(ret) for tag in bs.find_all(): print(tag.name) if tag.name == "script": tag.decompose()