python信息标记与信息提取

原创

WongKyunban 2022-08-03 10:10:26 博主文章分类：python ©著作权

文章标签 信息标记信息提取搜索字符串 json 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者WongKyunban的原创作品，请联系作者获取转载授权，否则将追究法律责任

对信息进行标记后，可以增加信息的维度，形成信息的组织结构。可用于通信、程序等方面。

国际公认的信息标记有三种：

XML：可扩展标记语言，通过标签来构建信息。扩展性好，常用于Internet的信息交互和传递。
JSON：通过有类型的键值对来构建信息。非常适合程序处理，特别适合移动云端和节点通信。一般都用在程序对接口处理的地方。JSON比XML简单，可惜的是JSON没有注释。
YAML：通过无类型的键值对来构建信息，通过缩进方式来表示关系。用‘｜’表示一整块内容，用‘＃‘表示注释，用’-'减号表示并列关系。YAML的文本信息比例较高，它常用于各类系统的配置文件中。

xml标记信息示例：

<person>
   <firstName>Tomason</firstName>
   <lastName>Wong</lastName>
   <address>
       <streetAddr>BeiJing Road No.1 BeiJing China</streetAddr>
       <city>BeiJing</city>
       <zipcode>10000</zipcode>
   </address>
   <prof>Computer System</prof>
   <prof>Security</prof>
</person>

JSON标记信息示例：

{
  "person": {
    "firstName": "Tomason",
    "lastName": "Wong",
    "address": {
      "streetAddr": "BeiJing Road No.1 BeiJing China",
      "city": "BeiJing",
      "zipcode": "10000"
    },
    "prof": [
      "Computer System",
      "Security"
    ]
  }
}

YAML标记信息示例：

person:
  firstName: Tomason
  lastName: Wong
  address: {streetAddr: BeiJing Road No.1 BeiJing China, city: BeiJing, zipcode: '10000'}
  prof: [Computer System, Security]

信息提取

方法一：完整解析信息的标记形式，再提取关键信息
优点：信息分析准确
缺点：提取过程繁琐且速度慢
例子：用bs4库就可以完成。
方法二：无视任何标记形式，直接搜索关键信息
这种方式需要相应的库提供对信息文本的查找函数。
优点：提取过程简洁、快速
缺点：提取结果的准确性直接与信息内容相关

方法三：融合方法，综合了方法一和方法二的优点
这里我们可以用bs4作为标记解析器和文本搜索功能。
bs4提供了一个函数：

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找的结果
name：对标签名称的检索字符串。
attrs：对标签属性值的检索字符串，可标属性检索
recursive：是否对子孙全部检索，默认True
string：<>…</>中字符串区域的检索字符串。
在检索时，我们还可以用上正则表达式。
示例代码：

import requests
from bs4 import BeautifulSoup
import re


def find_all_url(rul):
    r = requests.get(url)
    r.raise_for_status()
    if r.encoding == "ISO-8859-1":
        r.encoding = r.apparent_encoding
    soup = BeautifulSoup(r.text, 'html.parser')
    # 找到所有的a标签
    # 遍历所有a标签，获取href属性的值
    for link in soup.findAll('a'):
        # print(link["href"])
        print(link.get("href"))


def find_html_content(url):
    r = requests.get(url)
    r.raise_for_status()
    if r.encoding == "ISO-8859-1":
        r.encoding = r.apparent_encoding
    soup = BeautifulSoup(r.text, 'html.parser')
    # 查找所有a标签
    print(soup.find_all('a'))
    # 查寻a标签，且两个属性class＝mnav,name=tj_trnews的标签
    for tag in soup.find_all(name='a', attrs={'class': 'mnav', 'name': 'tj_trnews'}):
        print(tag)
    # 查询name属性以tj_开头的标签,内容中有“新”字的标签
    for tag in soup.find_all(attrs={'name': re.compile('tj_')}, text=re.compile("新")):
        print(ag)
    #  soup(...)等价于soup.find_all(...)
    # <tag>(...)等价于<tag>.find_all(...)
    for tag in soup(attrs={'name': re.compile('tj_')}):
        print(tag)


if __name__ == "__main__":
    url = "http://www.baidu.com"
    # find_all_url(url)
    find_html_content(url)

find的扩展方法

方法	说明
<>.find()	搜索且返回一个结果，字符串类型，同find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同find_all()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同find_all()参数
<>.find_next_sibling()	在后续平行节点中搜索，返回一个结果，同find_all()参数
<>.find_previous_siblings()	在前续平行节点中搜索，返回列表类型，同find_all()参数
<>.find_previous_sibling	在前续平行节点中搜索，返回一个结果，同find_all()参数