全能NLP工具HarvestText_编程语言

向AI转型的程序员都关注了这个号????????????

人工智能大数据与深度学习  公众号:datayx

用途

HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。适用于许多文本预处理和初步探索性分析任务,在小说分析,网络文本,专业文献等领域都有潜在应用价值。

使用案例:

全能NLP工具HarvestText_人工智能_02

全能NLP工具HarvestText_编程语言_03

【注:本库仅完成实体分词和情感分析,可视化使用matplotlib】

  • 近代史纲要信息抽取及问答系统(命名实体识别,依存句法分析,简易问答系统)

本README包含各个功能的典型例子,部分函数的详细用法可在文档中找到:

文档

具体功能如下:

目录:

  • 基本处理
  • 本库主要旨在支持对中文的数据挖掘,但是加入了包括情感分析在内的少量英语支持
  • 可以本地保存模型再读取复用,也可以消除当前模型的记录。
  • 使用TextTiling算法,对没有分段的文本自动分段,或者基于已有段落进一步组织/重新分段
  • 把语句中有可能是已知实体的错误拼写(误差一个字符或拼音)的词语链接到对应实体。
  • 利用统计规律(或规则)发现语料中可能会被传统分词遗漏的特殊词汇。也便于从文本中快速筛选出关键词。
  • 统计特定实体出现的位置,次数等。
  • 通用停用词,通用情感词,IT、财经、饮食、法律等领域词典。可直接用于以上任务。
  • 分析语句中各个词语(包括链接到的实体)的主谓宾语修饰等语法关系,
  • 从大量文本中自动识别出实体及其可能别名,直接用于实体链接。例子见这里
  • 找到一句句子中的人名,地名,机构名等命名实体。
  • 把别名,缩写与他们的标准名联系起来。
  • 处理URL, email, 微博等文本中的特殊符号和格式,去除所有标点等
  • 可包含指定词和类别的分词。充分考虑省略号,双引号等特殊标点的分句。
  • 精细分词分句
  • 文本清洗
  • 实体链接
  • 命名实体识别
  • 实体别名自动识别(更新!)
  • 依存句法分析
  • 内置资源
  • 信息检索
  • 新词发现
  • 字符拼音纠错(调整)
  • 自动分段
  • 存取消除
  • 英语支持
  • 高层应用
  • 从三元组中建立知识图谱并应用于问答,可以定制一些问题模板。效果有待提升,仅作为示例。
  • 利用句法分析,提取可能表示事件的三元组。
  • 基于Textrank, tfidf等算法,获得一段文本中的关键词
  • 基于Textrank算法,得到一系列句子中的代表性句子。
  • 利用共现关系,获得关键词之间的网络。或者以一个给定词语为中心,探索与其相关的词语网络。
  • 给出少量种子词(通用的褒贬义词语),得到语料中各个词语和语段的褒贬度。
  • 情感分析
  • 关系网络
  • 文本摘要
  • 关键词抽取
  • 事实抽取
  • 简易问答系统

项目 获取方式

关注微信公众号 datayx  然后回复 HT  即可获取。

AI项目体验地址 https://loveai.tech

用法

首先安装, 使用pip

pip install --upgrade harvesttext

或进入setup.py所在目录,然后命令行:

python setup.py install

随后在代码中:

from harvesttext import HarvestText
ht = HarvestText()

即可调用本库的功能接口。

实体链接

给定某些实体及其可能的代称,以及实体对应类型。将其登录到词典中,在分词时优先切分出来,并且以对应类型作为词性。也可以单独获得语料中的所有实体及其位置:

全能NLP工具HarvestText_机器学习_04

采用传统的分词工具很容易把“武球王”拆分为“武 球王”

词性标注,包括指定的特殊类型。

全能NLP工具HarvestText_大数据_05

这里把“武球王”转化为了标准指称“武磊”,可以便于标准统一的统计工作。

分句:

print(ht.cut_sentences(para))


['上港的武磊和恒大的郜林,谁是中国最好的前锋?', '那当然是武磊武球王了,他是射手榜第一,原来是弱点的单刀也有了进步']


如果手头暂时没有可用的词典,不妨看看本库内置资源中的领域词典是否适合你的需要。

如果同一个名字有多个可能对应的实体("打球的李娜和唱歌的李娜不是一个人"),可以设置​​keep_all=True​​来保留多个候选,后面可以再采用别的策略消歧,见el_keep_all()

如果连接到的实体过多,其中有一些明显不合理,可以采用一些策略来过滤,这里给出了一个例子filter_el_with_rule()

本库能够也用一些基本策略来处理复杂的实体消歧任务(比如一词多义【"老师"是指"A老师"还是"B老师"?】、候选词重叠【xx市长/江yy?、xx市长/江yy?】)。具体可见linking_strategy()

文本清洗

可以处理文本中的特殊字符,或者去掉文本中不希望出现的一些特殊格式。

包括:微博的@,表情符;网址;email;html代码中的 一类的特殊字符;网址内的%20一类的特殊字符;繁体字转简体字

例子如下:

全能NLP工具HarvestText_人工智能_06

全能NLP工具HarvestText_大数据_07

全能NLP工具HarvestText_大数据_08

情感分析

本库采用情感词典方法进行情感分析,通过提供少量标准的褒贬义词语(“种子词”),从语料中自动学习其他词语的情感倾向,形成情感词典。对句中情感词的加总平均则用于判断句子的情感倾向:

全能NLP工具HarvestText_人工智能_09

如果没想好选择哪些词语作为“种子词”,本库中也内置了一个通用情感词典内置资源,在不指定情感词时作为默认的选择,也可以根据需要从中挑选。

默认使用的SO-PMI算法对于情感值没有上下界约束,如果需要限制在[0,1]或者[-1,1]这样的区间的话,可以调整scale参数,例子如下:

全能NLP工具HarvestText_编程语言_10

全能NLP工具HarvestText_数据挖掘_11

信息检索

可以从文档列表中查找出包含对应实体(及其别称)的文档,以及统计包含某实体的文档数。使用倒排索引的数据结构完成快速检索。

全能NLP工具HarvestText_人工智能_12

关系网络

(使用networkx实现) 利用词共现关系,建立其实体间图结构的网络关系(返回networkx.Graph类型)。可以用来建立人物之间的社交网络等。

全能NLP工具HarvestText_机器学习_13

全能NLP工具HarvestText_大数据_14

刘关张之情谊,刘备投奔的靠山,以及刘备讨贼之经历尽在于此。

文本摘要

(使用networkx实现) 使用Textrank算法,得到从文档集合中抽取代表句作为摘要信息,可以设置惩罚重复的句子,也可以设置字数限制(maxlen参数):

全能NLP工具HarvestText_人工智能_15

关键词抽取

目前提供包括​​textrank​​​和HarvestText封装jieba并配置好参数和停用词的​​jieba_tfidf​​(默认)两种算法。

示例(完整见example):

全能NLP工具HarvestText_数据挖掘_16

新词发现

从比较大量的文本中利用一些统计指标发现新词。(可选)通过提供一些种子词语来确定怎样程度质量的词语可以被发现。(即至少所有的种子词会被发现,在满足一定的基础要求的前提下。)

全能NLP工具HarvestText_人工智能_17

自动分段

使用TextTiling算法,对没有分段的文本自动分段,或者基于已有段落进一步组织/重新分段。

全能NLP工具HarvestText_大数据_18

与原始论文中不同,这里以分句结果作为基本单元,而使用不是固定数目的字符,语义上更加清晰,且省去了设置参数的麻烦。因此,默认设定下的算法不支持没有标点的文本。但是可以通过把​​seq_chars​​​设置为一正整数,来使用原始论文的设置,为没有标点的文本来进行分段,如果也没有段落换行,请设置​​align_boundary=False​​​。例见​​examples/basic.py​​​中的​​cut_paragraph()​​:

全能NLP工具HarvestText_编程语言_19

存取消除

可以本地保存模型再读取复用,也可以消除当前模型的记录。

全能NLP工具HarvestText_人工智能_20

简易问答系统

具体实现及例子在naiveKGQA.py中,下面给出部分示意:

全能NLP工具HarvestText_编程语言_21



不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

全能NLP工具HarvestText_机器学习_22


机大数据技术与机器学习工程

 搜索公众号添加: datanlp

全能NLP工具HarvestText_机器学习_23

长按图片,识别二维码