近日因工作需要,需筛选出根据词性将音频转的文本中的人名,主要是中国人名字。选择汉语言处理包HanLP实现这一目标, 本文将梳理了基于python的HanLP工具包的一些基本用法,便于日后需要时的查找使用。

HanLP基本用法

  • 简介
  • 安装
  • 基本功能语法
  • 分词、词性标注
  • 依存句法分析
  • 关键词提取
  • 摘要抽取
  • 感知机词法分析
  • 中国人名识别
  • 音译人名识别
  • 短语提取
  • 拼音转换
  • 繁简转换


简介

HanLP 是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。

安装

from pyhanlp import *

基本功能语法

分词、词性标注

entence = "我爱自然语言处理技术!"
s_hanlp = HanLP.segment(sentence)
for term in s_hanlp:
    print(term.word, term.nature)

##输出结果
我 rr
爱 v
自然语言处理 nz
技术 n
! w

依存句法分析

s_dep = HanLP.parseDependency(sentence)
print(s_dep)

##输出结果
1	我	我	r	r	_	2	主谓关系	_	_
2	爱	爱	v	v	_	0	核心关系	_	_
3	自然语言处理	自然语言处理	nz	nz	_	4	定中关系	_	_
4	技术	技术	n	n	_	2	动宾关系	_	_
5	!	!	wp	w	_	2	标点符号	_	_

关键词提取

document = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
'''
doc_keyword = HanLP.extractKeyword(document, 3)
for word in doc_keyword:
    print(word)
##输出结果
研究
自然语言
自然语言处理

摘要抽取

doc_keysentence = HanLP.extractSummary(document, 3)
for key_sentence in doc_keysentence:
    print(key_sentence)
##输出结果
自然语言处理并不是一般地研究自然语言
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法

感知机词法分析

PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
##结果输出
[上海/ns 华安/nz 工业/n (/w 集团/n )/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来]

中国人名识别

NER = HanLP.newSegment().enableNameRecognize(True)
p_name = NER.seg('王国强、高峰、汪洋、张朝阳光着头、韩寒、小四')
print(p_name)
##输出结果
[王国强/nr, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 光着头/l, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]

音译人名识别

sentence = '微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克,这些硅谷的科技人'
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)
##输出结果
[微软/ntc, 的/ude1, 比尔盖茨/nrf, 、/w, Facebook/nx, 的/ude1, 扎克伯格/nrf, 跟/p, 桑德博格/nrf, 、

短语提取

phraseList = HanLP.extractPhrase(document, 3)
print(phraseList)
##输出结果
[计算机科学, 中的重要, 之间自然语言]

拼音转换

s = '重载不是重任'
pinyinList = HanLP.convertToPinyinList(s)
for pinyin in pinyinList:
    print(pinyin.getPinyinWithoutTone(),pinyin.getTone(), pinyin, pinyin.getPinyinWithToneMark())
###输出结果
chong 2 chong2 chóng
zai 3 zai3 zǎi
bu 2 bu2 bú
shi 4 shi4 shì
zhong 4 zhong4 zhòng
ren 4 ren4 rèn

声母、韵母

for pinyin in pinyinList:
    print(pinyin.getShengmu(), pinyin.getYunmu())
###输出结果
ch ong
z ai
b u
sh i
zh ong
r en

繁简转换

Jianti = HanLP.convertToSimplifiedChinese("我愛自然語言處理技術!")
Fanti = HanLP.convertToTraditionalChinese("我爱自然语言处理技术!")
print(Jianti)
print(Fanti)
####输出结果
我爱自然语言处理技术!
我愛自然語言處理技術!