坐落在北京西山凤凰岭山脚下的龙泉寺,可以称得上是全国甚至全球科研实力最强的佛教寺庙。寺内高僧们搞科研、写代码,将佛学与新技术相结合,成果不断,持续被外界关注着。

在汉传佛教的两千多年里,历朝历代都对《大藏经》进行翻译、增补、修订,为了使人们阅读古文典籍更加便捷,同时提高学者的工作效率,龙泉寺在整理和校勘的《大藏经》时,运用了包括深度学习、OCR、NLP在内的现代技术来改变传统《大藏经》的解读方式。例如,在没有人工干预的前提下,根据算法给古籍文本自动标注出现代中文标点的技术,通过OCR识别出文字后可通过NLP做语言生成、语言理解、机器翻译,大大方便了现代读者阅读。

nlp 实体识别 类别 nlp文字识别_数据

NLP是什么?

自然语音处理(NLP)是一种专业分析人类语言的人工智能,它的工作原理是先接收到通过人类使用演变而来的自然语言;再转译成自然语言,这通常是通过基于概率的算法进行转变的;最后再分析自然语言并输出最终结果。NLP就是利用人类交流所使用的自然语言与机器进行交互通讯的技术,对自然语言各方面(包括话语、句法结构、单词、语意解释等)的分析,理解出用户想表达的意思,从而得到机器可读并理解的语言。简单来说,这是创建算法的一种过程。

实体抽取

实体抽取是一项非常常见的NLP任务,实体抽取也就是命名实体识别,包括实体的检测和分类,比如识别人名、地名等;实现它的方法有许多种,主要分为两个方向:一是基于实体名字典进行字符匹配抽取;二是用序列预测模型进行抽取。

序列预测模型又可以选用机器学习模型,比如条件随机场(CRF)或者选用神经网络,比如CRF+LSTM或者CRF+BERT等。

具体选用哪种方法,这还需要看我们抽取的实体类型、文献类型和文献具体数量。

目前最好用的实体抽取模型是条件随机场(CRF),CRF主要优势在于它的核心其实是一种判别式的分类模型,同时还考虑到了上下文关系的转移概率,并分析出上下文关系,所以条件随机场在实用中是一种简化版的模型。CRF还可以使用很多特征来训练模型,而人工设计的特征在实体提取任务中也是非常重要的,特别是字典特征,比如中文名的百家姓词典,情感词词典,这在模型中起着非常重要的作用。

nlp 实体识别 类别 nlp文字识别_人工智能_02

 数据标注对NLP的重要性

近年来,人工智能发展一直是热门话题,作为人工智能的三大决定性影响因素:算法、算力和数据,在过去的几年中也取得了很大的突破。都说数据是人工智能的血液,而数据只有加上了标注才会变得有意义。目前成熟的机器学习技术是监督式学习,监督式学习的核心就是把数据特征处理后提供给机器进行训练。深度学习NLP属于人工智能的一种,因此需要大量的标注数据对其进行训练。

nlp 实体识别 类别 nlp文字识别_人工智能_03

景联文为NLP提供数据支持

景联文科技专注于AI基础数据服务, 自研数据标注平台,涵盖绝大多数主流标注工具,支持NLP标注业务,数据库里自然语言处理相关训练集超过20万条。NLP标注,对对标注人员的理解能力要求较高,景联文科技拥有千人从业经验丰富的数据标注团队,可为NLP领域提供数据采集和数据标注服务。

为保证标注数据的准确性,景联文科技对标注工具、标注规则及标注流程的开发制定和标注人员的素质培养进行了全方位升级。同时NLP对语料模型的精确度要求很高,需要大量的数据对其进行训练,景联文具备行业领域相关知识,更懂场景、技术以及极具有行业的前瞻性和较高的场景化数据采集能力,可为人工智能细分场景的落地提供更加垂直且丰富的数据,以满足其长尾场景的需求。