通过NLP图数据库和深度学习技术,分析污染扩散的趋势和影响。

  针对本需求,我针对NLP与知识图谱做了一个调研。

 

  首先nlp是什么,知识图谱是什么,nlp怎么与知识图谱进行连接。

 

一:NLP

 1.定义

  自然语言处理是数据科学领域中最热门的主题之一。公司正在将大量资金用于该领域的研究。每个人都在尝试了解自然语言处理及其应用,以围绕它开展职业。那里的每个企业都希望以某种方式将其整合到他们的企业中。

  

基于知识库的nlp nlp知识图谱实战_基于知识库的nlp

 

  自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

 

 

 2.为什么需要nlp

  

基于知识库的nlp nlp知识图谱实战_基于知识库的nlp_02

 

  网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…,想要处理这些非结构化的数据就需要利用 NLP 技术

  为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

 

3.nlp中的两大核心任务

  

基于知识库的nlp nlp知识图谱实战_自然语言处理_03

 

 

   

  NLP 有2个核心的任务:

  自然语言理解 

    自然语言理解的5个难点:

  1. 语言的多样性
  2. 语言的歧义性
  3. 语言的鲁棒性
  4. 语言的知识依赖
  5. 语言的上下文

  自然语言生成 – NLG

    NLG 的6个步骤:

  1. 内容确定 – Content Determination
  2. 文本结构 – Text Structuring
  3. 句子聚合 – Sentence Aggregation
  4. 语法化 – Lexicalisation
  5. 参考表达式生成 – Referring Expression Generation|REG
  6. 语言实现 – Linguistic Realisation

 

4.常见的NLP 任务

  分词、词嵌入、新词发现、拼写提示、词性标注、文本分类、机器翻译、自动摘要、阅读理解、情感分析、搜索引擎、QA问答、聊天机器人、知识图谱

 

 

二:知识图谱

1.说明

  知识图谱是由 Google 公司在 2012 年提出来的一个新的概念。

  自然语言生成 – NLG人类可以识别的信息,可以使用知识图谱进行展示。

  【所以,知识图谱也是NLP的一个典型应用

  

2.定义

  知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系,然后再是构建图,以及存储。

  

基于知识库的nlp nlp知识图谱实战_基于知识库的nlp_04

 

 

3.为什么需要图

  一图胜千言

 

  知识图谱是人工智能很重要的一个分支, 人工智能的目标为了让机器具备像人一样理性思考及做事的能力

  

基于知识库的nlp nlp知识图谱实战_图数据库_05

 

 

 

4.抽取

  1、抽取实体Name Entity Recognition

    Name Entity:关注的实体,问题不同关注的不同,往往包含:人名地名位

  2、Relation Extraction关系抽取

    可以看做分类问题,输入一堆信息,输出一个关系

 

  例如:机器能读完一本哈利波特之后,懂得书中有哪些实体以及实体之间的关系。

 

5.抽取处理步骤

  方式 1:传统机器学习的 NLP 流程

   

基于知识库的nlp nlp知识图谱实战_图数据库_06

 


  方式 2:深度学习的 NLP 流程

   

基于知识库的nlp nlp知识图谱实战_自然语言处理_07

 

 

  

  实体抽取是一项非常常见的 NLP 任务,实现它的方法有多种,大体而言分为两个方向:

    i)基于实体名字典进行字符匹配抽取;

    ii)用序列预测模型进行抽取。

      序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如 CRF+LSTM,或 CRF+BERT等。

6.构建图

  在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

    实体命名识别(Name Entity Recognition)
    关系抽取(Relation Extraction)
    实体统一(Entity Resolution)
    指代消解(Coreference Resolution)

7.存储

  知识图谱主要有两种存储方式:

  • 一种是基于RDF的存储;
  • 另一种是基于图数据库的存储。

  

基于知识库的nlp nlp知识图谱实战_自然语言处理_08

 

 

8.图数据库neo4j

  Neo4j系统目前仍是使用率最高的图数据库,它拥有活跃的社区,而且系统本身的查询效率高,但唯一的不足就是不支持准分布式

   

基于知识库的nlp nlp知识图谱实战_基于知识库的nlp_09


 

 

 

三:我们的实现

1.NLP的难点

  最典型的知识图谱,比较复杂。

  我们的业务应该不需要这么复杂。

  

基于知识库的nlp nlp知识图谱实战_图数据库_10

 

 

2.遇到的问题

  1.我们要做什么,业务场景是否符合

    或者说,我们的图要做成什么样子,可否有示意图。

  2.使用哪种算法,是否需要复杂的算法,算法需要一点时间选取和学习【CNN,RNN,GCN】

  3.算法得到的结果存库的难题,

    或者说如何将实体和关系拿到