两周以前读了些文档自动摘要的论文,并针对其中两篇( [2] 和 [3] )做了presentation。下面把相关内容简单整理一下。文本自动摘要(Automatic Text Summarization)就是说在不改变文档原意的情况下,利用计算机程序自动地总结出文档的主要内容。自动摘要的应用场景非常多,例如新闻标题生成、科技文献摘要生成、搜索结果片段(snippets)生成、商品评论摘要等。在信息            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-22 22:01:05
                            
                                66阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            # 新闻要素 NLP 抽取
在自然语言处理(NLP)领域,新闻要素抽取是一个重要的任务,它可以帮助我们从新闻文章中提取出关键信息。新闻要素一般包括五个要素:谁(Who)、什么(What)、何时(When)、哪里(Where)和为什么(Why)。这些要素的抽取可以为信息检索、舆情分析等提供重要的支撑。
## 什么是新闻要素抽取?
新闻要素抽取属于信息提取(Information Extract            
                
         
            
            
            
            学习内容本文主要详细介绍事件抽取EE的概念;事件抽取 = 事件提取(Event Extraction EE)= 事件识别(Event Detection ED)很多事件抽取的方法将事件抽取分为两个阶段:EAE(event argument extraction) 和 ED(event detection)后者会根据触发词来确定事件的发生,发生了啥。 结构化数据和非结构化数据: 指的是一句话是不是已            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-18 23:20:06
                            
                                466阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、将语料库转化为向量(gensim)在对语料库进行基本的处理后(分词,去停用词),有时需要将它进行向量化,便于后续的工作。from gensim import corpora,similarities,models
import jieba
#第一步:确定语料库的语料和要进行判断的句子:
#wordlist作为语料库,语料库中有三句话,相当于三篇文章.
wordlist=['我喜欢编程','我想            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-28 11:10:22
                            
                                169阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Task02-数据读取与数据分析数据读取数据分析句子长度分析新闻类别分布字符分布结论  本次学习主要内容是:先用pandas读取数据,然后对数据进行简单的描述性统计。 数据读取训练集数据共20w条左右,下载解压后的格式即为csv格式,因此可以直接用pandas进行数据读取。import pandas as pd
train_df = pd.read_csv('train_set.csv', sep            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-10 20:50:51
                            
                                35阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录项目简介任务简介:BiLSTM-CRF模型发射分数Emission score转移分数Transition score路径分数Path score预测BiLSTM-CRF代码(略) 项目简介知识图谱、信息抽取以及规则系统 基于机器学习的信息抽取系统 基于深度学习的信息抽取系统(本节内容) 信息抽取最新研究与展望 信息抽取实战经验与面试准备任务简介:学习使用bilstm-crf解决ner问            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-02 19:44:25
                            
                                0阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本博客完全根据博主自己的理解写出来的有意见的欢迎提出。
 首先提出问题:
     1、nlp是什么?
     2、nlp的事件抽取是什么?
     3、事件抽取所处的位置?
     4、事件抽取的方法有哪些?
     5、模式匹配方法如何进行事件抽取?
     6、机器学习方法如何进行事件抽取?
     7、基于机器学习方法抽取方式的特点?
  1、nlp是什么?
    nlp是自            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-14 03:04:08
                            
                                133阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型。当时的文章仅作为笔者的一次尝试,在实际使用过程中,效果有限。   本文将讲述如何利用深度学习模型来进行人物关系抽取。人物关系抽取可以理解为是关系抽取,这是我们构建知识图谱的重要一步。本文人物关系抽取的主要思想是关系抽取的p            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-16 10:06:45
                            
                                11阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Neural Relation Extraction with Selective Attention over Instances阅读笔记论文:Neural Relation Extraction with Selective Attention over Instances发表会议:ACL2016作者:Yankai Lin, Shiqi Shen, Zhiyuan Liu, Huanbo Lu            
                
         
            
            
            
            这是一篇可能不出名,但是很实用的事件抽取论文,也很契合笨妞当下的使用。原文来自于这里,代码也比较好用。以下是翻译记录。********************************************分割线***********************************************一、概述 
  事件抽取是文本挖掘的一种常见应用,它提取句子甚至是通道的主要特征。我们的实验主            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-13 00:51:48
                            
                                71阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            0. 信息抽取信息抽取(information extraction, IE)是将非结构化或半结构化描述的自然语言文本转化成结构化特征的一种基础自然语言处理(NLP)任务,它包括三类子任务:抽取文本中指定类型的实体(实体抽取/命名实体识别,NER);抽取实体之间的语义关系(关系抽取,RE);文本中的事件(event)。1. 实体抽取(命名实体识别,NER)实体抽取(Entity Extractio            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-08 17:30:50
                            
                                242阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            信息抽取?188非结构化数据; 抽取实体; 抽取关系;评估方法: F1-ScoreNER方法分类利用规则, 比如美国电话(?:\(?[0-9]{3}\)?[0-9]{3}[ -.]?[0-9]{4})
投票模型, 统计每个单词的类型, 取频率最高的. 一般用作baseline利用分类模型1. 简单特征工程def get_feature(word: str):
    return np.array            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-31 10:47:01
                            
                                57阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 信息抽取从数据库中抽取信息是容易的,但对于从自然文本中抽取信息则不那么直观。通常信息抽取的流程如下图:  它开始于分句,分词。接下来进行词性标注,识别其中的命名实体,最后使用关系识别搜索相近实体间的可能的关系。2 分块分块是实体识别(NER)使用的基本技术,词性标注是分块所需的最主要信息。本节以名词短语(NP)为例,展示如何分块。类似的还可以对动词短语,介词短语等进行分块。下图展示了NP分块的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-25 18:12:10
                            
                                391阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            知识抽取NLP是人工智能领域的掌上明珠,知识(信息)抽取中关键技术主要是NLP处理技术,主要以命名实体识别(实体抽取)与实体链接、实体关系抽取、事件抽取为主。如下图所示不同数据源知识抽取的过程。文本数据处理如下图所示:实体抽取摘要实体抽取,又称命名实体识别(Named Entities Recognition,NER),主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,学术上所涉及一般包            
                
         
            
            
            
            知识抽取:通过识别、理解、筛选、格式化,把文献中的各个知识点抽取出来,以一定形式存入知识库中的过程。目的是增强信息的可使用性和可重用性,这个过程同时又可以看作对现有的非结构化信息的语义标注过程。知识抽取一共有三个核心子功能,分别是实体抽取、关系抽取、事件抽取。一,实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify),比如识别人名、地名等;二,关系抽取:是指自动识别实体            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-28 23:21:41
                            
                                145阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、什么是关系抽取关系抽取的主要任务就是,给定一段句子文本,抽取句子中的两个实体以及实体之间的关系,以次来构成一个三元组(s,p,o),s是subject表示主实体,o为object表示客实体,p为predicate表示两实体间的关系。总的来说,(s, p, o)可以理解的“s的p是o”。 当然一个句子中可能不止两个实体,从而也不止一种关系,所以你要做的就是尽可能多的、且正确的抽取句子中的关系实体            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-01 13:57:42
                            
                                154阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录项目简介任务简介:深度学习解决NLP任务传统方法解决NER问题深度学习解决NLP任务文本表示词向量语言模型N元语言模型N-gram Language model神经语言模型NNLM文本特征抽取器卷积神经网络膨胀Dilate加深循环神经网络LSTM Long Short Term MemoryBiLSTMTransformer注意力机制Encoder-Decoder框架Attention            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-09 08:20:30
                            
                                74阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            自然语言处理(NLP)主要研究人与计算机之间,使用自然语言进行有效通信的各种理论和方法。自然语言处理的主要技术范畴1、语义文本相似度分析语义文本相似度分析是对两段文本的意义和本质之间的相似度进行分析的过程。2、信息检索信息检索是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术。3、 信息抽取信息抽取是指从非结构化/半结构化文本(如网页、新闻、 论文文献、微博等)中提取指定            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-10 16:58:53
                            
                                233阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            任务简介:讲解信息抽取中涉及到的机器学习算法详细说明:本节首先介绍中文nlp的一般流程、命名实体识别问题的详细定义,引入信息抽取中的机器学习算法,包括隐马尔可夫模型、维特比算法等。一、中文自然语言处理简介机器学习基本流程中文自然语言处理 自然语言处理技术被称为“人工智能皇冠上的明珠” 。链接:中文NLP流程  中文分词
词性标注
去停用词 
二、命名实体识别            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-13 17:54:59
                            
                                150阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、事件抽取事件抽取 (Event Extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术。事件抽取是智能风控、智能投研、舆情监控等人工智能应用的重要技术基础,受到学术界和工业界的广泛关注。事件抽取任务涉及事件句抽取、触发词识别、事件类型判别、论元抽取等复杂技术。 二、说明1、事件抽取任务的目标是通过给定目标事件类型和角色类型集合及句子,识别句子中所有目            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-22 10:56:47
                            
                                421阅读
                            
                                                                             
                 
                
                                
                    