本博客完全根据博主自己的理解写出来的有意见的欢迎提出。
首先提出问题:
1、nlp是什么?
2、nlp的事件抽取是什么?
3、事件抽取所处的位置?
4、事件抽取的方法有哪些?
5、模式匹配方法如何进行事件抽取?
6、机器学习方法如何进行事件抽取?
7、基于机器学习方法抽取方式的特点?
1、nlp是什么?
nlp是自然语言处理,是电脑理解并表达出人们平常的所说的语言。
2、nlp的事件抽取是什么?
事件抽取是从非结构信息中抽取出用户感兴趣的信息,并以结构化数据传递给用户。
3、事件抽取所处的位置?
事件抽取是信息抽取的一部分。事件抽取的又分为元事件抽取和主题事件抽取。
元事件抽取是动作状态级的,动作产生或状态发生变化,一般由动词驱动。
主题事件抽取是事件级的,一类核心事件或活动以及与他们相关的事件和活动。
博主现在所研究的是元事件抽取下机器学习方法。
4、事件抽取的研究方法有哪些?
事件抽取的研究方法有模式匹配和机器学习两种。模式匹配只针对特定领域,移植性差。机器学习应用广泛,移植性好。
5、模式匹配方法如何进行事件抽取?
模式匹配方法是在一定模式的指导下进行事件的识别和抽取。
模式:指的是抽取模式。通过领域知识和语言知识对目标信息的上下文环境进行约束。而这约束条件就是抽取模式。
另外模式是手工建立的,耗时又费力,所以现在用的都是机器学习方法的事件抽取。
6、机器学习方法如何进行事件抽取?
对元事件抽取两大主要任务:对事件识别与分类和对事件元素进行识别和分类。事件元素识别和分类是事件识别和分类
的基础。
有关论文显示:机器学习算法混合使用将优于单一算法。
事件的探测分两种实现方式:基于触发词的探测方式和基于事件的事例的探测方式。
基于触发词的探测方式:
基于触发词的探测方式的有正反例不平衡和数据稀疏的缺点。因为只有少量触发词作为输入数据进行训练,大量未参与
进来的。
作为反例数据参与到模型中,造成正反例不平衡,触发词数据稀疏。
解决触发词探测缺点的方法:通过同义词扩展和二分类结合的方法进行解决,即将触发词放入词典中进行同义词扩展。
基于事件实例的探测方式:
基于事件实例的探测方式是将句子而不是词语作为识别实例。进而通过聚类方法转化为句子聚类问题,通过聚类得到事
件句。
避开了基于触发词探测的缺点。
7、基于机器学习方法抽取方式的特点?
(1)机器学习方法的优点是自动获取模式。
(2)机器学习方法不基于语料的格式和内容,但需要大量标准预料(解决方法:无监督和半监督的方法)