bert 阅读理解的信息抽取 bert机器阅读理解

转载

charlesc 2024-03-19 07:23:09

文章标签 bert 阅读理解的信息抽取 java 多线程 bert 数据类型 文章分类 NLP 人工智能

机器阅读理解很有可能成为人机问答中的主力技术，目前FAQ大多使用的是语义匹配模型，该模型需要进行很多的人工标注，成本较高。与语义匹配模型相比，机器阅读理解可以减少人工标注的数量，降低成本。同时可以对未知问题自动寻找QA对。减少人工寻找答案的困难。

本文的机器阅读理解模型主要包含以下5个步骤：

1、根据F1-score寻找相关段落：

通过计算query和候选段落的F1-score的匹配程度。在一篇文档中找出最相关的三个段落。

2、根据F1-score寻找答案模块：

根据F1-score在最相关的三个段落中寻找F1-score最大的答案，作为fake_answer。供下一步模型进行训练。

3、特征预计算模块：

加载bert模型和词典，将query和候选段落，通过词典转换为[cls]query[sep]候选段落[sep]的格式，供下一步输入到模型中。

4、深度模型训练模块：

使用bert模型在阅读理解任务上，进行训练，池化层后接一个线性模型，预测答案的起始位置，和结束位置，使用交叉熵作为损失函数。

5、答案生成模块：

使用上一步预测出来的起始位置和结束位置的概率，根据当前候选段落，找到概率最大位置对应的文字片段，截取作为答案。

(1)、根据F1-score寻找相关段落：

该模块,主要包含6个方法,find_fake_answer,find_best_question_match,matrix_max_over_ground_truth,f1_score,recall,presicion_recall_f1.寻找fake_answer作为要预测的答案,供下一步进行训练.

计算两段文本的精确率,召回率和f1.

精确率:两段文本相同的部分,占预测文本的百分比.

召回率:两段文本相同的部分,占原始文本的百分比.

F1: (2*精确率*召回率)/(精确率+召回率)

find_fake_answer: 输入参数,sample,即dureader格式的问题和文章合集。

在候选段落种寻找和问题的f1值最高的作为fake_answer。

find_best_question_match: 输入参数doc,dureader格式的问题和文章集合

输入参数question, string 格式用户问的问题

在候选段落中找到和问题最相关的段落。

maxtrix_max_over_ground_truth:输入。metric_fn: 数据类型函数句柄

prediction: 数据类型。string段落文本。

ground_truths: 数据类型 string用户问的问题。

f1_score: prediction 数据类型。string段落文本

ground_truths 数据类型 string用户问的问题

recall: param prediction:数据类型 string段落文本

param ground_truths: 数据类型 string 用户问的问题

(2) 根据F1-score寻找答案模块：

根据F1-score在最相关的三个段落中寻找F1-score最大的答案，作为fake_answer。供下一步模型进行训练。

包含了三个方法,compute_paragraph_score, dup_remove , paragraph_selection 用例计算候选段落和问题的F1-score . 去除段落中的重复内容,并且增加paragraphs字段 , 将和问题最相关的 (F1-score 最高的)前5个段落通过“.”句号拼接在一起,成为一个字符串. 供下一步深度模型进行训练.

compute_paragraph_socre: 输入param sample:数据类型 dureader格式的问题和文章集合

步骤:根据F1-score寻找相关段落模块

dup_remove: 输入: param doc: 数据类型 dureader格式的问题和文章集合

输出: 是否有文本片段被删除

步骤:去除段落中的重复内容

paragraph_selection:

输入: param sample : 数据类型 dureader 格式的问题和文章集合

输出: 增加paragraphs 字段,将和问题最相关的(F1-score最高的) 前5个段落,通过“.” 句号拼接在一起,成为一个字符串.

(3) 特征预计算模块：

加载bert模型和词典，将query和候选段落，通过词典转换为[cls]query[sep]候选段落[sep]的格式，供下一步输入到模型中。

该模块包含了两个方法,convert_examples_to_features, read_squad_examples

读取dureader 格式的训练和验证数据, 对于每一个用户问题, 找到最相关文档的,最相关段落的fake_answer, 当F1-score 大于0.8的时候,将这条问题和fake_answer 作为训练数据.