机器学习AI算法工程  公众号: datayx

机器阅读理解是指让计算机阅读文本,随后让计算机解答与文中信息相关的问题。本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题。

获取项目代码

关注微信公众号 datayx  然后回复 阅读理解 即可获取。

数据说明

每条数据为<问题,篇章,候选答案> 三元组组成

每个问题对应一个篇章(500字以内),以及包含正确答案的三个候选答案

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选

篇章:与问题对应的文本段,从问题相关的网页中人工选取

候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案

数据以JSON格式表示如下样例:

​https://challenger.ai/competition/oqmrc2018​

基于R-Net、QA-Net和BiDAF实现中文观点型问题机器阅读理解_公众号

模型结构

基于R-Net、QA-Net和BiDAF实现中文观点型问题机器阅读理解_公众号_02

最好成绩的单模型我们选择加入alternatives语义和feature engineering的方式,基于R-Net改进。

alternatives语义:由于观点型问题的某些备选答案是携带语义信息的,所以我们将备选答案也做encoding处理。

feature engneering:特征工程,我们使用了tf-idf等方法,将提取的特征向量作为深度模型的另一个输入,只用Linear层进行处理。由于阅读理解任务数据的特性,特征工程这部分工作只有微弱提升。


访问AI图谱 技术分享社区 

​https://loveai.tech​


baseline模型借鉴了微软R-Net模型,与R-Net模型不同的是,我们取消了模型尾部的ptrNet结构,取而代之的是一个单向GRU与softmax层。


不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

基于R-Net、QA-Net和BiDAF实现中文观点型问题机器阅读理解_公众号_03

长按图片,识别二维码,点关注