<p> 本文发表于2018年AAAI,作者为Chuanqi Tan, Furu Wei, Nan Yang...等人,文章提出了一个新的针对MS-MARCO dataset的模型S-NET,并且在该数据集上取得了state of art的成绩。</p>
<p> 本文的创新点在于:</p>
<ul><li>作者提出extraction-then-synthesis框架从抽取的结果中合成答案</li><li>使用篇章排序的手段提高了从多篇文章中获取答案的准确性</li><li>使用生成模型来生成答案,更能契合数据集所提供的数据</li></ul>
<h3> 摘要部分</h3>
<p> 作者提出一个针对于MS-MARCO的阅读理解模型,区别于SQuAD数据集,MS-MARCO数据集并没有将答案的范围在文章中标明,并且还存在答案中的词汇与原文不同的情况,作者提出了一个抽取-合成模型来形成最终的答案。特别的,答案抽取模型首先被用来从文章中预测最有可能的范围,作为答案合成模型的一个额外的特征来进一步形成最终的答案。作者使用了最优的阅读理解模型作为答案抽取模型,并且将文章排序作为一个额外的子任务来从多篇文章中抽取答案。答案生成模型基于seq2seq结构,最终取得该数据集上的最好成绩。</p>
<h3> 介绍部分</h3>
<p> 介绍部分首先对数据集进行对比,略,主要就是一个有答案范围一个没有,一个答案是抽取的一个答案是生成的,一个是单篇文章一个是10篇文章中的10个段落,现有针对于MS-MARCO数据集的方法主要继承与SQuAD数据集的方法,预测答案的开始位置和结束位置,依据MS-MARCO的描述,答案可能从多个范围生成(<u>因此不能做10选1来抽取答案</u>)答案呢,词汇有可能来源于文章,也有可能在文章和问题中压根没有出现(因此不能单纯使用抽取式的方法,需要生成式)。</p>
<p> 在这篇文章中,作者提出了一个抽取-生成模型,如下图所示。一个evidence extraction 事实抽取模型用从一篇文章中预测最重要的子范围,可以理解为最重要的句子。然后生成模型使用抽取出来的信息加之文章与问题生成一个答案(<u>注意,文章中没有提到使用问题的类型作为辅助)。</u></p>
<p> </p>
<p style="text-align:center;"><img alt="" class="blockcode" height="241" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-736f2fe527dc741373e0dac9609e239f.png" width="505"></p>
<p> 其中抽取模型使用state-of-the-art attention based neural networks来预测(evidence)关键信息的开始和结束,作者同时提出了incorporating passage ranking合并段落(文章)排序作为一个辅助任务来提高关键信息抽取的效率,整个过程是一个多任务学习,使用RNN将单词序列化,并且使用注意力机制来构建问题与篇章级别的表示,之后使用pointer network(Vinyals, Fortunato, and Jaitly 2015)来预测答案的开始和结束,此外使用attention pooling来汇总每篇文章词级别的信息,使用篇章级表示来给候选篇章排序。生成模型依据关键信息(evidence)使用seq2seq来生成答案,问题和篇章使用双向RNN编码,其中关键信息的开始和结束也作为特征输入,之后使用attention decoder来生成最终答案。评价指标使用ROUGH-L和BLEU-1。</p>
<h3> 相关工作</h3>
<p>捡几个觉得有用的列举一下吧</p>
<ul><li>Wang and Jiang (2016b) combine match-LSTM and pointer networks to produce the boundary of the answer</li><li>Xiong,Zhong, and Socher (2016) and Seo et al. (2016) employ variant co-attention mechanism to match the question and passage mutuall</li><li>Xiong, Zhong, and Socher (2016) propose a dynamic pointer network to iteratively infer the answer</li><li>summarization generation (Zhou etal. 2017) 看看最后使用的什么结构的seq2seq</li></ul>
<h3> 我们的方法</h3>
<p> 模型包含两方面,首先是(evidence)关键信息抽取模型和答案生成模型,答案抽取模型旨在抽取与文章与问题相关的关键信息,答案生成模型旨在依据抽取的信息生成答案。因为作者提出了一个多任务学习的框架如下图所示,然是使用seq2seq和一些附加特征来生成答案。</p>
<p style="text-align:center;"><img alt="" class="blockcode" height="498" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-8a99580a1cd87ae96fdf28a100924719.png" width="448"></p>
<h3> GRU</h3>
<p> 文章中的RNN使用的是GRU,公式略,解释略。。。</p>
<p style="text-align:center;"><img alt="" class="blockcode" height="192" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-f48670416536e379187eaca4ab222e3a.png" width="452"></p>
<h3> Evidence Extraction</h3>
<p> 多任务学习信息抽取框架,与SQuAD不同,MS的数据集答案来源于不同文章,此 |
|