S-Net: From Answer Extraction to Answer Synthesis for Machine Reading Comprehens

<p>       本文发表于2018年AAAI，作者为Chuanqi Tan, Furu Wei, Nan Yang...等人，文章提出了一个新的针对MS-MARCO dataset的模型S-NET，并且在该数据集上取得了state of art的成绩。</p>
<p>       本文的创新点在于：</p>
<ul><li>作者提出extraction-then-synthesis框架从抽取的结果中合成答案</li><li>使用篇章排序的手段提高了从多篇文章中获取答案的准确性</li><li>使用生成模型来生成答案，更能契合数据集所提供的数据</li></ul>
<h3> 摘要部分</h3>
<p>       作者提出一个针对于MS-MARCO的阅读理解模型，区别于SQuAD数据集，MS-MARCO数据集并没有将答案的范围在文章中标明，并且还存在答案中的词汇与原文不同的情况，作者提出了一个抽取-合成模型来形成最终的答案。特别的，答案抽取模型首先被用来从文章中预测最有可能的范围，作为答案合成模型的一个额外的特征来进一步形成最终的答案。作者使用了最优的阅读理解模型作为答案抽取模型，并且将文章排序作为一个额外的子任务来从多篇文章中抽取答案。答案生成模型基于seq2seq结构，最终取得该数据集上的最好成绩。</p>
<h3> 介绍部分</h3>
<p>       介绍部分首先对数据集进行对比，略，主要就是一个有答案范围一个没有，一个答案是抽取的一个答案是生成的，一个是单篇文章一个是10篇文章中的10个段落，现有针对于MS-MARCO数据集的方法主要继承与SQuAD数据集的方法，预测答案的开始位置和结束位置，依据MS-MARCO的描述，答案可能从多个范围生成（<u>因此不能做10选1来抽取答案</u>）答案呢，词汇有可能来源于文章，也有可能在文章和问题中压根没有出现（因此不能单纯使用抽取式的方法，需要生成式）。</p>
<p>       在这篇文章中，作者提出了一个抽取-生成模型，如下图所示。一个evidence extraction 事实抽取模型用从一篇文章中预测最重要的子范围，可以理解为最重要的句子。然后生成模型使用抽取出来的信息加之文章与问题生成一个答案（<u>注意，文章中没有提到使用问题的类型作为辅助）。</u></p>
<p>       </p>
<p style="text-align:center;"><img alt="" class="blockcode" height="241" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-736f2fe527dc741373e0dac9609e239f.png" width="505"></p>
<p>    其中抽取模型使用state-of-the-art attention based neural networks来预测（evidence）关键信息的开始和结束，作者同时提出了incorporating passage ranking合并段落（文章）排序作为一个辅助任务来提高关键信息抽取的效率，整个过程是一个多任务学习，使用RNN将单词序列化，并且使用注意力机制来构建问题与篇章级别的表示，之后使用pointer network(Vinyals, Fortunato, and Jaitly 2015)来预测答案的开始和结束，此外使用attention pooling来汇总每篇文章词级别的信息，使用篇章级表示来给候选篇章排序。生成模型依据关键信息（evidence）使用seq2seq来生成答案，问题和篇章使用双向RNN编码，其中关键信息的开始和结束也作为特征输入，之后使用attention decoder来生成最终答案。评价指标使用ROUGH-L和BLEU-1。</p>
<h3> 相关工作</h3>
<p>捡几个觉得有用的列举一下吧</p>
<ul><li>Wang and Jiang (2016b) combine match-LSTM and pointer networks to produce the boundary of the answer</li><li>Xiong,Zhong, and Socher (2016) and Seo et al. (2016) employ variant co-attention mechanism to match the question and passage mutuall</li><li>Xiong, Zhong, and Socher (2016) propose a dynamic pointer network to iteratively infer the answer</li><li>summarization generation (Zhou etal. 2017) 看看最后使用的什么结构的seq2seq</li></ul>
<h3> 我们的方法</h3>
<p>       模型包含两方面，首先是（evidence）关键信息抽取模型和答案生成模型，答案抽取模型旨在抽取与文章与问题相关的关键信息，答案生成模型旨在依据抽取的信息生成答案。因为作者提出了一个多任务学习的框架如下图所示，然是使用seq2seq和一些附加特征来生成答案。</p>
<p style="text-align:center;"><img alt="" class="blockcode" height="498" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-8a99580a1cd87ae96fdf28a100924719.png" width="448"></p>
<h3> GRU</h3>
<p>       文章中的RNN使用的是GRU，公式略，解释略。。。</p>
<p style="text-align:center;"><img alt="" class="blockcode" height="192" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-f48670416536e379187eaca4ab222e3a.png" width="452"></p>
<h3> Evidence Extraction</h3>
<p>       多任务学习信息抽取框架，与SQuAD不同，MS的数据集答案来源于不同文章，此

S-Net: From Answer Extraction to Answer Synthesis for Machine Reading Comprehens

浏览过的版块