28篇标志性论文见证「自然语言处理NLP」2019->2020年度亮点进展

<div id="js_content">
点击上方，选择星标或置顶，每天给你送干货<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-765e44b76559b0cbeebc9c4eeca8b637">！
<blockquote>
阅读大概需要18分钟<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-77e0239e29ef6b92b179a518fce194ec"> 
跟随小博主，每天进步一丢丢<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-bcd0a58689f996752e8029af22a11a3e">
</blockquote>
来自：专知 
【导读】自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理（NLP）领域而言，2019年是令人印象深刻的一年。在这篇博客文章中，我想重点介绍一些我在2019年遇到的与机器学习和NLP相关的最重要的故事。我将主要关注NLP，但我还将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序。故事可能包括论文，工程工作，年度报告，教育资源的发布等。 
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-d1064e76e352c888af67934921e54f4b">
<ul><li>论文刊物</li><li>ML / NLP创造力与社会</li><li>ML / NLP工具和数据集</li><li>文章和博客文章</li><li>人工智能伦理</li><li>ML / NLP教育</li></ul>
Google AI引入了ALBERT ，它是BERT 的精简版本，用于自监督学习上下文语言表示。主要改进是减少冗余并更有效地分配模型的容量。该方法提高了12个NLP任务的最新性能。
<ul><li>Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut: ALBERT: A Lite BERT for Self-supervised Learning of Language Representations.ICLR 2020. </li><li>Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186https://arxiv.org/abs/1810.04805 </li></ul>
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-0f01eb2728cba32c34f7a25938b5a426">
机器在比赛中的表现(类似sat的阅读理解)。随机猜测的基线得分为25.0。最高分是95.0分。
今年早些时候，NVIDIA的研究人员发表了一篇颇受欢迎的论文（Coined StyleGAN）（https://arxiv.org/pdf/1812.04948.pdf），提出了一种从样式转换中采用的GAN替代生成器架构。这是一项后续工作（https://arxiv.org/pdf/1912.04958v1.pdf），着重于改进，例如重新设计生成器归一化过程。
<ul><li>Tero Karras, Samuli Laine, Timo Aila: A Style-Based Generator Architecture for Generative Adversarial Networks. CVPR 2019: 4401-4410</li><li>Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the Image Quality of StyleGAN. CoRR abs/1912.04958 (2019)</li></ul>
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-0bd4d8e2f21086f3a9743007b0494ffa">
上排显示目标图像，下排显示合成图像
我今年最喜欢的论文之一是code2seq（https://code2seq.org/），它是一种从结构化代码表示中生成自然语言序列的方法。这样的研究可以让位于诸如自动代码摘要和文档之类的应用程序。
<ul><li>Uri Alon, Shaked Brody, Omer Levy, Eran Yahav: code2seq: Generating Sequences from Structured Representations of Code. ICLR (Poster) 2019</li></ul>
<img src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-f4afe7807ce2b263b8d86f0f929d298e">
有没有想过是否有可能为生物医学文本挖掘训练生物医学语言模型？答案是BioBERT（https://arxiv.org/abs/1901.08746），这是一种从生物医学文献中提取重要信息的情境化方法。
<ul><li>Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang: BioBERT: a pre-trained biomedical language representation model for biomedical text mining. CoRR abs/1901.08746 (2019)</li>

28篇标志性论文见证「自然语言处理NLP」2019->2020年度亮点进展

浏览过的版块