《中英文在自然语言处理上的十大差异点》学习总结

论坛 期权论坛     
匿名技术用户   2021-1-15 13:38   38   0
<h1>中英文在自然语言处理上的十大差异点</h1>
<h1>——学习总结</h1>
<p>原文链接 → <a href="https://mp.weixin.qq.com/s/C7AF7ECj0bF5G1kDo3V72w">https://mp.weixin.qq.com/s/C7AF7ECj0bF5G1kDo3V72w</a></p>
<p style="text-indent:50px;">自然语言是人与人<strong>交流沟通</strong>的重要<strong>媒介</strong>和<strong>方式</strong>,经历过漫长的历史发展,在世界各地形成了众多的语言分支。语言就像一个加过密的通讯系统一样,只有发送和接受两端有一致的<strong>加密规则</strong>,双方才能进行<strong>有效通讯</strong>。语言不通主要是因为不同类型的语言有不同表达语义的符号、规则和发音等,这些差异也造成了不同的自然语言处理任务的差异性。众所周知中文和英文是世界上<strong>使用人数最多</strong>的两种语言,也是两种最有代表性的语言,并且两者差异性较为明显。从书写的文字上看,英文是<strong>表音的</strong>(能拼读发音),中文是<strong>表义的</strong>(象形文字嘛)。接下来总结中文和英文的<strong>十大差异点</strong>。</p>
<hr>
<h2>一、中英文分词方式不同</h2>
<p style="text-indent:50px;">由于英文单词之间天然存在空格,所以对英文文本处理时可以非常容易地通过空格来切分单词。</p>
<p style="text-indent:50px;">然而中文词之间不存在天然地空格,并且中文词是由多个字构成的,所以对于中文文本处理之前首先要进行分词。中文分词是一个非常有挑战性的任务,虽然现在已有较为成熟的开源工具。</p>
<p style="text-indent:50px;">然而在一些特定任务下,英文可能要对单词继续切分(子词),中文可能不需要切分,做这些处理然后作为模型的输入。</p>
<h2 style="text-indent:0px;">二、英文语素和中文偏旁</h2>
<p style="text-indent:50px;">英文需要词形还原(lemmatization)和词干提取(stemming)等预处理操作的原因是,英文单词有丰富的形态变化,包括:单复数、主被动、时态变化、词缀等。为方便处理需要对英文单词做一些预处理操作。当然这些操作一般还配合着词性标注等操作。</p>
<p style="text-indent:50px;">中文里是没有像英文这样的词形态变化的,但中文有一个与“词干”变化相近的概念——偏旁部首。学术界也有尝试,但是收益不怎么明显。作者认为其原因首先是常用中文汉字数量比英文单词少,每个字的意思多,这些汉字的含义通过上下文来获取的语义描述信息足够充分,拆分偏旁后额外再能添补的信息作用非常小。第二是中文里表义的基本单元是多个汉字构成的词,而不是单字。因而拆分偏旁部首对语义的理解起到的作用比较微小。</p>
<h2 style="text-indent:0px;">三、词性标注方法的差异</h2>
<p style="text-indent:50px;">中英文词性尽管整体上很相似,但在很多细节上存在差异。词性标注是自然语言处理领域的一个重要研究方向。中英文的差异如下图。</p>
<p style="text-align:center;"><img alt="" class="blockcode" height="230" src="https://201907.oss-cn-shanghai.aliyuncs.com/cs/5606289-8947ed229c3702f798630426d098799e.png" width="657"></p>
<p style="text-indent:50px;">英文有一些中文没有的词性:冠词和助动词。而中文里没有冠词一说,冠词有助于语义的理解。如“Show me the photo of your company”,通过定冠词the的指示,很容易的定位本句话的关键实词是photo;“DataGrand is a Chinese company”里“a”这样的不定冠词也可以很好的指示出宾语“company”。这些大量出现的冠词虽然是虚词,本身并没有明确含义,但在NLP中用于定位句子中的关键实词,判断实词种类(是否可数,是否专有名词等),进而识别出句法结构(后面还会详细介绍)等,起到了很大的指示作用,也降低了计算机进行语义理解的难度,因而这方面英文比中文有先天优势。在英文句子中也大量存在,和冠词用于指示主语宾语类似,助动词对识别主要动词(Main Verb)和谓语会起帮助。</p>
<p style="text-indent:50px;">另外英文在词性方面的划分和使用更为严谨,词汇在变换词性的时候会在词尾形成丰富的变化。例如-ing、-able、-ful、-ment、-ness等都对确认词性给出具体的提示。名词中还会进一步区分可数名词、不可数名词,在词尾用-s、-es来区分。动词也同样会存在发生时态的指示,过去式,现在时,未来时等非常明确,因此在英文语法中几乎没有词性混淆不清的情况发生。</p>
<p style="text-indent:50px;">而中文的词性则缺乏类似英文这样的明确规范。汉语没有英文的屈折变化
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP