计算机视觉和自然语言处理,哪个更具有发展前景呢,还是各有千秋呢?

论坛 期权论坛 期权     
匿名用户1024   2021-5-14 20:28   6869   5
本题已收录至社区圆桌:人工智能 · 机器感知,更多「人工智能」相关话题欢迎关注讨论
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
有关回应  16级独孤 | 2021-5-14 20:28:05
谢邀 @郭同jetHACK  @甘小楚。其实很早就想理一理这两者的关系。
先说我的观点:计算机视觉将越来越融合自然语言处理。

因为我自己是计算机视觉研究背景,所以下面主要讨论一下自然语言处理在计算机视觉中的几个应用。

首先,自然语言给计算机视觉的图片数据带来了结构化和语义化。自然语言中一个“词”代表某个概念或者类,比如说“猫”和“动物”。通过语义关系,利用这些词可以很容易建立一个语义结构关系网。WordNet是目前最大的语义结构关系,其中的hypernym/hyponym代表了两个词之间的语义关系。在计算机视觉中,由像素组成的图片本身是个非常高维的数据,比如说800x600像素的图片,是个高达480000的向量。图片空间里最稀缺的是对这些高维数据的语义结构化。ImageNet (ImageNet Tree View)的重要贡献是基于WordNet建立的图片语义结构。其中每个synset有成百上千张所属类别的图片,这样ImageNet就完成了对一千多万张图片的语义性的归类和描述。

所以,对图片数据的语义化和结构化,可以说是自然语言处理在计算机视觉里的一个首要应用。随后的各种基于机器学习的图片识别算法,都是为了预测图片的语义标定。Deep learning本身也是representation learning,说到底就是在图片高维空间里面建立更好的表征,使得这些表征对语义标定有更好的区分和映射。

图片的语义标定本身可以衍生出很多应用,这里我举两个比较有意思的任务:Entry-level recognition和Zero-shot learning。 Entry-level recognition(From Large Scale Image Categorization to Entry-Level Categories)主要是分析wordnet上的synset到entry-level description的关系,比如说一张海豚的图,Wordnet里面给的是grampus griseus,而人们普遍会用dolphin去描述这张图,怎么给两者建立联系是entry-level recognition要解决的问题。

Zero-shot learning解决的问题是,如果某个类别没有任何训练图片数据,如何去识别这个类别。因为世界上的词语太多,对每个词语对应的概念都收集图片训练数据显然不现实。zero-shot learning的大致做法是,利用当前没有任何图片数据的标定与之前有图片数据的标定的语义相似度,来建立语义标定之间的关联。自然语言处理的word embedding也得到了应用。Zero-shot learning的一些代表作,比如说DeViSE(http://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf), semantic codes(http://papers.nips.cc/paper/3650-zero-shot-learning-with-semantic-output-codes.pdf), domain-adaptation(http://papers.nips.cc/paper/5027-zero-shot-learning-through-cross-modal-transfer.pdf)。Zero-shot learning的最新进展可以参见最近的一次ECCV‘16 Tutorial(Zero-Shot Learning Tutorial | ECCV 2016)。

这两三年紧密结合自然语言处理的视觉任务也越来越多。2014年和2015年大热的基于CNN+RNN的看图说话(Image Captioning):给任意一张图,系统可以输出语句来描述这幅图里的内容。Microsoft,Google,Stanford等大厂都有concurrent work,一些代表作如Vinyals et al. from Google (CNN + LSTM)Karpathy and Fei-Fei from Stanford (CNN + RNN)。New York TImes这篇科普文章还不错,(https://www.nytimes.com/2014/11/18/science/researchers-announce-breakthrough-in-content-recognition-software.html?_r=0)。这里有篇挺有意思的来自Ross GIrshick和Larry Zitnick的论文https://arxiv.org/pdf/1505.04467.pdf,里面用nearest neighbor retrieval的土办法取得了可以跟那些基于RNN/LSTM系统不相上下的结果。由此可以看出,目前的image captioning系统基本还是在做简单的retrieval和template matching。Image captioning大火之后这两年这个研究方向好像就没啥相关论文了,前阵子Microsoft Research做了篇Visual Storytelling的工作(https://www.microsoft.com/en-us/research/wp-content/uploads/2016/06/visionToLanguage2015_DataRelease-1.pdf),并提供了个dataset(Visual Storytelling Dataset)。

随后,2015年和2016年图片问答Visual Question Answering (VQA)又大热。VQA是看图说话的进阶应用:以前看图说话是给张图,系统输出语句描述,而VQA更强调互动,人们可以基于给定的图片输入问题,识别系统要给出问题的答案。目前最大的dataset是基于COCO的VQA dataset(Visual Question Answering),最近出了v2.0版本。CVPR’16搞了个VQA challenge & Workshop(Visual Question Answering),其页面里有挺多资料可供学习。我之前自己也做过一阵子VQA的工作,提出了一个非常简单的baseline。这里是一个可供测试的demo(Demo for Visual Question Answering),代码和report也公布了,感兴趣的同学可以看看。当时这个baseline跟那些基于RNN的复杂模型比起来也毫不逊色,侧面证明了目前VQA系统到跟人一样真正理解和回答问题还有非常长的一段距离。Facebook AI Research前两个月公布了一个新的数据库(https://arxiv.org/pdf/1612.06890.pdf),用于诊断visual reasoning系统。我自己挺喜欢这样的分析性质的论文,推荐阅读。

另外,Feifei-Li老师组新建立的Visual Genome Dataset (VisualGenome),其实也是力求让计算机视觉更好地跟自然语言处理里的知识库和语义结构更进一步融合起来。

由此可见,计算机视觉和自然语言处理并不是隔阂的两个研究方向。两者的未来发展会借助各自的优势齐头并进,融合到General AI的框架之下。未来又会产生怎样的新研究问题,我充满期待。
3#
有关回应  16级独孤 | 2021-5-14 20:28:06
发展前景要从两个学术和工业两个方面来说:

先说学术圈

视觉大热过后现在已经进入了一个瓶颈期,现有数据上比较重要的问题都已经做的差不多了。视觉有三大问题:分类(classification)、检测(detection)、分割(segmentation)。

分类方面,imagenet已经MNIST化,折腾半天提升半个点实在没什么意思。检测方面有RCNN和SSD两个大方向,骨架已经搭好,剩下的就是填trick了。分割基本上是dilated convolution/upsampling的各种变种,也是过几个月加几个trick提高一个点的模式。

视频理论上是未来的方向,但是似乎视频需要的计算量比图片大得多,目前还没有什么突破,前途不明朗。可能还要等核弹厂挤两年牙膏。所以现在大家都在搞GAN啊pix2pix啊这种看起来炫酷但是无法量化评价的东西,虽然看起来百花齐放但是很难说前途明朗。


自然语言处理有些不温不火,虽然深度学习在翻译等方面带来一些进步但是并没有翻天覆地的感觉。由于自然语言先天的高度结构化、高度抽象、数据量(相对)小的特点,糙快猛的神经网络有些施展不开。如果说视觉已经过气了,那么自然语言就是还没火起来。未来应该是有前途的方向,但是这个未来有多远还不好说。

再说工业和应用方向


视觉在学术圈退火意味着技术已经比较成熟,正是工业界大干快上的好时机。但是工业应用想要成功,必须深耕一个垂直市场,比如自动驾驶,医疗图像,安全监控,其中医疗图像我认为是最有潜力的方向。想要做一个通用平台搞分类监测的公司基本都会遇到商业模式不清晰,竞争激烈,变现困难的问题,最好的下场也就是被大厂收购或者包养。

自然语言处理也有一些商业机会,但是想靠深度学习横扫天下不现实。需要新老方法的结合以及深厚的经验积累。自然语言更是需要深耕垂直市场,通用算法完全看不到商业模式,像聊天机器人啊自动翻译这种东西都是大厂用来提高知名度的,无法变现。垂直市场方面我看好法律应用,助理律师的很多工作,比如对比判例、专利这种,完全可以自动化。
4#
有关回应  16级独孤 | 2021-5-14 20:28:07
@周博磊 学长总结得很好了。
我补充一下 一个很早就开始的尝试 (Visual-semantic Embedding)


用句子作为图片的label(而不是用coarse class来做label);
反之,用图片作为句子的label,更好地学习句子(caption)的语义信息。


1.最早的尝试在 2013 NIPS ,同时学图像和文本的特征
DeViSE: A Deep Visual-Semantic Embedding Model
Andrea Frome and Greg Corrado and Jonathon Shlens and Samy Bengio and Jeffrey Dean and Marc’Aurelio Ranzato and Tomas Mikolov
论文地址: https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41473.pdf (需翻墙)

当时就有了fine-tune CNN (图像)和 skip-gram model(单词)的概念
虽然当时结果比较低,但是给出了很多 图片+句子 可能性的insight。
包括zero shot learning 对于没有学习过的图像的预测

后续方法有 用了hard sampling 学习策略 + 更深网络的 VSE++ (arXiv 2017)
Improving Visual-Semantic Embeddings with Hard Negatives
升级ranking loss的SPE (CVPR2016)
https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Wang_Learning_Deep_Structure-Preserving_CVPR_2016_paper.pdf


P.s. 我想起 大三的时候,我问过学长关于imagenet 能不能用word2vec来训练。比如狗就变成狗的300维word2vec来监督,车就变成车的 word2vec来监督,这样狗和猫就近了。 然后学长就给我说了很早就有类似的工作了。可能就是DeViSE吧。不过还是不同,直接用word2vec监督很可能不太好吧。


2.结合RCNN做object level
Deep Fragment Embeddings for Bidirectional Image Sentence Mapping
Andrej Karpathy, Armand Joulin, Li Fei-Fei  (NIPS2014)
论文地址:https://arxiv.org/abs/1406.5679
文本可以用树结构来分解
图像也可以用RCNN来解构成一个个物体来匹配




这也影响了后续的很多方法如 今年ICCV2017
http://openaccess.thecvf.com/content_ICCV_2017/papers/Niu_Hierarchical_Multimodal_LSTM_ICCV_2017_paper.pdf
还有Flick30k Entities 数据集:
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models


3. mRNN 等 图像描述生成模型
有很多图像描述生成模型,但主要还是直接pretrained CNN 拿来用(4096维特征),不太学图像特征了。 而主要focus在文本生成。
[1412.6632] Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)
Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Zhiheng Huang, Alan Yuille
红线画出的是图像特征输入。

还有Dense Caption
https://arxiv.org/pdf/1511.07571.pdf



5. m-CNN
用CNN来处理文本其实有很多paper。 CNN优点之一在于可以并行,不需要上一时刻的结果。

因为文本也有类似的hierarchy的信息。比如临近词可以变成词组。所以CNN也可以work比较好。
句子匹配 CNN:http://papers.nips.cc/paper/5550-convolutional-neural-network-architectures-for-matching-natural-language-sentences.pdf (NIPS2014)
charCNN:https://papers.nips.cc/paper/5782-character-level-convolutional-networks-for-text-classification.pdf (NIPS2015)
CNN翻译:[1705.03122] Convolutional Sequence to Sequence Learning (ICML2017)


进一步,Multimodal-CNN同时用CNN来学文本和图像特征,互相监督。
https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Ma_Multimodal_Convolutional_Neural_ICCV_2015_paper.pdf



6. 小硬广
近期的很多工作同时finetune文本和图像很少,而这往往是最重要的部分。
因为ImageNet 会忽略一些detail的信息 (无论黑狗/白狗 要求CNN学的都是狗)。如下图



我们组刚放出论文也是同时训练两个CNN,并提出了新的损失函数,比multimodal-CNN的结果高了10个点(同样基于VGG19来比较)。
https://arxiv.org/pdf/1711.05535.pdf (国内访问 http://cn.arxiv.org/pdf/1711.05535.pdf
另外,我做了一个总结的表格,在Flickr30k 和 MSCOCO 两个数据集上 。
包含了文本特征和图像特征的提取方法,方便更细致的比较。
大家也可以看到 图像模型 和 文本方案的逐渐进步。
  • Flickr30k



  • MSCOCO



最后一些补充材料中的可视化结果。




感谢大家看完。
5#
有关回应  16级独孤 | 2021-5-14 20:28:08
文本是最常见的数据格式,也是数据量最大的,需求方面高下立判。工作机会跟需求可能不是线性相关,但一定是正相关的。
        AI的发展一定是为了方便人类的生活,而大部分场景下跟人交互最直接、有效的方式是文本,市场空间高下立判。
          图像处理会比文本处理需要更多的资源,这点有朋友说过了,具体不再解释。成本越高越不利于前期发展,尤其是小公司、缺经费的实验室。
         不过图像相比文本也有很多优点,比如更直观、信息量更大、更容易吸引人眼球等。
         初学者会觉得玩图像、语音比文本更酷,也比文本更难处理(不只是刚入门的会有这个误解,微软某应用科学家亲口说他也有过这个误解)。但学习时间越长越发现不是这样,因为图像、语音相对来说更客观、规律性更强,自然语言更具有人的主观、更加抽象、对应的场景更多、更加多义性并且容易歧义。
        目前来说,无疑cv发展更成熟,nlp还需进一步取得大突破、挑战也更大,可能需要十年甚至几十年的多人努力,任重道远但也恰恰提供了更大的发展空间。
       不过,cv和nlp很多模型、方法都是相通的,大同小异。未来推动人工智能发展的不仅仅是cv,也不仅仅是nlp、语音识别,而是多个领域的共同发展。
        最后,cv和nlp都是好方向,选那个都行,根据兴趣决定就好,把兴趣当职业的人最幸福也最有效率!祝好!
6#
有关回应  16级独孤 | 2021-5-14 20:28:09
大概扫了下,这个问题的回答目前大多来自并没有真正做过NLP的童鞋们……这也基本可以反应整个智能信息处理大环境下CV和NLP相关研究人员的比例有多不均衡。
这里需要强调一点:NLP不是字符串处理,也不是简单的词袋或文本分类。很多任务要做好就需要知道给你的句子或语段到底在讲什么。暂且先不考虑整个篇章级别的信息结构。给定任何一个句子,都可以有相对句长达到指数级数量的结果来解析它的语法结构,然而其中只有一个或极少个是语义上正确的。同时,同一个意思有无穷多种方式可以表达出来,绝大多数表达模式在大家手上的实验数据中可能出现都从来没出现过。Ambiguities(一个表达多种意义)和variations(一个意义多种表达)是NLP的根本难点,短期内不会有任何工作可以提出通用有效的解决方案。
如果你要问发展前景,那短期内必须是vision。原因很简单:就相关问题本身的难点以及目前的支撑技术发展状况来看,想做好NLP的难度远远更高。这其实也是前面有人讲“目前大部分有影响力的工作都是从视觉开始的”的原因。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:136515
帖子:27303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP