首先,自然语言给计算机视觉的图片数据带来了结构化和语义化。自然语言中一个“词”代表某个概念或者类,比如说“猫”和“动物”。通过语义关系,利用这些词可以很容易建立一个语义结构关系网。WordNet是目前最大的语义结构关系,其中的hypernym/hyponym代表了两个词之间的语义关系。在计算机视觉中,由像素组成的图片本身是个非常高维的数据,比如说800x600像素的图片,是个高达480000的向量。图片空间里最稀缺的是对这些高维数据的语义结构化。ImageNet (ImageNet Tree View)的重要贡献是基于WordNet建立的图片语义结构。其中每个synset有成百上千张所属类别的图片,这样ImageNet就完成了对一千多万张图片的语义性的归类和描述。