一张图片胜过千言万语——这是真的吗?
谁没听过甚至用过这句中国哲学家的名言呢。这很有道理,不是吗?我们都直觉地认为,充分描述图像是多么困难。图像蕴含着丰富的信息,它们能唤起不同的感觉,而这些感觉是难以用语言表达的。挑战或许不在于文字的数量,而在于找到合适的词语以一种有意义的方式描述一幅图像。
视觉是我们最深刻和复杂的感觉。我们不断地观察和分析我们的环境,没有有意识的努力。想象一下你即将穿过一条繁忙的街道。街景的反射光入射到视网膜的感光器上,感光器将光的强度转化为神经信号。视觉信息在视觉皮层和大脑皮层高级区域的不同阶段沿着光学路径进行处理。最终的结果是对世界的视觉感知。我们“看到”的不是在视网膜上形成的图像,而是对图像的解释。我们存储的是“心理图像”或视觉感知,而不是视网膜像素图像。感知使我们对环境做出计划和适当的反应。
自从计算机问世以来,人工智能和认知科学的研究人员一直在试图模仿机器的视觉过程,他们的动机是想要了解人类的视觉系统。计算机视觉和数字摄影测量的研究人员追求更平凡的目标,例如,在混乱的环境中导航机器人,或寻找物体,如建筑物、道路和树木。由于人类非常擅长这些视觉任务,人们很容易就会相信机器也能做同样的事情。毕竟,电脑的速度要快得多,而数码相机能呈现出高质量的图像。显然,这项技术已经存在,但我们对它的了解还不够详细,因为我们还没有看到能够重建表面、识别建筑物或检测变化的机器,更不用说自动生成地图了。
一个主要的误解是把你从数码相机中获得的图像与我们从同一场景中感知到的心理图像相混淆。将心理图像视为对场景的高度象征性的描述,你就会意识到这正是计算机视觉所要做的。现在,如果我们想要比较苹果和苹果,那么我们应该比较数字图像和视网膜的“像素”图像。这就是谬论:我们无法看到视网膜图像。想象一下,你正在看着代表数字图像的巨大矩阵中的数字,你会意识到计算机要从所有这些数字中找出意义所面临的巨大挑战。
如果一个机器视觉系统能够生成一个有意义的场景描述,无论它是多么短和不完整,那么我认为这比图像更有价值。