人工智能计算机视觉的暗物质
是什么让我们人类如此擅长理解视觉数据?几十年来,这个问题一直困扰着人工智能和计算机视觉科学家。迄今为止,在再现人类视觉能力方面的努力取得了值得称道的结果,但仍有许多不足之处。
我们当前的人工智能算法可以非常准确地检测图像中的对象,但前提是他们已经看过许多(数千甚至数百万)个例子,并且只有在新图像与他们之前看到的没有太大区别的情况下。
有一系列努力旨在解决深度学习的浅薄性和脆弱性,深度学习是当今计算机视觉中使用的主要 AI 算法。但有时,找到正确的解决方案取决于提出正确的问题并以正确的方式提出问题。目前,围绕真正需要做什么来修复计算机视觉算法存在很多困惑。
在上个月发表的一篇论文中,麻省理工学院和加州大学洛杉矶分校的科学家认为,制造能够像人类一样推理视觉数据的 AI 系统的关键是解决计算机视觉的“暗物质”,即以像素为单位不可见的事物。
这篇题为“黑暗,超越深度:向具有类人常识的认知 AI 的范式转变”的论文深入探讨了当前计算机视觉方法中缺少的五个关键要素。作者认为,添加这五个组件将使我们能够从“用于小任务的大数据”人工智能转变为“用于大任务的小数据”。
今天的人工智能:小任务的大数据
麻省理工学院和加州大学洛杉矶分校的人工智能研究人员写道:“深度学习的最新进展基本上基于小任务的大数据范式,在这种范式下,大量数据用于为单个狭窄任务训练分类器。”
人工智能的最新进展依赖于深度神经网络,即粗略模仿人类和动物大脑模式匹配能力的机器学习算法。深度神经网络就像层层叠叠的复杂数学函数。为了执行它们的功能,DNN 经历了一个“训练”过程,在这个过程中,它们被提供许多示例(例如图像)及其相应的结果(例如图像包含的对象)。DNN 调整其函数的权重以表示在常见类的对象中发现的常见模式。
一般来说,深度神经网络的层数越多,训练的数据质量越高,它就越能更好地提取和检测数据中的常见模式。例如,要训练一个可以准确检测猫的神经网络,您必须从不同角度、不同背景和不同光照条件下为它提供许多不同的猫图片。这是很多猫的照片。
尽管 DNN 已被证明非常成功,并且是当今许多计算机视觉应用的关键组成部分,但它们不像人类那样看待世界。
事实上,深度神经网络已经存在了几十年。近年来它们变得流行的原因是庞大的数据集(例如具有 1400 万个标记图像的ImageNet)和更强大的处理器的可用性。这使得人工智能科学家能够在短时间内创建和训练更大的神经网络。但就其核心而言,神经网络仍然是以像素为单位搜索可见模式的统计引擎。这只是人类视觉系统所做工作的一部分。
“当前计算机视觉系统的推理能力狭窄且高度专业化,需要为特殊任务设计的大量标记训练数据集,并且缺乏对常见事实(对普通人来说显而易见的事实)的一般理解,”作者的“黑暗,超越深”写。
科学家们还指出,人类视觉并不是对像素模式的记忆。我们使用单一视觉系统来执行数千项任务,而不是为一个模型、一项任务量身定制的 AI 系统。
我们如何才能实现人类级别的计算机视觉?一些研究人员认为,通过继续投资于更大的深度学习模型,我们最终将能够开发出与人类视觉效率相匹配的人工智能系统。
然而,“Dark, Beyond Deep”的作者强调,计算机视觉的突破与更好地识别图像中可见的事物无关。相反,我们需要人工智能系统来理解和推理视觉数据的“暗物质”,即图像和视频中不存在的事物。
麻省理工学院和加州大学洛杉矶分校的科学家写道:“通过对可见像素之外的不可观察因素进行推理,我们可以近似人类的常识,使用有限的数据来实现对各种任务的概括。”
这些暗成分是功能、直观物理、意图、因果关系和效用 (FPICU)。解决 FPICU 问题将使我们能够从只能回答“什么和在哪里”问题的“小任务大数据”人工智能系统转变为“大任务小数据”人工智能系统,该系统还可以讨论“为什么、如何和假设”的图像和视频问题。
免责声明:本站发布的教育资讯(图片、视频和文字)以本站原创、转载和分享为主,文章观点不代表本网站立场。
如果本文侵犯了您的权益,请联系底部站长邮箱进行举报反馈,一经查实,我们将在第一时间处理,感谢您对本站的关注!
新励学网教育平台
海量全面 · 详细解读 · 快捷可靠
累积科普文章数:18,862,126篇