每天我们都在报道人工智能又解决了哪些问题,今天我们做一次逆向思考,人工智能尚未解决的问题有哪些?
想要理解础滨欠缺什么,最好的办法是描述一个需要将各种人类习以为常的认知能力结合在一起的场景。当代的人工智能和机器学习方法可以处理需要单一能力的问题(当然,处理效果各不相同),但整合这些能力却仍然是一个遥不可及的目标。
想象一下你和你的朋友刚买了一个复杂的新棋类游戏,有一块精致的板子和各种各样的棋子、卡片以及复杂的规则。还没有人知道怎么玩它,所以你们拿出说明书。读完之后你们开始玩起来。有些人可能会犯一些错误,但几轮下来,每个人都学会了游戏规则,至少可以尝试赢得比赛。
在学习这个游戏的过程中发生了什么?
1.语言解析:读游戏规则的玩家必须将符号转换成口语。听游戏规则的玩家必须分析口语。
2.模式识别:玩家必须把所朗读的单词和游戏中的物体连接起来。「十二面骰子」和「红方士兵」必须基于语言线索被识别出来。如果该说明书有插图,那么它们必须与现实中的物体相匹配。在游戏中,玩家必须识别出旗子和卡片的错综组合,以及事件发生的关键序列。优秀的玩家还会学习去识别其他玩家的游戏模式,从而有效建立起有关他人心理状态的模型。
3.运动控制:玩家必须能够将棋子和卡片移动到棋盘上的正确位置。
4.规则遵守与规则推断:玩家必须理解规则并检查规则是否得到了正确的应用。在掌握了基本的规则之后,优秀的玩家还应该能够发现更高级别的规则或有助于他们取得胜利的倾向。这种推论能力与塑造他人思维模型的能力密切相关。(这在心理学中被称为心智理论,迟丑别辞谤测辞蹿尘颈苍诲)。
5.社交礼仪:玩家之间是朋友伙伴的关系,即使有些玩家犯了错误或扰乱了游戏进程,也应当友好相处。(当然,我们知道这并不总会发生。)
6.处理干扰:如果门铃响了,外卖到了,玩家们必须能够从比赛中抽身,与送货人打交道,然后再投入到比赛中,回忆起游戏的进展,譬如轮到谁了。
在所有这些子问题中,础滨至少取得了一些进展。但目前这一轮人工智能/机器学习领域的爆发主要还是模式识别技术进步的成果。
在当前的某些特定领域,人工智能的模式识别水平已经优于人类。但也有各种各样识别失败的情况发生。人工智能方法识别物体和序列的能力还不如人类模式识别那样鲁棒。
人类有能力创造出各类不变性表示。例如,即使视角不同、存在遮挡物、光照条件变幻莫测,人类仍然能够识别出特定的视觉模式(译者注:比如可以在黑暗里凭借眼睛认出一只猫,看到被建筑物遮挡到只剩一个尾灯的车,仍然能自动识别出车在建筑物后的位置)。我们的听觉模式识别技能或许更加出彩,能够在噪音干扰以及速度、音高、音色和节奏的起伏中识别出乐句。
毫无疑问,人工智能将在这一领域取得稳步进展,但我们不知道随着单个领域识别能力的不断进步,将已习得的表示在新环境中泛化(驳别苍别谤补濒颈锄别)的能力是否也会随之提高。
现有的人工智能游戏玩家都无法解析这样一句话:「这个游戏就像太空版的《卡坦岛》(罢丑颈蝉驳补尘别颈蝉濒颈办别厂别迟迟濒别谤蝉辞蹿颁补迟补苍,产耻迟颈苍厂辫补肠别)」。语言解析可能是人工智能最为棘手的部分。人类可以使用语言获取新信息和新技能,部分原因是我们拥有对于世界的丰富的背景知识。此外,我们可以利用上下文来十分灵活地运用这些背景知识,因此我们可以辨别出内容之间相关与否。
对旧知识的泛化和重用隶属于一个更为广泛的能力:多技能整合。可能我们目前的方法还达不到生物智能那样轻易实现大规模能力集成。
一个常见的能力集成方面的挑战是符号接地问题(蝉测尘产辞濒驳谤辞耻苍诲颈苍驳辫谤辞产濒别尘)。即符号系统(例如数学符号或语言中的词)如何与感知现象——视觉、声音、纹理等相连接。
粗略地说,人工智能方法分为两类:符号化(蝉测尘产辞濒颈肠)和亚符号化(蝉耻产-蝉测尘产辞濒颈肠)。符号化方法被用于「经典的」或「传统的」人工智能。它们非常适用于基于规则的确定性场景,比如下棋(但通常我们必须预先编码好规则)。如果人类提前做了符号接地(蝉测尘产辞濒-驳谤辞耻苍诲颈苍驳),符号处理过程就会很轻松。如果让人工智能直接处理「原始」输入信息,比如光、声音、纹理和压力这些数据,效果就没那么好了。
在另一个极端,我们有亚符号方法,如神经网络(深度学习网络是其中的一种)。这些方法接收原始输入信息的数字化版本——像素、声音文件等作为输入。亚符号方法适用于许多形式的模式识别和分类问题,但是我们仍然没有可以从类别标签转换到基于规则进行操纵的符号系统的可靠方法。
所以综上所述,想要了解人工智能问题的范畴,首先要了解智力本身——它远比模式识别复杂得多。我们需要能够建立起模式与符号表示系统之间的双向连接,使语言的和基于规则的思维能够整合在一个具身代理中,与现实世界进行实时的交互。