你天天在家葛优躺、刷剧刷到天昏地暗叫死宅,AI这么干就叫惊天地泣鬼神的技术飞跃。

这是MIT(麻省理工学院)计算机科学与人工智能实验室开发的一款新算法。研究者让程序看了足足600个小时的Youtube视频和诸如《绝望主妇》、《办公室》、《实习医生风云》等美剧,看它能否学习并预测人类的一些互动行为——拥抱、接吻、击掌、握手等等。

201607192

图为机器对人类互动行为做出预测,左图是动作开始前1秒,此时机器做出预测,右图是实际结果

这款算法利用的是被称作“深度学习”的人工智能技术,以此作为它理解人类互动行为的基础。研究者向程序输入未经标识的原始数据,要求它自己判断出哪些内容是重要的,哪些不重要。反观人类,在生命历程中自然而然地建立起了这种机制——我们会从身边的社会互动行为的点点滴滴中寻找蛛丝马迹。

201607193

MIT博士候选人Carl Vondrick,同时也是该项目的成员之一,评论说道:“人类不需要有人用数以千计的例子来教我们‘这就是接吻’,我们只需要几个例子就能明白。所以,这个机制的伟大之处就在于它可以进行自我学习。”

为了测试这个程序,研究者向该程序播放了人类在做出以下四种行为(拥抱、接吻、击掌、握手)之前一秒的画面,接着,这个程序就会运用其所学,猜测接下来会发生什么,生成一些可能的情形。

handshake hug kiss

结果显示,程序在这方面有43%的正确率,人类相较而言高一些,达到71%。Vondrick相信如果再多给程序看些视频,它的正确率会更高,毕竟600个小时才25天的时间。

Vondrick希望多给程序看些视频来帮助它进行学习,并对更加复杂的人类互动进行预测。如果这项技术足够先进了,还可以被用来作为智能安全摄像头: 在伤者还未受伤之前自动呼叫120,或是在行凶之前就自动拨打110。

如果你想要在家中有一个能和你互动的机器人,那么它就需要有一定的基本预测能力。Vondrick补充道,“举个例子来说,当你正要坐下的时候你总不希望机器人恰好在这时把椅子抽走了吧!”

Vondrick所在的团队并不是第一个开发视频预测算法的,但他们的算法是到目前为止最为精准的。华盛顿大学教授、机器学习专家Pedro Domingos 评论说道,“他们所做的并不是多么前所未有的事情,但是效果却远远领先于这个领域的其他所有人。”

机器能够取得如此大的成功其中一条原因就是被Vondrick称作“视觉表征”的方法。过去,视频预测算法主要采用逐像素表征的方式来对未来情景进行预测,Vondrick认为这其实难度相当高。

他说:“就像对一个职业画家来说也很难画出一个真实的东西一样,所以我们认为其实没有必要完完全全的复制未来,而是可以预测一个抽象版本的未来图景。”

抽象画面允许程序对物体和动作做出一般性表征。例如,它可以判断出一幅画面中包含一副面孔和一把椅子,而不是一堆杂乱的颜色。Domingos说这和Facebook用来判断照片中哪位是你的好友,再问你需不需为她(他)添加标签的基本技术是一样的。

在第二项实验中,研究者向该程序展示了一幅画面,要求它预测5秒之后会出现什么事物。举个例子,如果画面中显示一个人正向洗手台走去,那么它很有可能猜测接下来他会拿起一块肥皂。结果显示,该程序的正确率比之前高了30%,但仍然只有11%的正确率。

Domingos说,程序要达到人类理解画面的水平其实比看起来困难得多,能实现这一目标的算法寥寥无几,但MIT团队的这个算法很有希望。“人类通常都把视觉处理看作是天经地义的事儿,但其实人类可是花了整整5亿年的时间才发展出视觉能力。你的大脑有三分之一都是用来处理视觉信息的,更不要说每一幅画面里面都包含太多东西,要从中提取出人、物、和动作真的非常困难。”

Vondrick计划给该程序看上好几年的电视,希望随着时间增长,算法也能日益精进。

注:Deep Learning(深度学习)是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本等。

© 2016, 微能创投加速器. 版权所有.

微能创投加速器

发布者: 微能创投加速器

微能创投加速器致力于联合中国顶尖的众创空间合作伙伴,用标准化的全球成功实践打造中国最大的加速器网络。