机器人的粮食是数据

2016年7月27日 来源:科工网-国际互联网+生态服务平台  浏览 578 次 评论(0)

早期在做自动驾驶的时候,实际上收集的数据是*少的,基本上只有几十个小时的驾驶数据,对复杂路况的处理能力比现在低很多,从性上讲是不够的。这就造成了为什么这样一个技术在20年前已经相当成熟了,但是到今天大家才真正给它商业化、规模化,其中一个很大的原因是由于Google或者说其他的车厂有*大的能力收集几十万小时的驾驶信息,而且有*大的处理数据能力,能够把所有的信息抽出来,能让车在*复杂的情况下有一个很好的处理能力。从这个意义上来讲,大的数据真的是很重要的。

另外一个是AlphaGo,大家现在都知道Google做一个能够下围棋的机器人,可以自动去读棋谱能够跟的围棋选手下,而且一直保持*好的胜率。但是同样,大家也知道下棋这件事情不是今天才发生,很早年前IBM的Deep Blue(深蓝)是*成功的例子,他制作了一套系统能够跟的象棋大师做对弈。我也想提一下,所有Google在AlphaGo里面做的系统,包括深度学习、强化学习这件事情,实际上在20年前就已经被人在游戏上应用了。在1996年的时候,我估计现场有些同学可能都还没出生,那时候有一个系统叫TD(λ)的算法,有几位科学家把这个算法应用在一个在美国挺流行的游戏上,很快成为了冠军。

这里头神奇的地方,跟AlphaGo比起来的话,AlphaGo还需要读人类棋手的棋谱,从中吸取经验成长成为的选手,但是对于我刚才说的TD(λ)的算法来讲,当时就是做了两个不同版本的算法,这两个版本自己跟自己下了150万盘,就成了冠军。某种意义上讲,真的是自学成才的算法。

那么说回来,为什么说这样一套AlphaGo的系统大部分的核心技术点,实际上在20年前都已经很成熟,为什么到今天大家才把它的面纱揭开来呢?关键还是数据的问题,20年前我们的计算机不足以处理这么多的数据,现在我们有了GPU可以*有效的处理这些数据。

可能还有一个比较重要的点,大家日常都会接触到语音识别技术。实际上语音识别技术在这几年有一个*突飞猛进的发展,比如智能手机就已经开始普遍应用语音交互。实际上语音识别技术,是在六十年代开始的,有很多技术的东西其实很早的时候都有人尝试做,但是近两年获得成功,还是归结于现在我们的数据处理能力和计算能力,使得它完全能够变成更加智能化的工具。

数据有一个*厉害的能力就是挖掘价值。我想举个例子,这个例子就是花呗,大家可能都知道花呗的背后实际上是你的信用分,这个信用分基于你整个以前的行为,这些行为会告诉系统说你这个人有多大的可能还钱或者说有多大的还付能力,花呗是*复杂的一个系统。把你整个所有的交易行为都形成数据,然后来算这个人能借给他多少钱,偿还能力如何。这个跟美国以前的信用体系有*大的差别,完全是从数据上挖掘出你的行为,来测量你的信用有多好。

另外一方面,花呗在做信用测量的时候,另外一个很有意思的事情在客服上。很多顾客会打电话到支付宝,问为什么我的花呗分比较低?怎样能够把我的花呗分数提高?这个实际上就需要这些学习智能的机器人,能够从这个模型里面提取出有用的信息,告诉这个人怎么能够做一些努力、做一些改变,能够把他的花呗分有效的生长起来。

下面我想说一个*有意思的技术,因为我意识到好像在国内主要的技术是深度学习这样的技术,对吧?实际上在过去的十年间,我认为在统计数学产生了一个*有力量的技术,它的中文名是压缩感知。这个技术是*有趣的技术,就是可以重现历史。大家设想这样一个情况,你有一个**老的、破损的已经不行了的照片,就像左边这个照片一样。你肯定有一个心愿,这个心愿是说有没有一个机器可以把很破损的照片恢复的没有瑕疵,这是大家的心愿。自从有了这么一个*厉害的技术叫做压缩感知,它实际上是可以把破损的照片,把它重现成很*完整的照片。这是*的几个科学家在近几年做的杰出的工作带来的成果。

有了这个技术,大家会想是不是相机因为有了这个技术可以做一些改变?我不知道在座的同学知不知道,为什么我们手上拿的数字相机会这么便宜,有人知道为什么数码相机会这么便宜吗?其中一个*重要的原因,我估计很少人清楚,就是数码相机的感光材料是用硅,因为很巧,人的感光区间和硅的感光区间是差不多的,所以说硅可以成为*好的传感器来形成图像。但硅做不到但是红外的感光区,而红外感光材料*昂贵,所有红外或紫外相机通常都很昂贵。你要想拿到一个**高清的照片是*昂贵的。

所以现在有很多公司在做一件事情,就是说我可不可以用一个*简陋的相机来拍,但是用压缩感知技术把它重现成*好看的照片来。美国的莱斯大学正在做一个惊天动地的事情 - 单光子相机,就是把相机逼到极限,能不能只测量一个光子就可以把整个图片完完整整的呈现在你的面前,这件事如果能做到,就会*厉害。我个人觉得压缩感知这样的技术,应该会在以后的一些时间内会成为一个**重要的技术。

我说了这么多,有一件事情我都没有提到,就是什么是智能,对吧?智能我想这个定义是每个人都有不同的含义,一个简单的定义从机器学习或者是 人工智能 角度来看,所谓的智能是什么呢?所谓的智能就是一个决策函数,这个决策函数它会有一个输入,比如说一个照片会给出一个决策。比如说它告诉你照片的人是什么,现在几乎所有的机器学习、所有的人工智能的方法,不管是AlphaGo,不管是语音识别、不管是自动驾驶几乎都是用这个方法为基础的。这个智能是我们经常说的人工智能,实际上它跟人的智能还是有一个很大的差别,的差别就在于他们对数据的依赖。

大家都可以看到,小孩在学习各种技能的时候不需要教他几千遍、几万遍,通常来讲一个学习的过程多几十遍。所以人的学习可以依赖于相当少的样本就能学到这个知识、这个技能。但是反过来说,机器智能这种基于决策函数的学习方式,都需要一个巨大的数据支持,这就是为什么我们说的只有有了巨大的数据,人工智能才会普遍运用起来。机器实际上是要学习一个函数的,而所有的数据理论都告诉你,要学好一个函数,这个数据量一定是**大的,这有很多所谓的不可能定义。他告诉你说,如果数据低于一定的程度,这样的函数是不可能被学习下来的。

我总结一下,我们正处于一个激动人心的时代,在这个时代能够利用*大的数据,能够利用巨大的计算能力,让那些十年前、二十年前研发出来的算法,能够真正发挥巨大的价值。像大家看到的自动驾驶、AlphaGo等,但同时也要认识到现在这样一个基于函数技术的机器学习或者说是人工智能的方法,也有一个巨大的局限性。所有以函数技术作为基础的学习,一定是对样本的数量有很大的依赖。到底我们应该怎么去看待人在学习过程中的能力?为什么说人只要需要几个样本就能把一个技能学好,为什么机器学不好?从这个角度来讲,我认为现在的数据巨大成功同时也是给在座每一位年轻人有一个巨大的机会,这个机会也就是到底人是怎么学习的。

我来说两句
人参与 丨 评论0条)
图标
注册 登录    
评论列表
每页 10 条,共 0 条
×

微信扫一扫关注我们

欢迎投稿

×

邮箱:15236061639@163.com

QQ:60298351

微信:a18137798589

(版权所有 科工网&北京天云聚合科技有限公司 © Copyright 2015 - 2022 . All Rights Reserved.) 京ICP备14030211号-5   |   营业执照