8月30日,2017全球人工智能创新峰会在上海召开,新锐AI企业商汤科技创始人、CEO徐立以题为“人工智能的一天”的演讲登场。
他通过直观的视频演示,展现了商汤科技多项原创AI技术在各类生活场景的应用。早上的街道,行人在走路上班,但基于商汤的视觉识别技术,看到数据流在流动,与传统的图像存储相比,数据流的存储要小的多,节省了数据中心的空间。
徐立表示:“人工智能没有人们想象的那么遥远,它早已悄然渗透至人类社会中的各个领域,成为超越人类的生产工具,并带来全新的交互方式。未来,基于视觉识别的人工智能技术更将对社交、游戏、电商、广告、影视等行业产生颠覆式的变革。”
据了解,商汤科技核心团队在计算机视觉基础技术研究方面有近二十年的积累,原创技术已成商汤科技标签。2011年到2013年间,在世界顶级计算机视觉会议CVPR和ICCV上,发表了14篇关于深度学习的论文,占据全球共29篇的近一半。2014年,商汤团队发表DeepID系列人脸识别算法,首次超过人眼识别率,超过Facebook同期发表的DeepFace算法。2015年,在ImageNet国际计算机视觉挑战赛(ILSVRC)的视频通用物体检测竞赛中,取得检测数量、检测准确率两项世界第一,成为首个夺冠的中国企业。2016年,在ImageNet国际计算机视觉挑战赛(ILSVRC)的大规模物体识别竞赛中,商汤科技与香港中大-商汤科技联合实验室又一次蝉联视频物体检测冠军,一举揽下物体检测、视频物体检测和场景分析三项冠军。
徐立表示,商汤科技在视觉识别技术领域的突破源于人才的聚集,未来3-5年内人工智能领域的竞争关键都是人才。高准入的技术门槛,决定了人工智能人才需要更长周期的培养,深谙这一点的商汤科技已建立系统性的产学研体系,包括导师制,实习生制,与香港中文大学、浙江大学、清华大学等高校共建联合培养实验室,不仅让高校人才深度参与工业界的技术落地研究,也形成了商汤科技人才供给的保障。
今年7月份,商汤科技又宣布B轮融资,融资规模为4.1亿美元,此次融资对该公司的估值超过15亿美元,创下全球人工智能领域单轮融资最高纪录。
徐立:会有非常多的应用方向,其中游戏会有非常大的延伸空间,以前的游戏体感带东西要做很多,以后会有单摄像头的交互,它就会生成很好的游戏的体验。第二个对视频当中的理解,对物、对人的理解,你有很好的捕捉以后就把两个人的关系弄得很清楚,通过动作捕捉你观察两个人是在打架还是练瑜珈。第三个如果在家庭场景当中,这些东西还可以做判断。比如说电视机上有这样的镜头,他会知道说你模仿杰克逊的舞蹈打几分,还有你做瑜珈标不标准。第四个是手机上的娱乐化应用,比如说拉长腿,我得整个都得拉,用PS太难做了。所以我们做这个SensePose(人体姿态检测系统)最大的核心理念是人工智能有两大工具:一个是生产力工具,一个是交互工具,交互工具是完全不同的一个,所以肢体是完全人机交互的一个。
问:视觉识别可以判断现场听众的专注度以及人与人紧密度的关系,这在应用时是否涉及到隐私?
徐立:讲隐私的问题是这样的。我一直觉得是有这样的能力以后,反倒是把大家的隐私保护起来了。比如说你刚才讲的,无外乎是安防摄像头看到大家,会不会泄露隐私,其实这些摄像头都在,会场的摄像头事后都有看和查。你说摄像头用人查方便还是机器查方便,假设机器将原始的信息转化成人类不可以读但是给出一个犯罪的线索,只有少数有权限的人才能调用原始的东西是一个更好的保护,技术某种意义上带来的是无人操作,越是无人操作越是保护,它的那种安全性是提升的。
徐立:大家讲人脸识别,好像觉得这是一个已经定义好的问题,其实并不是这样的。你看公安做人脸识别抓人,犯罪分子喜欢戴口罩。第二个拍的照片也是模糊的小的。第三个通过背影、轨迹、姿态来恢复,其实它是一个综合的问题。但是反映到普罗大众不就是人脸识别吗?人脸没见到还能识别吗?这就是怎样定义的问题。好像无人驾驶,大家听上去一件事,怎样定义无人驾驶,要用感应器,要用雷达,几个摄像头怎么装都是问题的点。创业和技术公司第一件事是结合业界的需求把问题定义清楚,第二个是它能不能成功,能否根据这样的定义问题把我们的产品做到超过工业使用的红线,如果没有过红线,场景很好但是做不了。所以两个方面都有具备,第一技术很快,可以把很多垂直领域做过红线,第二个问题的定义,场景需求更明确一些,所以我们可以通过知识更好定义问题。
徐立:技术问题是前期研发表达的成本,研发成功它的应用是低成本的,现在在每个安防摄像头都带有人脸捕捉加上各种属性的,比如说你们媒体走进采访房间,它知道大家开不开心,如果不开心就是回去会想是没讲好还是不开心,这个就是装在里面的,然后回去以后大规模量产就可以了。技术带来的是价值的提升,技术与其他创业不一样的是,是给行业的上下游带来了创造的价值。
安防也不错。我们现在几大块,手机的人脸解锁,还有人脸的娱乐相册。你现在拍一个照片每个人都是一个相册,我有三个小孩,虽然长得像但是每个还是分开的一个相册。
徐立:比如说重庆,最早我们放了40天的系统识别了69个人,抓获15个人。
徐立:清晰,B2B2C。这是两个概念,首先我们要考虑量,我们在安防里面,每一路视频可以处理的话,如果说视频的路数多了,那形成的体量对我们是有好处的。终端的设备,比如说IOT的设备是按台的,你的体量大我们也好。云端的SaaS调用也是这样的,调用多我们也是有优势。B2B2C是通过量级的企业来辐射的,而且还有一个好处是标准化,你这个做的是一个什么概念,也就是标准化。第三点就是B2B2C,如果客户大规模发展,反而会推动我们B端的发展,所以我们做的布局是“1+1+X”,第一个“1”是基础研究,第二个是“1”是产业结合,第三个“X”是行业伙伴。
问:人工智能很多大公司的研发投入是非常大的,如何跟这些大企业做差异化的竞争?
徐立:像Google投入了120多亿/年,这种大公司都会做这样的投入,但是问题是创业公司和大公司做这样的事情,在中国更难一些。难点在哪里,中国特别少做原创的东西。中国这些多年都是养成了拿来主义,国外有好的东西,开源的东西就拿来使用。但是这其实你是搭配在别人的生态上,中国投了几百亿在系统上,但是还是安卓系统,PC操作系统,中国没有自己操作系统。
为什么没有?因为海外形成了生态,Linux、安卓是开源的,它的前期的投入使得行业在他们上面的发展。人工智能同样的局面,也是国外的巨头都开源了,国内的人都是在上面去用,所以难点就非常大。
商汤想做的是源头的事情,我们是做底层的,我们做得比较早,早的好处是Google和脸书没有做的时候,你就开始做了,你就要建立自己的完整体系,很多人说为什么不利用别人的开源做,站在巨人的肩膀上走。但是我的意思是说巨人不一定跟你方向一致,涉及到国家安全,涉及到各种金融方面的事情,其实非常难说让Google和Facebook帮中国解决问题。
徐立:这就是进入行业的早晚,因为现在就是说人工智能在中国其实并没有很落后,因为它这波的信息,也就是在2010年、2011年兴起,也就是很短的历史,中国在起跑线上并未输,因为大家在同一个起跑线上跑。我们的创始团队在深度学习,在人工智能前三年,29篇文章里面发了14篇,就是中国人发了全世界一半的文书,那就相当于在原创这块没有输。中国现在的一个点是在哪里呢?是在海外Google、脸书投入很大,每年几百亿的投入。但是中国这样的巨头是不是做底层的核心,这很难,因为他们有自己的业务诉求和自己的点。并不像很多美国的基金养一个研究团队,我就有一批研究人员专门做这个,或者是5个大体量的公司结成联盟,而中国可能商业导向重一些,我觉得国家层面需要给予投入,给予地方的保护,尽快地将中国原创的平台和技术能够在应用场景当中有一个落地。
但是中国是有优势的,第一人才优势,很多事情是要靠人干,你可以看到中国在AI上的储备,人才下一波是非常非常多的。有些人小学都要学人工智能的。所以中国的人才储备是充足的。
第二个是应用场景,所有的行业都要先行先试,一定要拥抱技术的应用场景。中国双创也好,人工智能战略也好都是带来丰富的场景。
最后一个是数据,在中国,数据红利还是非常大的,只要是乘上人口基础都是数据非常大。这三点的话,只要是中国在下面的战略上达到一定的高度,它一定是可以在人工智能竞争当中至少是不输于美国。
问:人工智能讲到底就是人才、算法和数据这块,关于人才的抢夺还是蛮严重的,您进入这个行业人才变化是怎样的。另外商汤有很庞大的博士群,吸引人才这块怎么做?
徐立:在没有钱的时候,我们花了很多钱招人。当时人家不知道人工智能,也不会笼络人才,而且人才这个东西需要长时间培养。
问:BAT都在介入人工智能等各个方面,那对于咱们作为独角兽公司来说,我们计划未来发展是融入他们还是走自己的道路。
徐立:目前是我们发展自己原生的平台和技术。为什么我们要自己发展自己的人工智能技术,在于我们做了垂直应用别人也没做。在这些垂直应用上你一定要有自己的技术解决过红线的能力,不然你用开源的东西或者是某些平台,但是这些平台未必能支持这些应用场景。所以这是一个核心的点。
现在因为是技术发展的高速期,你只要站在技术的最前沿,你就有时间窗口形成壁垒,所谓的壁垒是合作伙伴、数据壁垒、各种各样流量的壁垒。目前我们还是会独立发展自己的东西,但是不排除和任何一家合作。
问:前一段时间商汤拿了很高的融资。从你创业到现在,目前是否达成您的预期目标?
徐立:先讲一下投融资目标,这也是我自己一个很有意思的判断,我说人和机器。大家不是讲机器超过人吗?人和机器最大的区别是什么,人的目标是会变的,机器是定目标的,我让机器下围棋,他不会说太难了我下一个五子棋,而我让小孩他会这样。所以创立公司也是一样的,早期的时候每个阶段也会随着你的现实状况发生变化,而融资只是一个Starting point,前期通过2000万美金做到这个程度,目前我们融了4个多亿美金,我们希望通过这个加快“1+1+X”的研究,第一个“1”是基础研究,着重投入;第二个是“1”是产品化,第三个“X”是发展合作伙伴,我觉得AI不是任何一家公司把所有的场景形成,接下来就是形成生态和形成X的联盟,所以接下来的投融资我们会着重在这样一个发展链条上。
徐立:如果我们布局只能布局下游,上游就是服务器、芯片、传感器这些,比较少。那没那么相干。但是下游的应用可能是可以的,就是在垂直深,甚至是我们服务的客户里面,如果做得特别好的,我们就可以一起来做。
徐立:他们现在还是我们的客户,我们俩是合作伙伴关系,讯飞是做语音居多,它有一个很好的优势就是各地方言都收齐了,你没听过不知道怎么做。我们是做视觉的,是一个互补,但是视觉整体的应用范围都广一些。
问:一个是关于商业场景化的问题,有哪几个行业会率先实现规模化或者是更加有盈利前景?
徐立:普华永道做过一个预测,2030年人工智能将会带来一个中国加一个印度的GDP。在2020年大概增加了1万亿美金,但是这1万亿美金大部分是替代现有的劳动密集型产业,这是对的。就目前来说,人工智能落地的场景就是替代人,现在线下场景本身已经打通了,在有些地方有几十个,像我们在座的有一些地图的遥杆识别,通常是一家公司靠人做的,我算法进去,上千个变成200个,整个的成本就下来了,所以第一个变现的是人口密集的行业。为什么安防、金融能够变现就是这样的,安防2.5亿支摄像头,这些靠人看不行,所以不得不属于技术识别去做,这就是替代人。金融在线的所谓的认证,以前虽然是和记app官网在线都是人,我见过最大的P2P公司,创业半年以后3000多人,都是背后有人验证,你的四要素齐不齐,现在靠机器干,人也不用了。所以行业场景一定是先有场景,一定是多个劳动密集型的,然后替代你去形成,这几块都是好的,像我们叫无人驾驶、医疗,都是替代人。
等到这一波价值接取完了,会带来新的场景和渠道,比如说交互。为什么我们做交互,本身不可能产生的事情现在新的交互产生,比如说现在用手机做浏览的,我们想不到手机怎样颠覆PC的,以前新浪、搜狐做得很好,但是现在今日头条也做得很好,但是真的是今日头条的AI算法比新浪好吗?或者是我把今日头条的AI完全搬到新浪上啊流量会变得多吗?很难说,是交互模式的变化了,它没有适应新的交互模式才会导致现在的局面。
徐立:如果大家追来投钱,大部分的企业或者是应用场景过不了工业红线,这就是泡沫。如果能过工业红线的它发挥的价值是大的,他能改变生产制造。比如说发生了蒸汽机,农业灌溉能做、工业制造能做、铁路也能干,那是否发展空间很大,再看怎么垂直结合。人工智能的泡沫是把所有不相关的领域圈起来,大家都说自己做人工智能那就是很危险。
商汤科技联合创始人、CEO。在他的带领下,商汤科技在人工智能学术研发和商业拓展等方面均取得多项突破,包括在ImageNet 2015上成为首支夺冠的中国企业,在2016年获得ImageNet 3个单项冠军,并推动超过400家客户的“人工智能+”升级。徐立还促成了商汤科技成为英伟达的平台级合作伙伴,以及与银联、中国移动的战略合作,并将商汤科技的业务拓展至金融服务、平安城市、智能家居、机器人、无人驾驶、虚拟增强现实、医疗等多个行业领域和场景。
在加入商汤科技之前,徐立先后在摩托罗拉研究院、欧姆龙研究所、微软研究院、联想研究院等计算机视觉基础研究机构访问工作。
徐立本科硕士毕业于上海交通大学计算机科学与工程系(试点班),博士毕业于香港中文大学计算机科学与工程系。徐立的主要研究方向是计算机视觉和计算机成像学,拥有十余年基础研究和产品开发经验。在视觉领域国际顶级会议、期刊上发表50余篇论文。徐立获得国际会议NPAR 2012最佳论文奖,国际会议ACCV (12) ICCV (15)最佳审稿人奖。其三个算法获得视觉开源平台OpenCV收录,其中L0 Smoothing 为图形学期刊Transaction on Graphics (TOG) 五年论文引用之首 (2011-2015)。徐立还获得了网易未来科技人物大奖创新商业领袖、中国人工智能创业领军30人、2017新智元人工智能创业家等荣誉。