0829-11248055

旷视科技首席科学家孙剑:如何打造云、端、芯上的视觉计算(含30张PPT)|CCF-GAIR2018_亚博手机版2021-07-29 00:41

本文摘要:根据2018年全球人工智能和机器人峰会(CCF-GAIR)在深圳召开会议,峰会由中国计算机学会(CCF)主办,由香港中文大学(深圳)主办,深圳市宝安区政府强有力的指导,是国内人工智能和机器人学术界、工业界和投资界三大领域的顶级流动会,目的是创造国内人工智能领域最没有实力的边界流动合作平台。6月30日,电脑视觉专业场所召开,会场现场满员,很多听众站着听了几个小时的演说。上午场议题为计算机视觉前沿和智能视频,由香港科技大学RAM-LAB主任刘明出演主持人。

亚博app

根据2018年全球人工智能和机器人峰会(CCF-GAIR)在深圳召开会议,峰会由中国计算机学会(CCF)主办,由香港中文大学(深圳)主办,深圳市宝安区政府强有力的指导,是国内人工智能和机器人学术界、工业界和投资界三大领域的顶级流动会,目的是创造国内人工智能领域最没有实力的边界流动合作平台。6月30日,电脑视觉专业场所召开,会场现场满员,很多听众站着听了几个小时的演说。上午场议题为计算机视觉前沿和智能视频,由香港科技大学RAM-LAB主任刘明出演主持人。

在他的串联下,香港科技大学教授许可龙、科技首席科学家、研究院院长孙剑、云从科技领导创始人姚志强、至法科技首席执行官任鹏、云飞激励天首席科学家王孝宇、商汤领导创始人林达华等学界、业界大咖啡展开了参加6个会场的深度共享,有计算机视觉技术的最前沿研究动向,也有技术落地的明确方向。孙剑博士在CCF-GAIR现场发表了科学技术的最高科学家、研究院院长孙剑博士为题目提供了云、终端、核心视觉计算的精彩演说。

孙剑指出,计算机视觉非常简单,是为了让机器看到,忽视科学技术的期待需要制作能源亿万相机,在所有领域应用的相机都没有智能,无论是云、末端还是芯。计算机视觉的发展史是研究如何应对图像的历史。

在深度自学流行之前,最糟糕的方法是基于特征,从图像中提取特征,然后进行分析。然而,这种方法有两个主要缺点:首先,该方法完成的非线性转换次数非常有限。

其次,大多数参数都是人工设计的,包括Feature。深度神经网络的方法填补了手工设计特征的缺失,整个非线性转换可以多次进行,换句话说可以深入,因此特征的应对能力非常强,可以自动领先训练所有参数。孙剑博士在微软公司时明确提出了152层的ResNet,首次在ImageNet大型图像分类任务中达到了人的能力。

其次,孙剑博士从计算机平台的角度分类了经常出现的各种神经网络结构:谷歌网、ResNet在云上的MobilNet,以及明确提视明确提出的ShuffleNet,属于末端的BNN、XNORNet针对现在的平台设计关系到网络的现状,孙剑相信将来没有MetaNet经常出现,需要统一解决各平台的神经网络设计和优化问题。最后,孙剑简单说明了在云、终端、核心三个平台上的计算机视觉应用,包括脸部识别、车辆识别、脸部缴纳、智能安全、智能金融、城市大脑、仓库物流、新零售等。

下面是孙剑演讲全文,展开不改变本意的编辑。目前,人工智能一般分为感觉和理解两部分,该图显示了计算机视觉在人工智能领域的方向,绿色应答技术有重大突破或应用于落地成熟期、橙色和黄色应答需要重大突破。

科学技术正式成立至今已有7年,仍专注于计算机视觉领域。去年,旷视获得了两项非常好的荣誉,MIT选票的2017年度十大突破技术中无视科学技术的脸交纳技术排行榜上有名,这是中国公司技术首次获得这项奖项的MIT奖也无意识地被视为2017年度世界五十大最聪明的公司的第一次去年也完成了新的4亿6千万美元的融资,作为更好、更了解的研究和商业落地使用。

简而言之,计算机的视觉就是让机器看到它。科学技术创立后,如果机器能自动解读图像和视频,我们能做什么?这个问题。

当然,这样说是抽象化的,我们想做的是能量亿万的照相机。日常生活和各行各业都有手机、安全、工业、零售、无人车、机器人、家庭、无人机、医疗、遥测等很多照相机。在这些地方,很多照相机还没有智能化。

我们的愿景是使这些照相机智能化,构筑云、终端、芯片等智能大脑,解读智能照相机输出的大量信息。与语音识别相比,计算机视觉应用非常普遍。

语音识别的输出和输入更单一,核心目标是将语音变成文字。但是,计算机视觉系统的输入非常丰富,必须告诉图像/视频中的物体、运动、场景,其中有谁、人的方向、不道德、表情、注意力等。

你不会在不同的行业和场景中面对不同的任务。这也使计算机视觉成为相当大、迅速成长的学术领域(今年计算机视觉年会的CVPR和会员超过了约7000人),出现了很多优秀的创业公司。计算机视觉的核心问题包括分类、检查、分解,分别识别一张图、一张图的不同地区和一张图的各像素。

此外,如果输出视频,我们还必须利用时间关系进行识别。最核心的是分类问题,因为它是以下三项任务的核心和基础。

然而,当人工智能频繁出现时,计算机视觉也出现了。计算机视觉有先驱者和DavidMarr。他在80年代初明确提出了PrimalSktch方法和研究计算机视觉的大框架,指出图像应该再次检查初级Edge,出现了2次Dsketch和3D模型。

但是,MIT教授指责Marvin,Minsky指责你的理论很好,但是忽视了核心问题的研究——如何说明图像。电脑视觉的早期图像响应模型是Part-based,例如人体可以分解为头部、胳膊、腿部的脸部可以分解为眉毛、眼睛、鼻子,通过Part可以分解成这种组合的方法来响应对象。如果一个物体有结构,这种组合方法很合适,但是很多自然场景的物体没有这么强的结构就不合适。

80年代,早期的神经网络也很好地应用于人脸和手写数字识别,但仅限于这两个领域。2001年,有一种方法叫做ViolaJones。它利用这个机会定义了一组Haar小波基,然后通过机器学习自学Harr小波基。该方法的优点是引进自学对结构图像作出反应,缺点是限定版在该小波基础上,称赞有结构的物体,不一定适合没有结构的物体。

大约在2000年2012年,深度自学前最受欢迎的回应是Local。该方法从一张照片中提取数百个Feature,人工构成SIFT/HOG这样的东西,代码取得高维向量后,赠送给SVM分类器是深度自学前最差的方法。对人的脸也类似。

我以前的研究小组也用一定程度的方法提取了脸部要点,取得了高维度的Feature,这也是当时最差的脸部识别方式,第一,这种方法总体上是输出向量到另一个高维度向量的非线性转换,这种向量的转换次数受到限制,如果确实计算其非线性转换三四次,就会增加勇气,提高性能第二,其中大部分参数是人工设计的今天的主流方法是深度神经网络,这两个特性发生了变化,整个非线性转换非常广泛,可以做很多次,系统的应答能力非常强,第二是所有参数的领导训练。这两点确实需要深度神经网络取得非常好的效果,包括当时我们在微软公司明确提出的152层的残差网络,首次在ImageNet上达到了人的性能。

ResNet为什么需要工作?到今天为止没有具体的回答,当然有很多说明。最直观的说明是,当你的非线性转换层数非常多时,相邻两层转换的差异非常小,与其需要自学这个组织,不如自学组织的变化,这种方式实际上是自学过程整体,特别是训练优化过程更容易。另一个说明来自这篇论文(KaimingHe、西安yuZhang、ShaoqingRe、JiandunSun.DeppresidungFor关于Imagefreconition.CVPR2016.)的第二作者张祥雨,指出Resnet的自学过程是从深到浅的动态过程,在训练初期有效地训练浅层网络,训练后期有效地训练深层网络。论文第一作者何凯明还有另一个更科学的说明。

他指出,整个培训过程相当于深度自学的梯度上升过程。特别困难的梯度消失问题被ResNet解决了。该说明还公开发表了一篇关于ECCV、2016年的论文(Kaiminghe、Xiangyuzhang、Shaoqingren、Jiantinsun.IdentityMapintitityMappingtinghe、Xing、Xiangyuzhang、Shang、Jhangyungre、Jhangrengrongring、JingrengrengreReng、Jingreng、JintititityMantitititityMan.ititityMappintintinting的论文中第一次训练了第一篇文章。还有一些同行明确提出的说明。

一是将ResNet与RNN相关联,指出如果有weightshare,resNet可以看作是RNN。另一个是指数多个深度网络的构建。使用构建这个词只是一些问题,一般来说构建算法没有领导训练,但是在这里指数多个网络领导训练,很难定义是否构建。我个人尊敬的说明之一是IterativeRefinement,它是网络初期的层自学应对,后期的很多层大幅度回到Refine。

这和人读图的识字很相似,不容易解读的东西要看一会儿。根据现在看的内容的解读,可以重复阅读。此外,从优化的角度来看,如果不需要RessNet,则系统的损失函数不会非常凹凸和高低,因此很难优化。我们告诉整个网络训练的所谓突出的优化问题,如果是这种不光滑的损失函数,训练比局部大于局部大于局部大于局部大于局部大于局部大于局部大于局部。

最近的研究表明,局部大于地区的面积和缓和性和方法的推进能力非常强烈。多层ResNet的自学能力非常强。去年,ResNet顺利应用于Deepmind。

亚博app

在AlphaGoZero系统中,通过40层或80层的网络,可以教授从棋盘图像到落子方向的高度简单的同构,令人吃惊。从2012年开始经常出现各种神经网络结构。从计算平台来看,这些工作大致可以分为三类:第一类是云,如GoogleNet、ResNet,其目标是向最低精度方向回顾,GPU、TPU卡可以训练非常大的模型,了解我们的理解的理解界限,第二类平台是末端,特别是嵌入式设备谷歌去年明确提出MobileNet,运营在移动终端设备上,忽视科学技术去年明确提出ShuffleNet,其目标是如何以等价计算量的设备取得最差的效果。一个网络的最基本结构是多个3×3的卷积,ResNet是通过功能调用连接的,我们在ResNet中引进Bottleck结构,再做到11×1,再做到3×3,再做到1×1去年何恺明有一项工作叫做ResNeXt,在3x3的基础上引进组卷积累的方法,可以很好地提高组卷积累的有效性,谷歌的MobileNet是3x3的组卷积累的方法,各层各有各的,这种方法非常有效,特别是低端设备ShuffleNet融合分组卷积和分层卷积的思想,对1×1Conv分组只是分组,分组之间的信息交换不会影响特征自学,因此通过引进Shuffle操作者,更好地交换不同分组的信息,实现3×3的分层卷积,返回1×1分组卷积,这就是ShuffleNet的核心思想。

与其他方法相比,在完全相同的精度下,ShuffleNet在现实设备左右。这是我们去年专门为手机设计的ShuffleNet,在CPU/ARM上效果非常好,如果在CPU/ARM上,性能不好,因为CPU和GPU的特性不太一样,其中有很多原因,如卷积设计、Group卷积等今年,我们设计了ShuffleNetv2,也就是第二版,放弃了组卷积累的想法,引进了Ch。annelSplit,和ChannelShuffle的新方法。该方法将Channel分为两部分,使各部分以非常简单的构造实现,使用Shuffle的作业者分解Channel是我们在网络设计中找到的基本指导原则。

例如,我们必须均衡卷,而不是浓厚的卷,而是规则的卷这项工作目前在CPU和GPU中取得了最差的精度和速度。不仅仅是小型模型,在大型模型中在一定程度上取得了非常好的效果图的最后一行,在ShuffleNtv2中,至今为止计算的只有12.7GFlops的情况下获得了10分的精度。我们还必须在芯片上运营神经网络。这不仅拒绝了网络结构的设计,还允许了网络内部精度的应对。

目前最受欢迎的方法是降低精度。例如,BNN和XNOR的Net,以及明确提出的旷视技术的DorefaNet。低精度方法是指神经网络的权重和转录值以低精度回应,比如1、2、4。

如果能以较低的精度对两个向量作出反应,则可以通过小费上非常简单的位置运算完成。我们明确提出的DorefaNet是第一次分析梯度的研究,可以在FPGA进行培训。在这些设备中计算的量是一方面,但内存采访允许更大,DorefaNet更好。右图是我们在ImageNet获得的1位、2位、4位、6位分析精度下最差的分类结果。

上述分类问题网络设计必须考虑不同的平台。其他问题多以分类为基础。例如,检查右图是最近几年的发展道路,从《关键词》到我们明确提出的SPP-Net,到《关键词》R-CNN,再到我们明确提出的关键词R-CNN,再到我们明确提出的关键词R-CNN,再次应用于基础分类网络,构建不同的物体检查框架。

检测方面目前最权威的比赛是COCO,检测精度用MAP应对,越高越好。2015年,我们在微软公司亚洲研究院使用ResNet做了37.3,旷视研究院去年参加了这场比赛,获得了第一名的成绩。

我们获得COCO,2017冠军的论文是MegDet。COCO可以对人进行检查,也可以提取特征,我们也可以研究后者的工作(YilunChen、Zhicheng)。最后,我们将解释一些基于云、终端和核心的商业应用。

在云上,旷视科技首推面向开发商的www.faceplusplus.com的旷视AI云服务。第二个云服务产品是www.FaceID.com,这是目前仅次于的在线认证平台,为网络金融、银行、上班等行业提供在线认证服务。

第三个非常大的云服务产品是城市大脑,它的核心是通过大量的传感器,提供大量的信息,最后做出决定。视觉是目前仅次于的感觉方式,中国有很多照相机,通过赋予这些视觉传感器,可以告诉人和车的属性,了解交通和地区状况。其中一个最重要的应用是公共安全,也就是说,如何使用数亿摄像头来帮助城市的安全和高效运行。

末端的应用更多,首先是手机。vivoV7是第一台海外上市旗舰机,配备了我们的面部水平技术,还配备了美国的面部水平。我们协助vivo,小米在iPhoneX发布之前发售了脸部水平的手机。华为荣耀V10和7C手机在一定程度上用于我们的技术。

华为为何要求孙杨当代言人?因为他游了很多年,指纹已经磨光了,所以必须用脸部水平才能很好地用于手机。不仅包括脸部水平,还包括脸部AI。照相机的场景识别,动态地告诉你在拍电影,更好地调节照相机参数,使脸部三维重建,自动构建3D线。

另一个有趣的应用于深圳和杭州肯德基分店,消费者需要刷脸订购。这些图是我在现场刷脸喝果汁的过程。二是新零售,利用图像感觉系统,可以数字化在线人、商品、场所的过程。在线零售是数字化的,可以根据数字化的用户统计数据信息和个人信息进行用户图像、大数据分析,提高新的零售效率。

我们在网上零售,必须以图像感觉数字化。最后是小费。

我们去年在安全展览会上发表了智能图像捕捉器-Megeye-C3S,将DorefaNet带到FPGA,放在照相机上。这是业界第一幅画(1080p),只有帧率(30fps)的脸部动态检查捕捉器。北下该怎么办?今天我们分平台,根据平台的特性设计网络。

我们相信下一代没有MetaNet,统一解决各平台神经网络设计和优化问题。非常感谢你。有关文章:对话忽视科学技术:姚期智复职是本质的想法,将来想成为国内首家上市的纯人工智能公司,忽视科学技术子公司定居杭州,重点射击智能安全业务CVPR2018|8篇论文,10首Demo,双重材料挑战冠军,忽视科学技术引起CVPR产学研究交流热潮的原创文章,允许禁止发表。下一篇文章发表了注意事项。


本文关键词:亚博手机版,旷视,科技,首席,科学家,孙剑,如何,打造,云,、

本文来源:亚博app-www.behindthedrive.com