更新时间:2018-06-04 信息来源:中新经纬
三大派系决战AI芯片之巅: 英特尔押宝神经网络处理器深度学习两年提速100倍
在以往的PC时代,生态的核心是芯片,因此围绕芯片构建生态就可以令英特尔固若金汤。
5月23日,在有着103年历史的旧金山艺术宫中,英特尔的新晋科技大会——人工智能开发者大会(简称“AIDC”)如期而至。这一次,英特尔聚焦于拓宽人工智能生态。
在罗马式建筑和科技感的AI场景间之间,英特尔的AI掌舵者Naveen Rao侃侃而谈英特尔的人工智能软硬件组合,而最重磅的信息莫过于Nervana神经网络芯片的发布预告,按照规划,英特尔最新的AI芯片Nervana NNP L-1000,将在2019年正式推向市场,这也是英特尔第一个商用神经网络处理器产品。
两年前,Naveen Rao还是深度学习初创公司Nervana Systems的首席执行官兼联合创始人。在公司被英特尔收购后,Nervana成为了英特尔人工智能的核心战舰,Nervana NNP系列也应运而生,Naveen Rao则被任命为人工智能产品事业部的总负责人。
英特尔人工智能产品事业部副总裁、Nervana团队成员Carey Kloss在接受21世纪经济报道记者专访时谈道:“我们创业初期就开始研发Lake Crest(Nervana NNP系列初代芯片代号)。当时我们整个团队大概45人,正在构建一个最大的Die(硅芯片),我们开发了Neon(深度学习软件),还构建了云栈,这些都是小团队所完成的。但是这也是挑战所在,小团队成长会有阵痛,我们花了很长时间才把第一批产品拿出来,Nervana在2014年成立,直到去年芯片才真正问世。”
不过,加入英特尔后,Nervana可以使用英特尔的各类资源,“当然,调用资源并不是一件容易的事情,但是英特尔在产品的市场化方面拥有丰富的经验。同时,英特尔有迄今为止我见过的最佳的后硅培养(post-silicon bring-up)和架构分析。”Carey Kloss告诉21世纪经济报道记者,“出品芯片方面,我们有数百个系统同时运行,Nervana的员工和6个月前刚加入的成员也都为了新品夜以继日地协同工作。”在他看来,Nervana现在处于合理的节奏中,已经具备了明年取得成功的所有要素。
除了Nervana,英特尔收购的人工智能旗舰企业还包括专注视觉处理的Movidius、FPGA(现场可编程门阵列)巨头Altera、智能驾驶相关的Mobileye等。事实上,从2011年开始,英特尔就开始不断地投资人工智能相关的公司,其中也包括了中国的寒武纪、地平线。
与此同时,英特尔的竞争对手也在日益壮大。英伟达的GPU在人工智能领域高歌猛进;谷歌前不久发布了第三代AI芯片TPU,该芯片针对谷歌的深度学习架构TensorFlow进行了优化,并且谷歌对开发者提供了TPU等底层服务;去年,百度联合ARM、紫光展锐和汉枫电子发布DuerOS智慧芯片,主要提供语音交互解决方案;Facebook和阿里巴巴也纷纷进军芯片领域,其中,阿里巴巴达摩院正在研发名为Ali-NPU的神经网络芯片,主要用于图像、视频识别以及云计算等场景。
在这场人工智能芯片的“遭遇战”中,英特尔又将如何应对?
三大派系争霸
从整体来看,目前全球人工智能的格局尚未明朗,属于各自做技术探索的局部战,尚未进入群雄逐鹿的总体战。人工智能是一个笼统的概念,具体的应用场景差异颇大,各家公司侧重点有所不同,若根据技术和业务流派进行分类,可以将全球公司分为三个派系。
其一是系统应用派,最典型的代表是谷歌和Facebook。他们不仅开发人工智能的系统级框架,比如谷歌出名的人工智能框架Tensorflow、Facebook的Pytorch,而且还大规模地投入应用。例如,谷歌斥重金研发自动驾驶,推出翻译等2C业务。而Facebook也将人工智能技术广泛应用在社交网络中的图像处理,自然语言处理等诸多领域。
第二类是芯片派,目前主要是提供算力支持,最大的玩家就是英特尔和英伟达。英伟达的GPU抓住了计算设备需求的关键时机,在图形渲染、人工智能和区块链领域的计算表现十分突出,在这些业务方面也给英特尔带来压力。同时英伟达似乎和英特尔的“Intel Inside”不同,它更希望成为真正的算力平台,并且成功推出了自己的CUDA平台。
就在5月30日,英伟达发布了全球首个融合人工智能和高性能计算的计算平台——HGX-2,这也是目前最大的GPU——DGX-2背后的计算平台。
作为传统算力领域的老大英特尔自然不甘示弱,50年的企业颇有老骥伏枥的意味,近年来在人工智能领域频频发起重磅并购:2015年167亿美元收购“现场可编程门阵列巨头”(Field Programmable Gate Array,FPGA)Altera,为未来算力的发展趋势奠定基础,FPGA在云计算、物联网、边缘计算等方面有很大的潜力;2016年英特尔收购Nervana,计划用这家公司在深度学习方面的能力来对抗GPU;同年还收购了视觉处理芯片初创公司 Movidius;2017年英特尔以153亿美元收购以色列协助驾驶公司Mobileye,旨在进军自动驾驶领域。
在系统应用派和芯片派之外,第三类是技术应用派,剩下的大部分公司都属于这一类型。虽然不同的公司都声称自己在深度学习、人工智能领域有着深厚甚至独特的技术积累,但实际上大多是基于系统应用派和芯片派的技术平台。只不过技术应用派更多的面向C端用户,包括自动驾驶、图像识别、企业级应用等。客观上说,技术应用派属于“君子善假于物也”。
从目前的竞争格局上来看,系统应用派已经逐渐占据了整体优势,在人工智能领域具备了最核心的竞争力。在传统的电脑和手机时代,系统和芯片更多是合作关系,芯片甚至更加占据主导地位。具体来看,比如在电脑市场上,英特尔在算力领域完全制霸,横跨PC和苹果的MAC机。而系统方面,Windows和iOS各有千秋,无法代替对方,但他们共同的英特尔却无法代替。到了手机时代,虽然算力的主角从英特尔变为了高通,但是芯片依然处于核心的地位,其重要性和操作系统平分秋色。
而最近1-2年,形势变化很快,苹果放出要自己研发和生产MAC芯片的口风,英特尔股价一度闻风下跌。在人工智能领域,这样的趋势更加明显,由于计算场景的需求差异化极大,谷歌根据自己的需要研发成熟的芯片变得必要,技术上也更可行。英特尔如果要为不同的场景定制芯片,意味着英特尔将全面转入2B领域,和之前的2B2C模式相比,纯2B的业务显然会更像乙方,业务线的复杂度会急剧增长。而历史上来看,一家公司从2C转向2B总体来看往往都是因为失去了在行业中的核心统治地位而不得不退而求次。
押宝Nervana NNP
那么,在激烈竞争中,英特尔又如何进一步加码芯片事业?
Naveen Rao加入了英特尔后,成为英特尔副总裁、AI事业部(AIPG)负责人,主导推出英特尔神经网络处理器(Nervana NNP)系列芯片。这次在AIDC大会上提出为开发者提供软件工具、硬件、生态。在业内看来,以英特尔的技术实力,软件工具和硬件并不成问题,但是生态却有待商榷。在PC时代,生态的核心是芯片,因此围绕芯片构建生态就可以令英特尔固若金汤,但是在人工智能时代,人工智能系统才是生态的核心,提供算力的芯片是生态的一部分,CPU可以提供算力,GPU也可以提供,英特尔可以生产,英伟达也可以生产,甚至谷歌、苹果自己也可以生产。
目前在数据科学和深度学习计算领域,英特尔的芯片布局主要有Xeon(至强)芯片系列、Movidius的视觉芯片VPU、Nervana NNP系列、以及FPGA(现场可编程门阵列)。这几条产品线分别对应几个不同的细分应用场景。
Nervana NNP系列则是神经网络处理器,在深度学习的训练和推断阶段中,Nervana NNP主要针对训练阶段的计算,按照英特尔的计划,到2020年要将深度学习训练(Deep Learning,简称“DL”)的效果提高100倍。这款神经网络处理器由英特尔和Facebook一起合作设计,可以预测该芯片很大程度上应该会对Facebook的机器学习框架Pytorch有很好的支持,毕竟Facebook的Pytorch的野心肯定是要和谷歌的Tensorflow一决高下。不过最新款芯片2019年才会正式推出商用,届时深度学习的格局变化如何无法预料。
Naveen Rao在其博客中写道:“我们正在开发第一个商用神经网络处理器产品英特尔Nervana NNP-L1000(代号Spring Crest),计划在2019年发布。与第一代Lake Crest产品相比,我们预计英特尔Nervana NNP-L1000将实现3-4倍的训练性能。英特尔Nervana NNP-L1000还将支持bfloat16,这是业内广泛采用的针对神经网络的一种数值型数据格式。未来,英特尔将在人工智能产品线上扩大对bfloat16的支持,包括英特尔至强处理器和英特尔FPGA。”
事实上,Spring Crest在2018年底推出的传言早已有之,但是目前看来,官方公布的2019年这一时间点略有延迟。对此,Carey Kloss向记者解释道:“进入更现代化的制程节点,我们集成了更多的Die(硅芯片),可以获得更快的处理速度。但是需要一定的时间去制造硅片,也需要时间把硅片变成新的神经网络处理器,这是延迟的原因。”
对于两代芯片的区别,他分析称:“Lake Crest作为第一代处理器,在GEMM(矩阵运算)和卷积神经上都实现了非常好的计算利用率。这不仅仅是指96%吞吐量的利用率,而是在没有充分定制化的情况下,我们也取得了大多数情况下实现GEMM高于80%的计算利用率。当我们开发下一代芯片时,如果我们能够保持高计算利用率,新的产品在性能上有3到4倍的性能提升。”
谈及竞争,Carey Kloss表示:“我不知道我们竞争对手的路线图是什么,但我们的反应速度相对较快,所以我认为我们不会在神经网络处理上处于劣势。比如bfloat16已经有一段时间了,它最近变得更受欢迎,不少客户提出支持bfloat16的要求,我们也逐步转向支持bfloat16。”而对比谷歌的TPU来看,他认为TPU二代类似于Lake Crest,TPU三代类似于Spring Crest。
四面出击
除了备受关注的Nervana NNP,英特尔的Xeon芯片主要面向服务器和大型计算设备,比如我国超级计算机天河一号和二号就采用了Intel Xeon 六核处理器。
在视觉芯片方面,英特尔的业务量增长迅速。Movidius VPU芯片早就面向在汽车、无人机等新兴的硬件市场,比如大疆无人机、特斯拉,以及Google Clips摄像头中都采用了Movidius的视觉芯片。
Movidius的市场负责人Gary Brown告诉21世纪经济报道记者:“在Movidius,我们研发的芯片被称作视觉处理单元VPU.VPU是一种兼具计算机视觉和智能摄像头处理器的芯片。所以我们的芯片所做的处理大概有三类: ISP处理,也就是图像信号处理,基于摄像头捕捉技术的处理,以及计算机视觉和深度学习。”
他举例道,具体的使用场景包括VR产品和机器人技术、智能家居、工业摄像头、AI摄像头,还有监控和安保。其中,“监控和安保是一个巨大的市场,尤其在中国,监控和安保摄像头的市场特别大,有一些大公司在研发监控摄像头,例如海康威视和大华。”
Gary Brown还提到,智能家居领域目前正在迅速发展,虽然市场很小,但是发展神速。“有很多公司在研发智能装置,如智能家庭安防、个人家庭助手、智能门铃,以及公寓和家庭的访问控制。但是在家居领域,要做到低成本、低能耗、电池寿命长,以及非常精准是非常有挑战性的。因为比如室外的树荫在移动,就有可能触发了防盗警报,因此非常低的误报率是非常重要的,要有良好的准确性。”
而公司的挑战之一就是如何继续创造高性能的芯片,“我们有一些策略,比如,用一个前端算法降低功耗,这样我们就能关闭大部分芯片,只运作小部分最优化的面部检测功能。当一张脸出现时,其他芯片将被启动。这样就能一直保持面部监控系统开启。我们还有很多演算节能技术,使家用智能摄像头续航时间达到大致6个月。” Gary Brown解释道。
此外,FPGA这条线则由Altera执掌局面。随着5G浪潮的到来,IoT物联网的数据分析及计算需求会暴增,物联网的接入节点至少是数百亿级的规模,比手机规模要高出1-2个数量级。物联网的典型需求是需要灵活使用算法的变化,这是FPGA的强项,FPGA可以通过自身结构的改变来适应定制化计算场景的需求,这也使得英特尔在未来为更多不同类型的设备提供高效提供芯片变成可能。从167亿美元的收购金额就可以看出,英特尔买的显然不只是眼前的价值。
速攻企业级场景
英特尔近期的一项调查显示,在美国企业客户中,50%以上都正在转向采用基于英特尔Xeon处理器的现有的云解决方案来满足其对人工智能的初步需求。而多位英特尔高管在接受采访时都向记者表示,没有一种解决方案适用于所有的人工智能场景,英特尔会根据客户需求对技术和业务进行搭配。比如,英特尔会将Xeon和FPGA、或者Xeon和Movidius配置在一起,从而实现更高性能的人工智能功能。
对于英特尔而言,这些强化的人工智能功能将被广泛地应用于企业级场景。Naveen Rao就表示:“在加速向人工智能驱动的未来计算过渡之时,我们需要提供全面的企业级解决方案。这意味着我们的解决方案要提供最广泛的计算能力,并且能够支持从毫瓦级到千瓦级的多种架构。”
Carey Kloss进一步向21世纪经济报道记者解释人工智能芯片的应用场景:“Spring Crest可以说是最高等级的Nervana神经元处理器架构。因此它的客户就包括超大规模计算中心、已经拥有相当强大的数据科学工作的大型企业、政府等等。如果你需求的是低延且小模型,Xeon就能帮助到你,它可以把数据从云到端打通。”
具体来看,英特尔也在医疗、无人驾驶、新零售、物联网等场景上做了探索。比如在医疗方面,据介绍,英特尔正在与诺华(Novartis)合作,使用深度神经网络来加速高内涵筛选——这是早期药品研发的关键元素。双方的合作把训练图片分析模型的时间从11个小时缩短到了31分钟——效率提高了20多倍。
在无人商店方面,英特尔为京东无人便利店提供“计算大脑”,目前已在多个智能门店(中石化易捷便利店、京东之家)以及智能售卖机项目中部署使用。在算法上,京东方面表示,无人商店用到的机器学习算法主要集中在知人、知货、知场3个方向,由于涉及线上线下数据打通,将视频等非结构化数据转化为结构数据等,需要用到现在比较流行的机器视觉领域CNN(卷积神经网络)算法,智慧供应链方面用到的传统机器学习算法,如SVM、统计学的线形回归,逻辑回归等。在网络条件比较好的情况下,多数视频数据可以使用较大模型在云端完成。在网络不佳的情况下,通过端计算比如移动端,边缘计算使用小网络完成。而使用的硬件包括Intel的边缘服务器等。
尽管英特尔外遇强敌,转型、扩张的步伐十分坚定。仅从研发数值来看,根据IC Insights的统计数据,2017年排名前10位的半导体厂商研发总支出为359亿美元,英特尔位列第一。报告显示,2017年英特尔的研发支出为131亿美元,占集团总支出的36%,约为英特尔2017年销售额的五分之一。
随着各家的巨额投入,AI芯片的战役还将愈演愈烈。