智东西(公众号:zhidxcom
| 心缘

阿里的武侠情结,已经延续到芯片中。

阿里巴巴2019云栖大会开幕首日,平头哥发布阿里巴巴第一款芯片含光800,号称全球性能最强的云端AI推理芯片性能及能效比均全球第一。

含光,正是《列子·汤问》中孔周三大神剑之一。

至此,平头哥集齐AI芯片(含光800)、高性能处理器IP(玄铁系列)和一站式芯片设计平台(无剑SoC平台),端云一体全栈芯片产品家族的雏形已然显现

阿里巴巴CTO张建锋说,含光芯片是万里长征的第一步,阿里今后会成为一家真正软硬件一体化协同发展的科技公司。

不过,主论坛仅简介含光芯片的性能,芯片的详细参数、顶层架构设计图、阿里关于芯片布局的思考等细节,都在当日下午的分论坛上一一揭晓。

在云栖大会首日下午的平头哥生态论坛上,平头哥阵营首次亮相,不仅大秀产品进展,官宣IP联盟和发布《云端设计白皮书》,还携手清微智能、云天励飞、炬芯、奉加微、联盛德、艾派克、博雅鸿图等公司连发7款基于玄铁处理器的芯片。当日,天猫精灵与平头哥合作研发的智能语音芯片也正式发布,将用于即将推出的天猫精灵音箱中。

会后,平头哥研究员孟建熠,平头哥AI芯片负责人骄旸,清微智能首席科学家、清华大学微电子所副所长尹首一教授,云天励飞研发副总裁李爱军,炬芯科技董事长&CEO周正宇等接受智东西等媒体的采访,对含光芯片的核心优势,它在微架构设计上做的创新,平头哥三大产品系列的进展、未来计划和生态构建等问题一一予以解答。

一、上古神剑,高端芯片

造芯,头件大事就是起名字。

国外有英特尔青睐周边的山川河流,AMD曾钟情于F1赛道;国内华为对高山和古籍情有独钟,紫光展锐看上了动植物所承载的意象,而平头哥则继承了马云对武侠文化的热爱,玄铁、无剑、含光三芯片产品连发,每款都是传说中的利剑。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

含光,上古三大神剑之一。《列子·汤问》中,孔周称其“视之不可见,运之不知有。其所触也,泯然无际,经物而物不觉。”即看不见、感觉不到,划过身体也不疼,正如含光800带来的无形却强劲的算力。

至于为何从800开始命名,平头哥AI芯片负责人骄旸说,其实他们最开始想给芯片取名v1。0,后来参考业内其他产品的命名逻辑,800、900代表高端系列,600代表中端系列,200、300代表低端系列。以后平头哥也会做中端和低端芯片产品。

据阿里巴巴CTO张建锋介绍,这款芯片从设计、验证到流片,仅用一年半的时间。

二、1颗含光800=10颗图像GPU

含光800采用台积电12nm制程工艺,含170亿晶体管,支持PCIe 4.0和单机多卡,今年第四季度开始量产。

在芯片测试标准平台Resnet 50上,含光800的具体分数为:每秒处理78563张图片,能效比达500 IPS/W

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

与业界几款领先的云端推理芯片相比,含光800的性能大约是第二名的4-5倍,其能效比约是第二名的3.3倍。

目前含光800应用于阿里巴巴内部核心业务中。

在杭州城市大脑的图像处理业务测试中,1颗含光800的算力相当于10颗通用GPU

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

根据现场演示,杭州城市大脑实时处理主城区交通,需用40颗传统GPU,延时为300ms,单路视频功耗2.8W;而使用含光800仅需4颗,延时降至150ms,单路视频功耗1W,有效节约了硬件和时间成本。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

再比如,拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需1小时,而使用含光800可将时间缩至5分钟,搜索效率提升12倍。

此外,基于含光800AI云服务也正式上线。相比传统GPU算力,性价比提升100%。

这意味着,受限于算力瓶颈的企业可通过阿里云,在含光800上更高效地运行更复杂、更先进的算法。

三、高性能背后,芯片架构创新与算法通用性

那么,含光800如何实现如此高的图像处理能力,高性能的背后又有哪些创新?

骄旸告诉智东西,阿里巴巴算法团队将算法中的一些通用特征提取出来,帮助含光800芯片实现架构的创新。

1、芯片架构设计优化方向

过去一年,平头哥团队不断探索芯片和场景的融合,针对场景深度定制了芯片的软硬件,包括自研架构、软件编译器、框架、工具链等;后期,平头哥也针对INT8数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。

含光800采用平头哥自研芯片架构,集成达摩院算法,配以自动化开发工具。其顶层架构采用四核设计,任一NPU Core坏死,都不会影响芯片工作。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

具体而言,含光芯片在架构设计中主要做了如下优化方向:

(1)大大减少内存带宽,每次内存访问会造成较大功耗损失,平头哥自研架构将计算单元放在离存储很近的位置,高密度的计算和存储可大幅减少对内存的访问,在保证高性能的情况下,将芯片功耗降到最低水平。

(2)组合算子优化融合,对算法网络深入调节,单位对内存、片上寄存器的访问更加精简,将计算效率、能源利用效率提升至较高水准。

基于冯·诺依曼架构的传统通用处理器,存储和运算分离,做大量读写操作时会遇到带宽瓶颈,效率受限。

含光800根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

(3)算法压缩,采用稀疏、量化等推理加速技术,以及密集压缩的计算、存储、流水线技术,有效解决芯片性能瓶颈问题。除了INT8/INT16 量化加速外,也覆盖FP16/BFP16的向量计算。

比较突出的一点是基本实现全网络量化,所有数据存储按照比较压缩的形式,计算过程根据精度要求把数据做拓展,保持其较高精度,存储单元时则变成较压缩的格式。

4)计算中高度并行处理,含光芯片深度优化CNN及视觉类算法,不仅加速矩阵乘法、交换机,支持反卷积、空洞卷积、3D卷积、插值、ROI等,还可加速向量计算、激活函数等运算,这些优化均有效提高其计算能力和效率。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

2、含光的业务定位与算法通用性

含光800中集成了达摩院算法,深度优化CNN网络及视觉DNN模型,有效提升了视觉计算效率。

骄旸介绍了第一颗NPU的业务定位,CNN类模型推理加速为主,通用可扩展到其他DNN模型,主要应用于数据中心、大型端上。

例如,阿里的业务中,城市大脑、工业大脑、图像视频审核、图像视频标注、图文搜索等擅长基于CNN的算法加速,搜索推荐、广告、语音客服、自动翻译等则通用其他DNN模型。

谈及芯片架构能否适配新的算法,骄旸举了个例子。他说,当初芯片设计时,主要对CNN网络做加速,等芯片回来后,他看到做诸如流行趋势分析、智能服装设计、流行的网络视频换脸游戏等的一些业务,用到生成式对抗网络(GAN)等算法。

四、平头哥的造芯优势:场景、软件、硬件

阿里巴巴CTO张建锋表示,阿里巴巴有足够信心和能力,去做传统硬件公司能做到的硬件,和不能做到的软件变硬件。他强调,阿里的软件和算法,是其最大的传统优势。

这一雄心壮志背后的底气,是阿里云的AI验证场景达摩院的算法、阿里硬件基础设施多年的技术沉淀。

1AI与云计算催生丰富场景

阿里巴巴造芯的天然优势,正在于拥有极其丰富的AI应用场景。

经过十年的发展,阿里在AI和云计算领域均已跻身全球前列。阿里云更是稳居全球云计算厂商前三、亚太第一的位置,为超过一半的中国A股上市公司和80%中国科技类企业提供云服务。

阿里经济体横跨电商、金融、物流、云计算、大数据、全球化等场景,用户规模庞大,图像视频分析、搜索、推荐、网络等各种业务场景都亟待AI专用芯片,其中图像和视频对算力的需求尤其大,这为平头哥研发AI芯片提供了绝佳平台。

2沉淀19年的硬件实力

尽管平头哥才成立一年,其硬件能力的积累可远远不止一年。

平头哥由中天微和达摩院自研芯片业务整合而成,算上中天微的19年,以及阿里巴巴在服务器、FPGA以及存储等硬件基础设施上早年的摸索,这些经年累月的研发经验使其在体系结构、编译技术等领域拥有深厚的技术储备。

芯片设计流程复杂、风险极高。一旦流片失败,一切都要推倒重来,很多芯片公司做不到一次流片成功;流片成功后还需经过复杂的测试验证,只有各项指标均符合实际场景需求,才到了真正的商用阶段。

而平头哥完成芯片设计、流片等全过程用时非常短,7个月完成前端实际,之后仅3个月就一次成功流片,这在业界还是非常难得的。

3、与达摩院算法高度适配

除适配场景、硬件架构外,AI芯片的差异化设计还体现在软件算法,它与硬件架构高度适配、协同创新,才能发挥出芯片的最大价值。

算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果,在国际顶级学术会议上共发表了近400篇顶级论文。

基于这些能力,算法和硬件之间的鸿沟得以突破。

五、定位端云一体,全栈产品雏形已现

去年9月,阿里以非洲蜜獾的外号“平头哥”为名成立平头哥公司。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

这一名字承载了阿里巴巴对芯片公司寄予的厚望,不同于大多数芯片商,面对着有强应用驱动和场景碎片化等特点的AIoT市场平头哥的目的不是卖芯片,而是通过端云一体芯片生态,端上做芯片技术设施,云端为各行业提供普惠算力,终端玄铁处理器还可以与云端含光芯片协同。

今年7月,平头哥发布第一款基于RISC-V的处理器IP核“玄铁910”;8月,它又推出第一款一站式芯片设计平台“无剑”;9月,早在一年前就做出预告的云端AI芯片终于如期而至。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

1、基础单元处理器IP

在端侧,有中天微的背景加持,平头哥已拥有成熟的生态体系。

其C-Sky系列中,CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核均已得到大规模量产的验证,授权客户超100家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域。新发布的玄铁系列也为AIoT终端芯片提供高性价比IP。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

平头哥研究员孟建熠说,玄铁更重要的是在基础架构之上的可扩展性,能在原有的一些通用处理器上,定制一些差异化的东西。

2、一站式芯片设计平台

无剑SoC平台集成CPU、GPU、NPU等,可降低芯片设计门槛,将研发周期缩短50%,开发成本降低50%。

目前,无剑已推出MCU、语音、视觉三大平台,后续还会有更多平台推出。MCU平台有5类IP,3家合作伙伴;语音识别平台有8类IP,3家合作伙伴;机器视觉平台有9类IP,3家合作伙伴。

除了它们各自拥有的一些差异化创新技术外,平头哥为所有平台云端一体保持全链安全。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

无剑的主要原理是让行业软硬件很好融合。现在芯片的设计方法是将买IP、模块,自己做组合、验证、测试、流片;而无剑更多在共性基础上从维持生态的角度去做事,先把硬件上共性的东西都做好,在系统层面也做了芯片的试流片。

玄铁系列处理器IP和无剑SoC平台均已服务多家芯片企业及AI企业。

3AI芯片

在云端,阿里云目前排名全球前三、亚太第一,这为平头哥服务企业提供了绝佳平台,含光800通过AI云服务为各企业的AI场景提供极致算力。

在AI场景中,含光800是异构计算的很好补充。据悉,未来其产品形态还会进一步完善,包括云端AI训练芯片和端侧AI推理芯片,平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

AI芯片是人工智能场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态。

除此之外,平头哥还将继续开发操作系统,软硬件融合的算法,核心的IP等,把这些共性的技术做好、做精、做出竞争力,并形成生态,然后开放给芯片设计公司,让他们基于高质量的基础设施打造芯片产品,从而催生产业生态的繁荣,提升整体的产业竞争力。

六、集结平头哥阵营,大晒生态实力

众所周知,服务器领域x86阵营独大,Arm阵营则是移动芯片时代的主角。如今,平头哥带着它的平头哥阵营来了。

目前,平头哥的玄铁系列处理器和无剑平台已拥有100多家客户。

在平头哥分论坛上,清微智能、云天励飞、炬芯、奉加微、联盛德威、艾派克、博雅鸿图等企业发布7款基于玄铁处理器IP的新款芯片,涵盖视觉、语音、微控制、无线芯片等应用领域。

这其中,炬芯是国内老牌IC设计企业,云天励飞是国内知名AI独角兽,艾派克是中国打印机主控芯片的龙头,奉加微是蓝牙芯片领域的新秀,清微智能、联盛德、博雅鸿图则分别在AI可重构计算芯片、物联网通信芯片、数据视网膜芯片领域各有专长。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

由于AIoT市场碎片化,端侧芯片性能、存储、功耗等要求都不相同,比如就本次新发的芯片中,云天励飞采用的是玄铁高端处理器,需1GB以上存储;清微智能在其可重构芯片中采用的是中端处理器玄铁804/805,存储需400-500MB;炬芯重点在低功耗、好声音,选择的是高能效处理器,它对性能和品质要求更低,存储只要200-300MB。

孟建熠表示,不是说存储小就代表差,而是在行业中追求的产品不同,玄铁面向不同AIoT的系列化产品,有两代产品,一代是玄铁老的自主架构,第二代是RISC-V。

炬芯过去使用的是MIPS,炬芯科技董事长&CEO周正宇说,改用RISC-V还是有些紧张的,但经过实践,如今他们已有4款芯片用玄铁802、1款芯片使用玄铁803。

周正宇发现,RISC-V在工具链、指令集使用上已超过MIPS,更接近Arm;其功耗、压缩率上也比MIPS更好。除了提供通用CPU,平头哥还专门为炬芯打造特别指令集,周正宇表示,双方会更长期的合作。

奉加微今年年初获得平头哥玄铁802 MCU、YoC操作系统及CSI外设接口授权,用6个月就完成了芯片设计,艾派克预计今年搭载平头哥内核的芯片出货量将达到2亿颗。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

同日,阿里人工智能实验室和平头哥共同定制开发智能语音芯片TG6100N,天猫精灵将成为首款采用平头哥定制芯片的家用产品。

可以看见,AIoT时代下,平头哥已经率先搭建起生态,并正循序渐进地沿着其“普惠芯片”的目标持续构建行业生态和开发者生态。

一方面,平头哥持续完善其技术及芯片产品阵列;另一方面,平头哥还将成立芯片开放社区,实现1天上手,5天原型,20天做出产品,进一步为芯片产业提供开放协作的平台。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

平头哥牵头发起的IP联盟,已有Cadence等9家半导体IP供应商加入。此外,平头哥还同新思科技、阿里云联合发布《云端设计,与时间赛跑》白皮书。

在分论坛期间,孟建熠还谈到了芯片行业的新趋势——Foundry上云、EDA上云、开源芯片、定制化芯片。

解密平头哥芯片三剑!阿里巴巴芯片产业生态玩法大公开

孟建熠认为,EDA承担的角色至关重要,云、EDA公司都希望有EDA上云这样的交集。不过,目前阿里还只是在尝试这件事,没有对外推出,新思科技等合作伙伴正在做EDA上云,中国慢慢也在往这一前沿领域走。

他希望平台能向越来越开放的方向走,如果EDA上云,开发者可以更快开发出芯片产品,和无剑平台的结合是有价值的。不过,平头哥本身没有EDA的工具,需要第三方去做这件事情。

结语:云计算巨头跨界造芯成大势

AI的加速落地使得对底层技术布局愈发迫切。阿里庞大的电商、金融、物流、云计算、物联网业务,都对芯片有着越来越大的需求。

如今,芯片、AI与云计算的协调发展已是大势所趋。AI算法逐渐集成到芯片,专用AI芯片为云服务提供更强的算力,云计算又加速了AI应用的大规模落地。

对于云计算厂商而言,自研芯片不仅可以降低整体计算的经济成本,还能以云服务的方式将更高算力、更低功耗提供给更多企业。这一趋势推动下,阿里巴巴造芯成为必然。

阿里成立独立芯片公司平头哥,既是顺应云计算巨头造芯的大势,实现从底层硬件到上层应用的生态自循环;亦是放眼云计算和AIoT所带来的广阔市场,以芯片基础设施提供商的定位以期获取新时代的红利。

承载着“普惠芯片”的美好愿景,平头哥已经发布的产品布局非常清晰:端侧处理器IP+芯片设计平台,降低芯片公司造芯难度;云端AI芯片,通过阿里云AI使能各企业智能化升级。

阿里能否如其所期望的那样,成为AIoT时代的芯片基础设施提供商,我们拭目以待。