微软公司宣布不再支持你正在使用的 IE浏览器,这会严重影响浏览网页,请使用微软最新的Edge浏览器
厂商专区
产品/技术
应用分类

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

2019-10-25 10:26 来源:发烧友 编辑:Janet

AI芯片哪家强?英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片。并给出了各个指标的横向对比,也是目前对AI训练芯片最新的讨论与梳理。其中,华为昇腾910是中国芯片厂商唯一入选的芯片,其性能如何,也在这一对比中有了展现。

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

Cerebras Wafer-Scale Engine

这一芯片于今年8月份正式面世,被称为“史上最大AI芯片”,名为“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

其最大的特征是将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。

一举创下4项世界纪录:

1、晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。

2、芯片面积最大:尺寸约20厘米×23厘米,总面积46225平方毫米。

3、片上缓存最大:包含18GB的片上SRAM存储器。

4、运算核心最多:包含410,592个处理核心

之所以能够有如此亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值性能表现为40 Tera FLOPs,芯片功率达15千瓦,与AI集群相当。

片上缓存也达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

晶片规模集成,并不是一个新的想法,但产量、功率传输和热膨胀相关的问题使其很难商业化。在这些方面,Cerebras都给出了相应的解决办法:

1、为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。

2、Cerebras与台积电合作发明了新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。

3、在芯片上方安装了一块“冷却板”,使用多个垂直安装的水管直接冷却芯片。

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创立。后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工,其中包括173名工程师,迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

Google TPU(v1、v2、v3)

Google TPU系列芯片正式发布于2016年,第一代芯片TPU v1只用于推理,而且只支持整数运算。

通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数,从而为主机CPU提供加速,节省了大量的设计和验证时间。其主要数据为:

1、芯片面积331平方毫米,28nm制程

2、频率为700 MHz,功耗28-40W

3、片上存储为28 MB SRAM:24MB 用于激活,4MB 用于累加器

4、芯片面积比例:35%用于内存,24%用于矩阵乘法单元,剩下的41%面积用于逻辑。

5、256x256x8b收缩矩阵乘法单元(64K MACs/cycle)

6、Int8和 INT16算法(峰值分别为92和23 TOPs/s)

IO数据:

可以通过两个接口访问8 GB DDR3-2133 DRAM,速度为34 GB/s

1、PCIe-3x16 (14 GBps)

2017年5月,Google TPU v2发布,改进了TPU v1的浮点运算能力,并增强了其内存容量、带宽以及HBM 集成内存,不仅能够用于推理,也能够用于训练。其单个芯片的数据如下:

2、20nm制程,功耗在200-250W(推测)

3、BFloat16上性能表现为45 TFLOPs,也支持 FP32

4、具有标量和矩阵单元的双核

5、集成4块芯片后,峰值性能为180 TFLOPs

单核数据:

1、128x128x32b收缩矩阵单元(MXU)

2、8GB专用HBM,接入带宽300 GBps

3、BFloat16上的最大吞吐量为22.5 TFLOPs

IO数据:

4、16Gb HBM集成内存,600 GBps带宽(推测)

5、PCIe-3 x8 (8 GBps)

6、Google TPU v2发布一年之后,Google再度发布新版芯片——TPU v3。

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

但关于TPU v3的细节很少,很可能只是对TPU v2一个渐进式改版,性能表现翻倍,增加了HBM2内存使容量和带宽翻倍。其单个芯片的数据如下:

1、16nm或12nm制程,功耗估计在200W

2、BFloat16的性能为105 TFLOPs,可能是MXUs的2倍到4倍

3、每个MXU都能访问8GB的专用内存

4、集成4个芯片后,峰值性能420 TFLOPs

IO数据:

32GB的HBM2集成内存,带宽为1200GBps (推测)

PCIe-3 x8 (8 GBps)(推测)

Graphcore IPU

Graphcore成立于成立于2016年,不仅备受资本和业界巨头的青睐,还颇受业内大佬的认可。

2018年12月,宣布完成2亿美元的D轮融资,估值17亿美元。投资方有宝马、微软等业界巨头,还有著名的风投公司Sofina、Atomico等。

AI巨头Hinton、DeepMind创始人哈萨比斯,都直接表达了赞美。

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

Graphcore IPU是这家公司的明星产品,其架构与大量具有小内存的简单处理器高度并行,通过一个高带宽的“交换”互连连接在一起。

其架构在一个大容量同步并行(BSP)模型下运行,程序的执行按照一系列计算和交换阶段进行。同步用于确保所有进程准备好开始交换。

BSP模型是一个强大的编程抽象,用于排除并发性风险,并且BSP的执行,允许计算和交换阶段充分利用芯片的能源,从而更好地控制功耗。可以通过链接10个IPU间链路来建立更大的IPU芯片系统。其核心数据如下:

16nm制程,236亿个晶体管,芯片面积大约为800平方毫米,功耗为150W,PCIe卡为300 W

1216个处理器,在FP32累加的情况下,FP16算法峰值达到125 TFLOPs

分布在处理器核心之间有300 MB的片上内存,提供45 TBps的总访问带宽

所有的模型状态保存在芯片上,没有直接连接DRAM

IO数据:

2x PCIe-4的主机传输链接

10倍的卡间IPU链接

共384GBps的传输带宽

单核数据:

1、混合精度浮点随机算法

2、最多运行六个线程

Habana Labs Gaudi

Habana Labs同样成立于2016年,是一家以色列AI芯片公司。

2018年11月,完成7500万美元的B轮募资,总募资约1.2亿美元。

Gaudi芯片于今年6月亮相,直接对标英伟达的V100。

其整体的设计,与GPU也有相似之处,尤其是更多的SIMD并行性和HBM2内存。

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

芯片集成了10个100G 以太网链路,支持远程直接内存访问(RDMA)。与英伟达的NVLink或OpenCAPI相比,这种数据传输功能允许使用商用网络设备构建大型系统。其核心数据如下:

TSMC 16 nm制程(CoWoS工艺),芯片尺寸大约为500平方毫米

异构架构:GEMM操作引擎、8个张量处理核(TPCs)

SRAM内存共享

PCIe卡功耗为200W,夹层卡为300W

片上内存未知

TPC核心数据:

VLIW SIMD并行性和一个本地SRAM内存

支持混合精度运算:FP32、 BF16,以及整数格式运算(INT32、INT16、INT8、UINT32、UINT8)

随机数生成、超越函数:Sigmoid、Tanh、GeLU

IO数据:

4x 提供32 GB的HBM2-2000 DRAM 堆栈, 整体达1 TBps

芯片上集成10x 100GbE 接口,支持融合以太网上的 RDMA (RoCE v2)

PCIe-4 x16主机接口

1 2 > 
标签: AI 芯片 华为

声明:本内容为作者独立观点,不代表电源网。本网站原创内容,如需转载,请注明出处;本网站转载的内容(文章、图片、视频)等资料版权归原作者所有。如我们采用了您不宜公开的文章或图片,未能及时和您确认,避免给双方造成不必要的经济损失,请电邮联系我们,以便迅速采取适当处理措施;欢迎投稿,邮箱∶editor@netbroad.com。

微信关注
技术专题 更多>>
如何系统地学习嵌入式技术?
当5G遇到物联网,将会带来哪些惊喜?

头条推荐

电子行业原创技术内容推荐
客服热线
服务时间:周一至周五9:00-18:00
微信关注
免费技术研讨会
获取一手干货分享
editor@netbroad.com
400-003-2006