PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

人工智能产业发展联盟.pdf

Im a belieber97 页 18.129 MB下载文档
人工智能产业发展联盟.pdf人工智能产业发展联盟.pdf人工智能产业发展联盟.pdf人工智能产业发展联盟.pdf人工智能产业发展联盟.pdf人工智能产业发展联盟.pdf
当前文档共97页 2.88
下载后继续阅读

人工智能产业发展联盟.pdf

盟 联 展 发 能 产 业 中国人工智能产业发展联盟 AI 芯片技术选型目录 中 国 人 工 智 (2020 年) 中国人工智能产业发展联盟 计算架构与芯片推进组 2020 年 7 月 中国人工智能产业发展联盟 AI 芯片技术选型目录(2020) 中国工程院院士 黄 如 中国科学院院士 楚 庆 紫光展锐首席执行官 陈云霁 中国科学院计算技术研究所所长助理、智能处理器研究中心主任 汪 玉 清华大学电子工程系主任、信息科学技术学院副院长 展 编写委员会主席 西安交通大学人工智能与机器人研究所副所长 / 副教授、博导 张蔚敏 中国信息通信研究院 工程师 业 发 任鹏举 编写成员单位 / 个人(按名称的首字母来排序) 能 产 安谋科技(中国)有限公司 北京百度网讯科技有限公司 北京比特大陆科技有限公司 智 北京清微智能科技有限公司 成都启英泰伦科技有限公司 工 瑞芯微电子股份有限公司 高通信息科技(上海)有限公司 人 华为技术有限公司 深圳鲲云信息科技有限公司 国 赛灵思 上海海思技术有限公司 中 联 郑南宁 上海天数智芯半导体有限公司 上海深聪半导体有限责任公司 上海燧原科技有限公司 深圳云天励飞技术有限公司 颖脉信息技术(上海)有限公司 NVIDIA 紫光展锐 中科寒武纪科技股份有限公司 盟 编写专家委员会 CONTENTS 目 录 目录中产品顺序不分先后 1 盟 一、引言 二、云端 / 数据中心 8 发 2.1.3 NVIDIA-NVIDIA A100/V100/T4 Tensor Core GPUs 2.2.3 中科寒武纪科技股份有限公司 - 寒武纪思元 270 10 14 15 能 产 2.2.2 中科寒武纪科技股份有限公司 - 寒武纪思元 100 10 2.2.4 北京比特大陆科技有限公司 - 比特大陆算丰 TPU 芯片 BM1684 2.2.6 华为技术有限公司 - 昇腾 310AI 处理器 20 22 工 2.3 小结 18 智 2.2.5 深圳鲲云信息科技有限公司 - 星空 x3 加速卡 3.7 小结 3.6 深圳鲲云信息科技有限公司 - 星空 x3 加速卡 30 31 中 3.4 中科寒武纪科技股份有限公司 - 寒武纪思元 220 M.2 3.5 华为技术有限公司 - 昇腾 310AI 处理器 27 29 国 3.2 NVIDIA-NVIDIA Jetson ,NVIDIA T4 Tensor Core GPUs 24 25 3.1 上海天数智芯半导体有限公司 - 天数智芯 Iluvatar CoreX I 芯片 人 三、边缘计算 3.3 紫光展锐 - 虎贲 T710 16 业 2.2 云端推断 2.2.1 赛灵思 - Alveo 7 2.1.2 上海燧原科技有限公司 - 邃思通用人工智能训练芯片 6 6 展 2.1.1 北京百度网讯科技有限公司 - 百度昆仑 1 芯片 联 2.1 云端训练 5 33 36 四、终端 39 39 41 4.1.2 华为技术有限公司 - 昇腾 310AI 处理器 43 4.2 智能驾驶 盟 发 4.2.2 NVIDIA - NVIDIA DRIVE MPSoC) 展 UltraScale+ 4.2.1 赛灵思 - ZU7EV(Zynq 联 4.1.5 上海天数智芯半导体有限公司 - 天数智芯 Iluvatar CoreX I 芯片 4.1.4 瑞芯微电子股份有限公司 - RK3399 Pro 人工智能端侧芯片方案 4.1.3 瑞芯微电子股份有限公司 - RK1808 AIoT 芯片方案 4.1.1 NVIDIA-NVIDIA Jetson 4.1 通用端侧产品 4.3 安防、机器人、车载 45 47 49 49 53 54 4.3.2 紫光展锐 - 虎贲 T710 59 能 产 业 54 4.3.1 深圳云天励飞技术有限公司 - 面向计算机视觉的深度学习神经网络处理器 4.3.4 上海海思技术有限公司 - Hi3519A V100 61 4.3.5 上海海思技术有限公司 - Hi3559A V100 62 4.3.6 上海海思技术有限公司 - Hi3562 V100 63 4.3.7 上海海思技术有限公司 - Hi3566 V100 64 工 60 智 4.3.3 上海海思技术有限公司 - Hi3516D V300 65 4.3.9 上海海思技术有限公司 - Hi3569 V100 66 4.3.10 北京清微智能科技有限公司 - TX510 67 人 4.3.8 上海海思技术有限公司 - Hi3568 V100 国 中 38 68 4.4.1 华为技术有限公司 - Kirin 990 5G 处理器 68 4.4 手机 4.4.2 高通信息科技(上海)有限公司 - 高通骁龙 865 移动平台 70 4.5 语音 72 4.5.1 成都启英泰伦科技有限公司 - 人工智能语音识别降噪一体芯片 CI1103 72 4.5.2 上海深聪半导体有限责任公司 - 人工智能语音芯片 75 4.5.3 北京清微智能科技有限公司 - TX210 77 4.6 小结 78 五、IP 技术 80 81 5.1 安谋科技(中国)有限公司 - 周易 AIPU 5.3 小结 86 国 人 工 智 能 产 业 发 展 联 附录 中 83 盟 5.2 颖脉信息技术(上海)有限公司 - PowerVR NNA 神经网路加速器系列 IP 88 联 盟 说明 图 1 产品验证测试 logo 展 AI 芯片技术前有图 1 logo,代表企业在报名提交产品文本资料后,同时提供产品技术测试报 能 产 业 发 告并参与由 AIIA 委托中国信息通信研究院进行的验证测试,但具体实测性能不公开。 图 2 AIIA DNN benchmark 项目 logo 智 AI 芯片技术前有图 2 logo,代表在企业提交产品资料介绍时,同时提交产品技术测试报告, 并参与 AIIA DNN benchmark 项目测试,具体实测性能在 AIIA DNN benchmark 官网可查看 人 工 (http://www.aiiaorg.cn/benchmark)。 国 声明:本选型目录的编写工作以企业自愿报名方式开展,所有相关产品的数据文本资料均由企 中 业提供且经企业审核,如因内容不当造成直接或间接损失,AIIA 不承担任何责任。 人 国 中 引言 盟 联 展 发 业 能 产 智 工 CHAPTER 1 AI 芯片技术选型目录 背景与意义 当前随着人工智能理论和技术的日益成熟,应用范围不断扩大,目前已广泛应用于计算机科学、金融 贸易、医药、诊断、重工业、运输、远程通讯、在线和电话服务、法律、科学发现、玩具和游戏、音乐等 诸多方面。 盟 算力作为承载人工智能应用的平台和基础,其发展推动了整个人工智能系统的进步和快速演进,是人 工智能最核心的要素之一。以人工智能应用为主要任务的,面向智能计算的处理器的相关设计方法与技术 联 已成为国内外工业界和学术界共同角逐的热点,国内外企业纷纷布局 AI 芯片。 AI 芯片的应用场景不再局限于云端,部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项 展 产品日趋丰富。除了追求性能提升外,AI 芯片也逐渐专注于特殊场景的优化。 为了进一步促进供需对接,为 AI 芯片供应商和需求商提供交流的平台,中国人工智能产业发展联盟(以 发 下简称“AIIA”或联盟)计算架构与芯片推进组启动“AI 芯片技术选型目录”(以下简称“选型目录”) 业 的工作,希望为 AI 芯片的可持续发展,服务和促进相关产业发展壮大贡献一份力量。 能 产 内容与目的 选型目录在 1 年前开始面向全球企业征集,内容包含 AI 芯片产品的: ■ 技术概述:主要介绍 AI 芯片产品的技术特点与应用场景及功能概述; ■ 技术指标:主要介绍 AI 芯片产品实现的技术及其特点; 智 ■ 应用案例:主要介绍该款 AI 芯片产品已经应用的场景与经典的案例介绍; ■ 产品特征 / 技术特点:详细介绍 AI 芯片产品的各项指标或特定应用领域的技术描述; 工 ■ 专利状态:作为选填项,披露产品专利状态 ■ 产品信息:以列表形式,展示 AI 芯片的主要产品信息,包括功耗、芯片特征、上市时间、深度 人 学习计算能力及工艺等。 国 征集 AI 芯片产品信息后,由 AIIA 委托中国信息通信研究院进行芯片验证测试。参与产品验证测试的 AI 芯片,将以“tested by AIIA”logo 体现在产品介绍页,如图 1 所示,代表该 AI 芯片有真实产品但真 中 实性不能公开。 图 1 产品验证测试 logo 2 引言 为了帮助企业、系统集成厂商、开发者等准确评价芯片的技术水平和在国际上行业内的地位,AIIA 于 2017 年发起的 AIIA DNN benchmark 也为 AI 芯片选型目录工作提供技术支撑。为了进一步帮助企 业产品宣传,帮助用户了解 AI 芯片的真实性能表现,参与 AIIA DNN benchmark 的 AI 芯片,将以“AIIA DNN benchmark”logo 体现在产品介绍页,如图 2 所示,代表该芯片可从 AIIA DNN benchmark 官网 发 图 2 AIIA DNN benchmark 项目 logo 展 联 盟 查到测试数据(http://www.aiiaorg.cn/benchmark)。 经过近半年的筹备工作,推进组完成材料汇总,测试验证并组织行业内专家对目录内容进行专家评审 业 工作。AIIA 2020 年度首批“AI 芯片技术选型目录”,共收到 22 家企业报名,反馈 49 款 AI 芯片相关 产品技术,经过测试、评审首批目录包含 19 家企业共 46 款 AI 芯片产品技术。 能 产 人工智能芯片按照目前的应用场景来看,主要分为训练和推断两类场景,按部署位置又可分为云端、 边缘和终端。AIIA “AI 芯片技术选型目录”具体根据应用场景与部署位置,包含云端训练、基于云端、 边缘和终端推断的四大产品形态。又依据行业应用,AI 芯片技术选型目录根据垂直应用场景如图 3 所示 图 3 AI 芯片根据行业应用分类图 人 工 智 给出。 国 AIIA 希望通过“AI 芯片选型目录”的工作,一方面提供选型参考,希望收入 AI 芯片目录的产品信息 可以作为用户选型依据之一;另一方面是帮助芯片企业宣传产品,同时通过测试验证以及依托 AIIA DNN 中 benchmark 项目,来切实反映当前 AI 芯片的真实性能。 后续技术选型目录将以联盟内 AI 芯片供应商和需求商的真实案例为切入点,继续迭代更新目录内容, 同时推动符合用户需求的测试评估,以促进产业健康发展,同时助力人工智能生态建设。 3 中 国 人 工 智 能 产 业 发 展 联 盟 AI 芯片技术选型目录 4 盟 联 展 发 业 能 产 CHAPTER 2 中 国 人 工 智 云端 / 数据中心 2.1 云端训练 能 产 业 发 展 联 盟 AI 芯片技术选型目录 【应用案例】 工 【技术概述】 智 2.1.1 北京百度网讯科技有限公司 百度昆仑 1 芯片 百度 ERNIE 模型,应用于翻译、搜索排序等 XPU 架构,既可以用于训练,也可以用于推理, 场景。百度网盘里的图像模型;百度云主机;百度 能全面支持语音,图像,自然语言处理等应用。 云的工业质检客户。 国 人 百度昆仑 1 芯片面向 AI 通用计算,基于百度 【技术指标】 【产品特征 / 技术特点】 1.高性能,峰值 256Tops; 中 百度昆仑 1 芯片基于百度 XPU 架构,采用三 星 14nm 工艺,HBM2 和 PCIE4.0 等技术,给用 2.高带宽,片外内存带宽 512GB/s; 户提供高性能、高带宽、低功耗、高灵活性、高度 3.高度可编程性,能提供 C/C++ 的编程, 可编程等优势。 用户可以自由开发自己的算子。 【专利状态】(未提供) 【产品信息】 6 芯片名称 功耗 内存 百度昆仑 1 150W 16GB 带宽 上市时间 512GB/s 2019 年 11 月 INT8 256Tops 深度学习计算能力 FP16 FP32 64Tops 16Tops 工艺 14nm 云端 / 数据中心 2.1.2 上海燧原科技有限公司 邃思通用人工智能训练芯片 【技术概述】 邃思芯片集成神经元处理器架构和数据处理引 盟 擎,通过可编程的通用张量 / 向量运算核心,支持 【技术指标】 联 各类数据精度的主流深度学习训练负载。 ■ 支持数据类型:FP32/FP16/BF16/INT8/ 装, 总 计 141 亿 个 晶 体 管。 其 宣 称 单 芯 片 提 供 【应用案例】(未提供) 发 20TFLOPS@FP32 及 80TFLOPS@BF16/FP16 INT16/INT32 等 展 邃思芯片采用 12nm FinFET 工艺,2.5D 封 的算力,最大功耗 190W。 【产品特征 / 技术特点】 邃思芯片主要技术特点包括: 标量计算; 能 训 练 加 速 卡,20TFLOPS@FP32, 最 大 功 耗 225W, 支 持 FP32/FP16/BF16/INT8/INT16/ 能 产 编程的通用张量 / 向量运算核心,支持张量 / 向量 / 业 ■ 云燧 T10 是基于邃思芯片打造的人工智 ■ 自主指令集的神经元处理器(SIP),可 INT32 等多种数据类型;支持 PCIe 4.0 接口,提 ■ 神经元处理集群(SIC),由 8 个神经元 处理器构成,4MB 共享集群缓存; 智 ■ 自 主 研 发 2.5D 封 装, 集 成 16GB HBM 存储, 提供 512GB/s 带宽; 工 ■ 自主 ESL(燧原智能互联,Enflame Smart 供 64GB 带宽以及 200GB/s 片间互联带宽; 度、软件开发包(SDK)和设备驱动层,用户可以 将已有训练系统,无缝迁移至邃思平台上运行,无 需二次开发或者模型转换工作。 Link)片间互联引擎,每通道双向 50GB/s,4 通道 人 总共 200GB/s 接口带宽,通道延时小于 1μs; ■ 系统稳定性控制,支持服务器级别 RAS 国 需求(Reliability, Availability and Serviceability, 中 RAS)。 ■ 驭算计算和编程平台主要包含分布式调 ■ 云燧 T10 人工智能训练加速卡面向云端 数据中心,可广泛应用于互联网、金融、教育、医 疗、工业及政务等人工智能训练场景。 【专利状态】 燧原科技及其子公司目前已获得 24 项授权专 ■ 支 持 CNN、RNN、LSTM、BERT 等 网 利,其中包括 19 项发明专利,另有近 20 件专利 络模型 正在申请进程中。 【产品信息】 芯片名称 邃思 功耗 内存 带宽 上市时间 INT8 深度学习计算能力 FP16 FP32 工艺 190W(最 16GB 2020 年 512GB /s 80TOPS 80TFLOPS 20TFLOPS GF 12nm FinFET 大功耗) HBM 6月 7 AI 芯片技术选型目录 能 产 业 发 展 联 盟 2.1.3 NVIDIA-NVIDIA A100/V100/T4 Tensor Core GPUs 【技术概述】 大规模数据中心工作负载。现在,数据科学家和研 为数据中心 GPU,可加快 AI、高性能计算 量级。NVIDIA A100/V100/T4 加速器可以超快速 工 【技术指标】 析 PB 级的数据,速度比使用传统 CPU 快几个数 智 (HPC) 和图形技术的发展。 NVIDIA Ampere GPU 架构配备 540 亿个晶 人 体管,为 7 纳米芯片架构,集训练和推理于一身, 国 度运行更大型的模拟。此外, NVIDIA GPU 还能 为虚拟桌面、应用程序和工作站提供超高性能和用 户密度。 具有多实例 GPU、TF32、结构化稀疏等特性。 NVIDIA Volta GPU 架 构 配 备 640 究人员可以在能源勘探和深度学习等应用场合中解 个 【产品特征 / 技术特点】 NVIDIA A100 采用了 NVIDIA Ampere 架构 (TFLOPS) 的深度学习性能,是上一代 NVIDIA 的突破性设计,集 AI 训练和推理于一身,宣称其 Pascal 架构的 5 倍以上。 性能相比于前代产品提升了 20 倍。作为一款通用 中 Tensor 内 核, 可 提 供 每 秒 超 过 100 万 亿 次 NVIDIA Turing GPU 架构支持实时光线追 踪、AI、模拟和光栅化技术。 【应用案例】 型工作负载加速器,A100 还被设计用于数据分析、 科学计算和云图形。 NVIDIA V100 运 用 NVIDIA Volta 架 构, 利 用 NVIDIA A100/V100/T4 GPU 可 以 更 拥 有 640 个 Tensor 内 核, 是 世 界 上 第 一 个 突 快速地处理要求最严格的高性能计算 (HPC) 和超 破 100 万亿次 (TFLOPS) 深度学习性能障碍的 8 云端 / 数据中心 GPU。 NVIDIA T4 GPU 推理加速器搭载 NVIDIA Turing Tensor Core,提供多精度推理性能,以加速人 工智能的各种应用。 【专利状态】(未提供) 深度学习计算能力 300w 250w 250w 32/16 GB HBM2 32/16 GB HBM2 32 GB HBM2 16 GB GDDR6 1555 GB/s 900 GB/s 900 GB/s 2020 年 5月 INT8 624 TOPS | 1248 TOPS* (* 采用稀 疏技术) 2017 年 5月 2017 年 1134 GB/s 320+ GB/s 联 FP64 FP32 FP64 19.5 9.7 TFLOPS TFLOPS 15.7 7.8 TFLOPS TFLOPS 14 7 5月 TFLOPS TFLOPS 2019 年 11 月 2018 年 16.4 8.2 TFLOPS TFLOPS 8.1 3月 130TOPS TF32 展 上市时间 TFLOPS 312TFLOPS (* 采用 稀疏技术) 工艺 Tensor Core 19.5 7nm TFLOPS 12nm 12nm 12nm 12nm 中 国 人 工 智 NVIDIA T4 70w 40GB HBM2 带宽 发 NVIDIA V100 (NVLink) NVIDIA V100 (PCIe) NVIDIA V100S 400w 显存 业 NVIDIA A100 功耗 能 产 芯片名称 盟 【产品信息】 9 发 展 联 盟 AI 芯片技术选型目录 能 产 2.2.1 赛灵思 - Alveo 【技术概述】 赛灵思 AlveoTM 数据中心加速器卡专为现代 智 数据中心多样的应用需求而设计。Alveo 加速器卡 可通过对加速资源的重新配置,适应持续算法优化, 工 在降低总成本的同时,灵活支持各类工作负载。 赛 灵 思 推 出 的 Vitis 统 一 软 件 平 台 为 各 类 人 软 件 和 AI 推 理 应 用 开 发 提 供 统 一 编 程 模 型, 帮 助 用 户 加 速 实 现 从 C/C++、Python、Caffe、 国 Tensorflow 到差异化应用落地的开发过程。 中 AlveoU50 卡 采 用 XCU50 FPGA 包 括 2 个 SLR,配备 PCIe Gen4 和 8G HBM2,每秒 100G 网络连接,以高效能 75 瓦、小尺寸形式为 金融计算、机器学习、计算存储以及数据搜索与分 析工作负载提供优化加速。 Alveo U200 卡采用 XCU200 FPGA 包括 3 个 SLR , Alveo U250 卡使用 XCU250 FPGA 包 括 4 个 SLR。二者均可连接到 PCI Express 的 16 个通道,最高运行速度 8GT/s(Gen3),也可以 连接到 4 根 DDR4 16 GB 2400 MT/s 64 位含纠 【技术指标】 赛 灵 思 Alveo 业 2.2 云端推断 错码 (ECC) 的 DIMM,总计 64 GB 的 DDR4。 数据中心加速器卡基于 Xilinx16nm UltraScale ALveo U280 加速卡采用 XCU280 包括三个 架构,使用赛灵思堆叠硅 SLR,底部 SLR (SLR0) 集成一个 HBM 控制器, 片互联 (SSI) 技术来实现 FPGA 容量、带宽和功耗 与相邻的 8 GB HBM2 内存接口连接。底部 SLR 效率,通过结合多个超逻辑区域 (SLR) 来增大密度。 还连接到 PCI Express Alveo 加速卡旨在加速服务器或工作站中的机器学 道可以最高 16 GT/s (Gen4) 的速度运行。SLR0 习、数据分析和视频处理等计算密集型应用。 和 SLR1 都连接到 DDR4 16 GB 2400 MT/s 64 10 的 16 个通道,这些通 云端 / 数据中心 位 含 纠 错 码 (ECC) 的 DIMM, 总 计 32 GB 的 【产品特征 / 技术特点】 DDR4。 Alveo U50 数据中心加速器卡采用赛灵思 【应用案例】 UltraScale+ Alveo 加 速 卡 已 经 开 发 和 认 证 的 关 键 应 用 架构,使用半高半长的外形尺寸和 低于 75 瓦的低包络功耗。该卡支持第四代 PCIe 及高带宽存储器(HBM2),每秒 100G 网络连接, 模、 安 全 和 基 因 组 学 等。Algo-Logic Systems 面向各种类型的服务器部署。 Inc、Bigstream、BlackLynx Inc.、CTAccel、 Alveo U50 加速器卡产品详细介绍: 和 Xelera Technologies 等合作伙伴开发完成的 应 用 已 经 投 入 部 署。 此 外,Dell EMC、Fujitsu Limited 和 IBM 等顶级 OEM 厂商也在同赛灵思 合 作, 认 证 采 用 Alveo 加 速 器 卡 的 多 个 服 务 器 SKU。 能 产 一,Alveo-Mipsology, Zebra 搭 载 Alveo U50 数据中心加速卡用于神经网络推理,板卡功 耗 75W,关键功能: 立了新的性能标准; 智 快速卷积神经网络 (CNN) 推理——Zebra 设 工 支 持 所 有 神 经 网 络 ——Zebra 可 加 速 任 何 CNN 的所有层级; 人 易于使用——Zebra 是“即插即用”的解决 方案,无需对神经网络进行修改或再训练; 联 U50 A-U50-P00G-PQ-G 75W 被动 300g – 325g 半高半长 1x QSFP28 Gen3 x16, Gen4 x8, CCIX 8 GB 201 GB/s4 872K 1,743K 5,952 24.6 Mb 1344 (47.3 Mb) 640 (180.0 Mb) 20 有 展 Analytics、Titan IC、Vitesse Data、VYUsync 发 Mipsology、NGCodec、Skreens、SumUp 规格 产品 SKU 卡总耗电量 1 散热解决方案 重量 外形尺寸 网络接口 PCIe 接口 2, 3 HBM2 总容量 HBM2 带宽 查找表 (LUTs) 寄存器 DSP slices 最高分布 . RAM 36 Kb 块 RAM 288 Kb UltraRAM GTY 收发器 符合部署条件 业 Falcon Computing、Maxeler Technologies、 盟 涵盖 AI/ML、视频转码、数据分析、金融风险建 注释: 1. Alveo U50 卡为 FPGA 结构与 HBM 存储器 分别搭配了单独的电源供电线。开发者必须确保他 们的设计不会从每条供电线汲取过多电源。如需了 解 更多信息,请参阅《Alveo U50 数据中心加速器 卡安装指南》(UG1370)。 2. PCIe 接口可以配置为支持各种链接宽度和 Zebra 在 TensorFlow、PyTorch、ONNX、 速度。最高为 Gen3 (8 Gt/s) x16、Gen4 (16 Gt/s) x8 Caffe 和 MXNet 模型内运行; 或以 16 GT/s x8 运行的 CCIX。PCIe 接口还可以 中 国 不改变软件环境——无新语言、框架或工具。 可扩展性、灵活性和适应性——Zebra 可替 代 GPU 或在任何位置补充 CPU。 配置为双 x8 接口,并连接到支持 PCIe 分叉的主机。 3. 此 块 在 兼 容 模 式 下 以 16.0 Gt/s (Gen4) 的 二,Alveo-SK 电讯基于人工智能的实时物 速 度 运 行。 请 参 阅《UltraScale+ Devices Integrated 理入侵和盗窃检测服务, 基于赛灵思 Alveo U250 Block for PCI Express LogiCORE IP 产 品 指 南 》 加速器卡,可提供充足的吞吐量与精准度。 (PG213) 了解兼容模式的详情。 11 AI 芯片技术选型目录 4. 通过 PCIe 3.3V 电源供电线提供的 HBM2 功耗仅限为 10W。使用 HBM2 可实现的性能受限 用 PCIe Gen3 x16,设计用于加速高计算强度应 用,如机器学习、数据分析和视频处理。 于此功耗限制,并且因设计而异。HBM2 的额定 注释 : 带宽为 201 GB/s。在不兼容 PCIe 的规格中,针对 1.225W PCIe CEM 卡通过标准连接器 12V 电 A-U50DD-P00G-ES3-G 和 A-U50-P00G-PQ-G 源获取 65W,通过 AUX 连接器 12V 电源获取另外 卡测得的 HBM2 带宽峰值为 316 GB/s。 150W。此卡上不使用标准连接器提供的 3.3V 电源。 CEM 卡需将 150W PCIe AUX 电源线缆连接到本卡。 盟 Alveo U200 和 U250 数据中心加速器卡采 散热解决方案 外形尺寸 智 能 产 业 卡总耗电量 1 网络接口 PCIe 接口 查找表 (LUT) 寄存器 DSP slice UltraRAM DDR 总容量 DDR 最大数据率 DDR 总带宽 展 产品 SKU U200 U250 被动散热版 主动散热版 A-U250A-U250A64G-PQ-G P64G-PQ-G 主动 被动 1122g 1066g 全高、全长、 全高、 长、 双宽度 双宽度 225W 2x QSFP28 Gen3 x16 1,728K 3,456K 12,288 1,280 64 GB DDR 2400 MT/s 77 GB/s 发 U200 U250 主动散热版 被动散热版 A-U200A-U200A64G-PQ-G P64G-PQ-G 主动 被动 1122g 1066g 全高、全长、 全高、 长、 双宽度 双宽度 225W 2x QSFP28 Gen3 x16 1,182K 2,364K 6,840 960 64 GB 2400 MT/s 77 GB/s 规格 联 Alveo U200/U250 加速器卡产品详细介绍 Alveo U280 数据中心加速器卡专为计算和存储工作负载而设计,拥有 8GB HBM2 + 32GB 工 DDR4 内存、1.1M LUT、8.5k DSP 片、每秒 100G 双网络连接,并支持第四代 PCIe 和 CCIX 互联标准。 Alveo U280 加速器卡产品详细介绍: 人 规格 1 中 国 产品 SKU 卡总耗电量 2 散热解决方案 重量 外形尺寸 网络接口 PCIe 接口 4,5 HBM2 总容量 HBM2 带宽 查找表 (LUTs) 寄存器 DSP slices UltraRAMs DDR 总容量 DDR 最大数据率 DDR 总带宽 12 主动散热版 A-U280-A32G-DEV-G3 225W 主动 1187g 全高、全长、双宽度 2x QSFP28 Gen3 x16, Gen4 x8, CCIX 8 GB 460 GB/s 1,079K 2,607K 9,024 960 32 GB 2400 MT/s 38 GB/s 被动散热版 A-U280-P32G-PQ-G3 225W 被动 1130g 全高、 长、双宽度 云端 / 数据中心 注释 : 信息,请联系您当地的赛灵思销售代表。 1. 规格适用于量产 U280 卡。U280 ES1 卡规 4. PCIe 接口可以配置为支持各种链接宽度和速 格和功能的任何差异都记录在 U280 ES1 已知问题 度。最高为 Gen3 (8 Gt/s) x16、Gen4 (16 Gt/s) x8 或 赛灵思答复记录 71975 中。 以 16 GT/s x8 运行的 CCIX。PCIe 接口还可以 配置 2. 225W PCIe CEM 卡通过标准连接器 12V 电 为双 x8 接口,并连接到支持 PCIe 分叉的主机。 5. 此块在兼容模式下以 16.0 Gt/s (Gen4) 的速度 150W。此卡上不使用标准连接器提供的 3.3V 电源。 运 行。 请 参 阅《UltraScale+ Devices Integrated Block CEM 卡需将 150W PCIe AUX 电源线缆连接到本卡。 for PCI Express LogiCORE IP 产品指南》 (PG213) 了 【专利状态】(未提供) 发 需了解有关不含 USB 线的主动卡的批量订购选项的 内存 50W 8GB 100W 64GB 110W 智 能 产 功耗 上市时间 316GB/s 2019 年 8 月 16.2 / / 77GB/s 2018 年 10 月 18.6 / / 64GB 77GB/s 2018 年 10 月 33.3 / / / / 2018 年 11 月 24.5 / / 工艺 16nm UltraScale 工 100W 深度学习计算能力 INT8 FP16 FP32 带宽 中 国 人 (VU37P ) 业 【产品信息】 芯片 名称 Alveo U50 (VU35P ) Alveo U200 (VU9P ) Alveo U250 (VU13P ) Alveo U280 联 主动 DEV 器件编号包含一条 USB 线用于开发。如 解兼容模式的详情。 展 3. 被动散热卡和主动散热卡都符合部署条件。 盟 源获取 65W,通过 AUX 连接器 12V 电源获取另外 13 业 发 2.2.2 中科寒武纪科技股份有限公司 寒武纪思元 100 展 联 盟 AI 芯片技术选型目录 【产品特征 / 技术特点】 为云端推理提供运算能力支撑。 【技术指标】 能 产 【技术概述】 智 INT8 算力 32TOPS, 内置硬件编解码引擎 工 【应用案例】 1.通用智能,支持计算机视觉、语音识别、 自然语言处理等多模态智能处理; 2.针对深度学习定制的指令集和处理器架构, 具有更优的能效比; 3.完善软件开发环境 NeuWare,包括应用 计算机视觉、语音识别、自然语言处理。 开发、功能调试、性能调优等。 人 【专利状态】(未提供) 国 【产品信息】 中 芯片名称 思元 100 14 功耗 75w 内存 带宽 8GB/16GB 102GB/s 上市时间 2018 年 05 月 深度学习计算能力 INT8 FP16 32TOPS 16TFLOPS / FP32 工艺 16nm 发 展 联 盟 云端 / 数据中心 业 2.2.3 中科寒武纪科技股份有限公司 寒武纪思元 270 【产品特征 / 技术特点】 能 产 【技术概述】 为高能效比 AI 推理设计的数据中心级 PCIe 智能加速卡。 FP16 多种精度; 智 【技术指标】 支持多种精度,比上一代加速芯片计算能力提 工 高 4 倍,INT8 算力 128TOPS。 2.内置视频和图片编解码器,有效降低 CPU 前处理负载和 PCIe 带宽占用; 3.计算弹性,支持多类神经网络,寒武纪 Neuware 软件栈部署推理环境; 4.可编程,基于 Bang 语言编程环境可对计 人 【应用案例】 1.支持 INT16、INT8、INT4、FP32、 广泛支持视觉、语音、自然语言处理以及传统 国 机器学习等高度多样化的人工智能应用,帮助 AI 算资源定制,满足多样化需求。 【专利状态】(未提供) 中 推理平台实现高能效比。 【产品信息】 芯片名称 功耗 内存 带宽 上市时间 思元 270 70w 16GB 102GB/s 2019 年 06 月 深度学习计算能力 INT8 FP16 128 TOPS / FP32 / 工艺 16nm 15 AI 芯片技术选型目录 【技术概述】 7. CPU:八核 A53,主频 2.3GHz; 能 产 BM1684 是比特大陆面向深度学习领域自主 研发的第三代张量处理器(TPU),是聚焦视频图 像分析的云端及边缘的人工智能推理芯片。 8. 内存:LPDDR4X,带宽 68.3GB/s; 9. AI 框架支持:Caffe, Tensorflow, PyTorch, MXNet,PaddlePaddle 飞桨等; 【应用案例】 智 【技术指标】 1. 芯片:BM1684 聚焦视频图像分析,是云 工 端及边缘的人工智能推理芯片; 2. AI 算力:17.6TOPS INT8,Winograd 卷 人 积加速下最高可达 35.2TOPS,实测推理性能较上 一代提升约 5 倍以上; 国 3. AI 架构:本芯片基于自主研发的 TPU 架 中 构; 4. 典型功耗:16W; 5. 视频解码:支持 H264 / H265 解码,最 大分辨率 8192x8192,支持 4K/8K。H264 和 H265 解码都支持 32 路高清 30FPS @1080P, 可处理数十路视频智能分析全流程; 6. 图像解码:支持 JPEG 解码和编码,均可 支持 480 张 / 秒 @1080P; 16 业 发 展 联 盟 2.2.4 北京比特大陆科技有限公司 比特大陆算丰 TPU 芯片 BM1684 1. 北京海淀城市大脑中的 AI 计算推理,百度 大脑 Paddle TPU 计算集群,处理千路级别的高清视频结 构化。 2. 福州长乐区的 AI 算力中心 TPU 计算集群,处理上千路的高清视频结构 化、人脸识别等。 3. 福州城市大脑的 AI 计算推理 TPU 计算集群,处理千路级别的高清视频结 构化。 4. 优必达(Ubitus)的互联网云端游戏 AI 加速 TPU 加速游戏中的图像特征提取,画面增强, 超分辨率等。 5. 某新零售客户 云端 / 数据中心 新零售货柜的边缘计算盒子,可进行商品自动 理 GPU T4; 识别。 ■ 3)视频解码路数多,96 路高清视频 30FPS 解码; 【产品特征 / 技术特点】 3. 模组产品特色: 1. BM1684 芯片技术特点是: ■ 1)AI 边缘计算模组,17.6T/35.2T; ■ 1)TPU 芯片架构自主研发,相关专利申 高可达到 35.2T 性能(Winograd 加速); ■ 3)视频解码路数多,支持 32 路 H264 高清 30FPS @1080P 硬解码; ■ 3)视频全流程处理可达到 16~32 路典型 视频结构化 / 人脸分析; 4. 盒子产品特色: 展 和 H265 高清 30FPS @1080P 硬解码; ■ 1)AI 边缘计算盒子,17.6T/35.2T; ■ 4)视频全流程处理能力强,可达到 PyTorch,MXNet,PaddlePaddle 都支持; ■ 6)部署场景灵活,云端和边缘均可部署; 典型视频结构化 / 人脸分析; ■ 3)可室外部署,无风扇散热,-20℃至 +60℃宽温; ■ 4)接口支持 USB/HDMI/RS-485/RS- 能 产 ■ 7)使用灵活,可工作于 PCIE 从设备模 发 ■ 5)AI 工具链完备,Caffe, Tensorflow, ■ 2)视频全流程处理能力可达到 16~32 路 业 16~32 路典型视频结构化 / 人脸分析路数; 式或者 SOC 主设备模式; 盟 ■ 2)性能功耗比高,在 16W 情况下,最 ■ 2)视频解码支持 32 路 H264 和 H265 联 请达到 270 项以上; 232 等; 【专利状态】 2. 板卡产品特色: 105.6T,无需外接供电; 智 ■ 1)75W 半高半长 PCIE 小卡,峰值算力 比特大陆自主研发的 TPU 芯片,自主研发架 构,相关专利申请达到 270 项以上; 国 芯片名称 人 【产品信息】 BM1684 中 工 ■ 2)宣称其性能赶上并部分超越英伟达推 功耗 内存 带宽 上市时间 16W 12GB LPDDR4X 68.3GB/s 2019 年 9 月 深度学习计算能力 INT8 FP16 17.6T ( 普 通 模 式 );35.2T (Winograd 加 速模式) 工艺 FP32 2.2T 12 nm 17 AI 芯片技术选型目录 智 能 产 业 发 展 联 盟 2.2.5 深圳鲲云信息科技有限公司 - 星空 x3 加速卡 【技术概述】 工 星空 X3 加速卡为鲲云推出的面向边缘端和数 4. 其宣称芯片利用率可达 95.4% 【应用案例】 1. 工业领域:鲲云与合作方针对某电容上 鲲云自研的定制数据流 CAISA 芯片,采用无指令 激光刻蚀字符推出基于深度学习的 OCR 识别方 集的架构方式,为支持深度学习的边缘和数据中心 案,识别算法采用了深度学习方法,可识别字母、 服务器提供计算加速方案。 数字以及数十种特殊字符,字符识别精度可达到 【技术指标】 99.99%。采用搭载鲲云 CAISA 芯片的星空加速 中 国 人 据中心进行深度学习推断的 AI 计算加速卡,搭载 1.支持 ResNet、VGG、YOLO 等多个主流 CNN 算法模型 2. 提供 RainBuilder 编译工具链,支持端到 端算法开发和部署 3. 支 持 TensorFlow、Caffe 、PyTorch 及 ONNX (MXNet) 等主流深度学习框架开发的算法 模型 18 卡,识别延迟可以降低到 50ms,识别速度可达到 20pcs/s。 2. 电力领域: 鲲云与合作方通过研究适用于电力无人机巡检 的目标检测深度学习算法,实现基于人工智能技术 的电力无人机智能巡检、数据采集,并在服务器端 进行高质量的图片数据分析,提高巡检效率,降低 云端 / 数据中心 巡检工作量。 3 支持分类、目标检测以及语义分割类深度学 习算法; 【产品特征 / 技术特点】 4 Batch size 不敏感; 1 其宣称芯片利用率可达 95.4%; 5 温度范围:-20℃ ~70℃ 2 时延:3ms 分类延时; 6 实测 Benchmark: ResNet-152 YOLOv3 延时 吞吐率 芯片利用率 3.05 ms 1306.93 FPS 92.32% 8.68 ms 460.27 FPS 95.43% 31.06 ms 125.75 FPS 82.37% SSDResNet50 20.8 ms 182.16 FPS 77.06% U-Net Industrial 74.07 ms 54.01 FPS 64.97% 盟 ResNet-50 联 算法网络 展 注:Batch=4,INT 8 发 【专利状态】 【产品信息】 功耗 两组 DDR4 SDRAM, 8GB 带宽 上市时间 32Gbps 2020 年 6 月 INT8 10.9 TOPS 深度学习计算能力 FP16 FP32 N/A N/A 工艺 28nm 中 国 人 工 智 星 空 加 速 峰值 卡 x3 56W 内存 能 产 芯片名称 业 已申请专利 110 件,包括 109 件发明专利、1 件外观设计专利; 19 AI 芯片技术选型目录 2.2.6 华为技术有限公司 昇腾 310AI 处理器 【技术概述】 昇腾 AI 处理器的主要架构组成: 盟 ■ 芯片系统控制 CPU(Control CPU) ■ AI 计算引擎(包括 AI Core 和 AI CPU) 联 ■ 多层级的片上系统缓存(Cache)或缓冲 区(Buffer) 展 ■ 数 字 视 觉 预 处 理 模 块(Digital Vision USB接口 网卡 发 Pre-Processing,DVPP)等 PCIe接口 AI Core 任务 调度器 AI CPU 控制CPU 数字视觉 预处理模块 主存 GPIO/I2C 等 L2 缓冲区 DDR/HBM接口 智 描述 达芬奇 Up to 8T @FP16 Up to 16T@INT8 16 Channel Decoder – H.264/265 1080P30 工 性能 人 媒体 1 Channel Encoder LPDDR4X 2*64bit @3733MT/S PCIe3.0 /USB 3.0/GE 15mm*15mm 8TOPS@4W, 16TOPS@8W 12nm FFC 国 内存 中 接口 封装 功耗 工艺 领域的各个模型,均可以在昇腾 310 处理器上得 到很好的技术支持。 【产品特征 / 技术特点】 【技术指标】 规格 架构 标检测、光学字符识别、视频处理和自然语言处理 能 产 总线 业 昇腾AI芯片 【应用案例】 达芬奇架构主要由计算单元、存储系统和控制 单元三部分构成。其中计算单元又分为:矩阵计算 单元、向量计算单元、标量计算单元,分别对应矩 阵、向量和标量三种常见的计算模式。 ■ 矩阵计算单元(Cube Unit): 矩阵计算单元和累加器主要完成矩阵相关运 算。 一 拍 完 成 一 个 FP16 的 16x16 与 16x16 矩 阵乘(4096); 如果是 INT8 输入,则一拍完成 16*32 与 32*16 矩阵乘(8192); ■ 向量计算单元(Vector Unit): 华为针对其昇腾 AI 芯片的计算架构专门构建 实现向量和标量,或双向量之间的计算,功能 了完整的软件栈,兼容各个深度学习框架并能够高 覆盖各种基本的计算类型和许多定制的计算类型, 效运行在昇腾 AI 芯片上,让开发者能够快速开发 主要包括 FP16/FP32/INT32/INT8 等数据类型的 推理应用,为开发者提供便利的解决方案。当前主 计算; 流的深度学习应用,包括图像分类、人脸识别、目 20 ■ 标量计算单元(Scalar Unit): 云端 / 数据中心 相当于一个微型 CPU,控制整个 AI Core 的 运行,完成整个程序的循环控制、分支判断,可以 以及基本的算术运算。 【专利状态】(未提供) 为 Cube/Vector 提供数据地址和相关参数的计算, 【产品信息】 310AI 8TOPS@ LPDDR4X 4W16TOPS@8W 带宽 上市时间 2*64bit @3733MT/S 2019 年 深度学习计算能力 INT8 FP16 16T 8T 工艺 FP32 12nm FFC 中 国 人 工 智 能 产 业 发 展 处理器 内存 盟 昇腾 功耗 联 芯片名称 21 AI 芯片技术选型目录 公司名称 芯片名称 功耗 内存 带宽 北京百度网讯科技有限公司 百度昆仑 1 150W 16GB 上海燧原科技有限公司 邃思 联 512GB/s 16GB HBM 512GB /s 400W 40GB HBM2 1555 GB/s 300W 32/16 GB HBM2 900 GB/s 250 32/16 GB HBM2 900 GB/s NVIDIA V100S 250W 32 GB HBM2 1134 GB/s NVIDIA T4 Alveo U50 (VU35P ) Alveo U200 (VU9P ) Alveo U250 (VU13P ) Alveo U280 (VU37P ) 70W 50W 100W 110W 100W 16 GB GDDR6 8GB 64GB 64GB / 320+ GB/s 316GB/s 77GB/s 77GB/s / 思元 100 75W 8GB/16GB 102GB/s 思元 270 70W 16GB 102GB/s 北京比特大陆科技有限公司 BM1684 16W 12GB LPDDR4X 68.3GB/s 深圳鲲云信息科技有限公司 星空加速卡 X3 峰值 56W 两组 DDR4 SDRAM, 8GB/DDR 32GB/s 华为技术有限公司 昇腾 310AI 处理器 8TOPS@ 4W16TOPS@8W LPDDR4X 2*64bit @3733MT/S 能 产 NVIDIA V100(PCIe) 工 赛灵思 智 NVIDIA 中心 中 国 人 中科寒武纪科技股份有限公司 22 发 业 NVIDIA V100(NVLink) NVIDIA 云端 / 数据 展 190W ( 最大功耗 ) NVIDIA A100 云端 训练 云端 推断 盟 2.3 小结 云端 / 数据中心 上市时间 深度学习计算能力 FP16 FP32 FP64 TF32 盟 FP64 INT8 Tensor 工艺 "624 TOPS | 1248 TOPS* 312 TF | 624 TF*(* 采用稀疏 19.5 9.7 (* 采用稀疏技术)" 技术) TFOPS TFOPS 15.7 TFLOPS 7.8 TFLOPS 7 80TOPS 2020 年 5 月 125 TFLOPS 112 2017 年 5 月 2017 年 5 月 130 2019 年 11 月 TFLOPS 2018 年 5 月 2019 年 6 月 16.4TFLOPS "312 TFOPS (* 采 TFLOPS 8.2 TFLOPS 用稀疏技术)" 19.5 TFOPS 14nm GF 12nm FinFET 7nm 12nm 12nm 12nm 65TFLOPS / / / / 8.1TFLOPS / / / / 12nm 16nm UltraScale ™ 16nm UltraScale ™ 16nm UltraScale ™ 16nm UltraScale ™ 32TOPS 16 TFLOPS / 16nm 128 TOPS / / 16nm 2.2T 12nm N/A 28nm 智 130TOPS 16.2TOPS 18.6TOPS 33.3TOPS 24.5TOPS 人 工 2018 年 3 月 2019 年 8 月 2018 年 10 月 2018 年 10 月 2018 年 11 月 14 TFLOPS 能 产 TFLOPS 业 2020 年 6 月 展 16 TOPS 20 TFLOPS 256TOPS 发 64 TOPS 80 TFLOPS 2019 年 11 月 国 "17.6TOPS ( 普通模式 ); 2019 年 9 月 35.2TOPS (Winograd 加速模式)" 中 联 Core 2020 年 6 月 10.9 TOPS N/A 2019 年 16T 8T 12nm FFC 23 盟 联 展 发 业 中 国 人 工 智 边缘计算 能 产 CHAPTER 3 边缘计算 智 能 产 业 发 展 联 盟 3.1 上海天数智芯半导体有限公司 天数智芯 Iluvatar CoreX I 芯片 【技术概述】 【应用案例】 智慧新零售、基于人脸识别的智慧园区、智能 应用的高精度深度学习推理人工智能芯片,针对市 垃圾分类、智慧医疗等基于视频与图像识别的应用 人 工 天数智芯 Iluvatar CoreX I 芯片是聚焦于边缘 场景。 存储单元延迟,增加运算并行度,最终提高边缘端 【产品特征 / 技术特点】 国 场主流 CNN 网络模型算法进行了优化,可以减少 人工智能应用的实际性能。 中 【技术指标】 Iluvatar CoreX I 芯片是基于数据流的深度神 经网络处理器架构的协处理器,支持基于 CNN 网 芯片高效支持 CNN 等卷积类矩阵运算,可应 络模型的边缘侧人工智能推理。可用于智能制造、 用于图像识别与部分语音识别人工智能应用场景。 智慧新零售、智慧医疗、智慧园区、智能垃圾分类 在 5W 的峰值功耗条件下,可提供 4.8TFLOPS 等多个行业及领域的应用,助力产业智能化升级。 的 半 精 度 浮 点 AI 算 力 (FP16),16GB/s 的 双 向 该芯片具有以下主要特征: IO 带宽,与 8GB 的本地存储容量,并已适配包括 1.支持基于深度学习算法的视频图像类推理 ARM、X86 与龙芯等国产 CPU。 应用; 25 AI 芯片技术选型目录 2. 主 流 深 度 神 经 网 络 架 构 支 持, 如 6.接口符合 PCIe4.0 工业标准,易于扩展, ResNet,VGG, YoloV2, SSD,SPP-Net 等; 可支持芯片间及卡间互联扩展; 3.单芯片 4.8TFLOPS FP16 运算能力,32 7.Tensorflow 原生框架扩展,支持客户开 路并行计算应对数据处理; 发环境无痛迁移。 4.基于本地存储预取的图像推理分析低延迟; 【专利状态】 5.峰值功耗低至 5W 并支持低成本无风扇系 申请 17 件。 盟 统; Iluvatar 内存 带宽 峰值 5W 8GB 273Gb/s 上市时间 2019 年 10 月 FP16 4.8T NA 深度学习计算能力 INT8 NA 中 国 人 工 智 能 产 业 发 CoreX I 功耗 26 FP32 展 芯片名称 联 【产品信息】 工艺 T16 边缘计算 能 产 业 发 展 联 盟 3.2NVIDIA- NVIDIA Jetson , NVIDIA T4 Tensor Core GPUs 【技术概述】 备 256 个 NVIDIA CUDA 核心。 NVIDIA Jetson: 智 NVIDIA Jetson 系统所提供的性能和能效可 工 提高自主机器软件的运行速度,而且功耗更低。每 个系统都是一个完备的模块化系统 (SOM),具备 人 CPU、GPU、PMIC、DRAM 和 闪 存。NVIDIA Jetson 具 备 可 扩 展 性。 选 择 适 合 应 用 场 合 的 国 SOM,构建自定义系统,满足特定的应用需求。 NVIDIA T4 Tensor Core GPUs: 中 数据中心 GPU, 可加快 AI、 高性能计算 (HPC) 和图形技术的发展。 【技术指标】 NVIDIA Jetson: Jetson Nano 采用 NVIDIA Maxwell 架构, 配备 128 个 NVIDIA CUDA 核心。 Jetson TX2 采用 NVIDIA Pascal 架构,配 Jetson Xavier NX 采 用 NVIDIA Volta 架 构, 配 备 384 个 NVIDIA CUDA 核 心 和 48 个 Tensor 核心。 Jetson AGX Xavier 采 用 NVIDIA Volta 架 构, 配 备 512 个 NVIDIA CUDA 核 心 和 64 个 Tensor 核心。 NVIDIA T4 GPU: NVIDIA Turing GPU 架构成功将实时光线追 踪、AI、模拟和光栅化技术集成于一身。 【应用案例】 NVIDIA Jetson: NVIDIA Jetson 平台是 NVIDIA AI 边缘平台, 可以覆盖不同领域、不同行业。目前比较集中应用 于两个领域:自主机器和高清传感器及视频分析。 其中包括小型商用机器人、无人机、智能高分辨率 27 AI 芯片技术选型目录 传感器(用于工厂物流和生产线)、光学检测、网 及具备全面分析功能的智能网关等场景得以应用。 络录像机,便携式医疗设备以及其他工业物联网 Jetson TX2 为用户的嵌入式 AI 计算设备提 (IoT)系统。 供丰富的标准硬件接口,适配各类产品和外形规格。 NVIDIA T4 GPU: Jetson Xavier NX 是一种外形小巧的模块, 它能并行运行多个现代神经网络,处理来自多个高 和超大规模数据中心工作负载。其宣称数据科学家 分辨率传感器的数据,进而满足完整 AI 系统的需求。 和研究人员可以在能源勘探和深度学习等应用场合 Jetson AGX Xavier 是专为自主机器设计的 中解析 PB 级的数据,速度比使用传统 CPU 快几 计算机。该计算机具有六个计算机主板,用于处理 个数量级。NVIDIA T4 加速器可以超快速度运行更 传感器数据和运行自主机器软件,并且可以提供完 大型的模拟。此外,NVIDIA GPU 还能为虚拟桌面、 全自主机器所需的性能和能效。 展 联 盟 利用 NVIDIA T4 GPU 处理高性能计算 (HPC) NVIDIA T4 GPU: 【产品特征 / 技术特点】 NVIDIA T4 GPU 推理加速器搭载 NVIDIA Turing Tensor Core ,提供多精度推理性能,以 Jetson Nano 助力开发数百万个新的小型、低 功率的 AI 系统。 在嵌入式物联网应用程序领域, 功耗 Jetson Nano 5W | 10W 人 国 7.5W | 15W 中 10W |15W Jetson AGX Xavier 10W |15W |30W Jetson AGX Xavier 10W |20W NVIDIA T4 70w 28 内存 4 GB 64bitLPDDR4 8 GB 工 芯片名称 智 【产品信息】 Jetson Xavier NX 【专利状态】(未提供) 能 产 包括入门级网络硬盘录像机 (NVR)、家用机器人以 加速现代人工智能的各种应用。 业 NVIDIA Jetson: Jetson TX2 发 应用程序和工作站提供超高性能和用户密度。 128bit LPDDR4 8 GB 128bit LPDDR4 16 GB 256bit LPDDR4 8 GB 256bit LPDDR4 16 GB GDDR6 深度学习计算能力 FP16 FP32 带宽 上市时间 25.6 GB/s 2019 年 3月 0.5 TFLOPS 58.4 GB/s 2017 年 3月 1.3 TFLOPS 51.2 GB/s 2019 年 11 月 14|21 TOPS 137 GB/s 2018 年 12 月 32 TOPS 16 TFLOPS 85 GB/s 2019 年 19.3 TOPS 9.6 TFLOPS 320+ GB/s 2018 年 3月 130 TOPS 65 TFLOPS INT8 工艺 8.1 12nm TFLOPS 边缘计算 3.3 紫光展锐 - 虎贲 T710 【技术概述】 盟 虎 贲 T710 采 用 8 核 CPU 架 构, 由 4 颗 2.0GHz 的 Arm Cortex-A75 及 4 颗 1.8GHz 联 的 Arm Cortex-A55 组 成, 搭 载 工 作 频 率 为 800MHz 的 IMG PowerVR GM 9446 图 形 处 展 理 器。 虎 贲 T710 包 含 了 CPU、GPU、NPU、 ISP、VDSP 等处理单元,为各类丰富的 AI 应用 发 提供了高效能、低功耗的技术基础。 CPU: 4xA75@2.0GHz + 4xA55@1.8GHz 能 产 GPU: PowerVR GM 9446@800MHz 业 【技术指标】 LCD: 支持 QHD+ 分辨率 (3200x1440) Camera: 支持 24M+8M/16M+16M 双摄 NPU: 3.2TOPS@INT8 主频 800MHz TDD-LTE/FDD-LTE/ 智 网 络 制 式 : GSM/WCDMA/TDSCDMA/ 【产品特征 / 技术特点】 采 用 异 构 双 核 架 构, 虎 贲 T710 的 计 算 能 效 比 超 过 2.5TOPS/W, 并 支 持 INT4, INT8, INT16,FP16 等多种神经网络量化方式。同时还 工 Wi-Fi: 802.11a,b,g,n,11ac 支持 4K@30 帧视频编解码 ,WiFi 11AC 和 BT 5.0 Bluetooth: 5.0 等多种无线连接技术。 人 【应用案例】 安防多个领域内得到应用。 【专利状态】(未提供) 中 国 虎贲 T710 已经在智能医疗,智能零售和智能 【产品信息】 芯片名称 功耗 内存 带宽 虎贲 T710 <2.3W LPDDR4X 1866 15Gbps 上市时间 2019 年 8 月 深度学习计算能力 INT8 FP16 FP32 3.2TOPS 0.5TOPS 工艺 12nm 29 业 发 展 联 盟 AI 芯片技术选型目录 能 产 3.4 中科寒武纪科技股份有限公司 寒武纪思元 220 M.2 无人机等边缘计算场景,支持视觉、语音、自然语 智 【技术概述】 基于寒武纪最新一代 MLUv02 架构,实现终 用,实现各种业务的边缘端智能化解决方案。 工 端设备和边缘端设备的 AI 赋能。 【产品特征 / 技术特点】 人 【技术指标】 言处理以及传统机器学习等多样化的人工智能应 1.MLUv02 架构,提升缓存有效容量和带宽; 专门用于深度学习的 SOC 芯片,具有高算力、 2.U 盘大小尺寸可提供 8 路高清视频分析; 国 低功耗、丰富 I/O 接口。 3.计算可编程,满足多样化 AI 定制要求。 中 【应用案例】 可应用于智能制造、无人零售、智能交通、 【专利状态】(未提供) 【产品信息】 30 芯片名称 功耗 内存 带宽 上市时间 思元 220 M.2 8.25W 4GB 29GB/s 2019 年 11 月 深度学习计算能力 INT8 FP16 FP32 8TOPS / / 工艺 16nm 边缘计算 3.5 华为技术有限公司 昇腾 310AI 处理器 【技术概述】 昇腾 AI 处理器的主要架构组成: ■ 芯片系统控制 CPU(Control CPU) 盟 ■ AI 计算引擎(包括 AI Core 和 AI CPU) 区(Buffer) 联 ■ 多层级的片上系统缓存(Cache)或缓冲 流的深度学习应用,包括图像分类、人脸识别、目 Pre-Processing,DVPP)等 网卡 领域的各个模型,均可以在昇腾 310 处理器上得 到很好的技术支持。 PCIe接口 发 USB接口 标检测、光学字符识别、视频处理和自然语言处理 展 ■ 数 字 视 觉 预 处 理 模 块(Digital Vision 昇腾AI芯片 AI Core 任务 调度器 AI CPU 【产品特征 / 技术特点】 控制CPU 总线 GPIO/I2C 等 L2 缓冲区 DDR/HBM接口 单元三部分构成。其中计算单元又分为:矩阵计算 能 产 主存 业 达芬奇架构主要由计算单元、存储系统和控制 数字视觉 预处理模块 单元、向量计算单元、标量计算单元,分别对应矩 阵、向量和标量三种常见的计算模式。 【技术指标】 描述 达芬奇 Up to 8T @FP16 Up to 16T@INT8 16 Channel Decoder – H.264/265 1080P30 智 规格 架构 工 性能 媒体 1 Channel Encoder LPDDR4X 2*64bit @3733MT/S PCIe3.0 /USB 3.0/GE 15mm*15mm 8TOPS@4W, 16TOPS@8W 12nm FFC 人 内存 中 国 接口 封装 功耗 工艺 【应用案例】 ■ 矩阵计算单元(Cube Unit): 矩阵计算单元和累加器主要完成矩阵相关运 算。 一 拍 完 成 一 个 FP16 的 16x16 与 16x16 矩 阵乘(4096); 如果是 INT8 输入,则一拍完成 16*32 与 32*16 矩阵乘(8192); ■ 向量计算单元(Vector Unit): 实现向量和标量,或双向量之间的计算,功能 覆盖各种基本的计算类型和许多定制的计算类型, 主要包括 FP16/FP32/INT32/INT8 等数据类型的 计算; ■ 标量计算单元(Scalar Unit): 华为针对其昇腾 AI 芯片的计算架构专门构建 相当于一个微型 CPU,控制整个 AI Core 的 了完整的软件栈,兼容各个深度学习框架并能够高 运行,完成整个程序的循环控制、分支判断,可以 效运行在昇腾 AI 芯片上,让开发者能够快速开发 为 Cube/Vector 提供数据地址和相关参数的计算, 推理应用,为开发者提供便利的解决方案。当前主 以及基本的算术运算。 31 AI 芯片技术选型目录 【专利状态】(未提供) 【产品信息】 腾 8TOPS@ 4W16TOPS@8W 内存 带宽 LPDDR4X 上市时间 2*64bit @3733MT/S 2019 年 深度学习计算能力 INT8 FP16 16T 8T 展 发 业 能 产 智 工 人 国 中 32 工艺 FP32 联 310AI 处理器 功耗 12nm FFC 盟 芯片名称 边缘计算 能 产 业 发 展 联 盟 3.6 深圳鲲云信息科技有限公司 - 星空 x3 加速卡 【技术概述】 【应用案例】 智 星空 X3 加速卡为鲲云推出的面向边缘端和数 1. 工业领域:鲲云与合作方针对某电容上 激光刻蚀字符推出基于深度学习的 OCR 识别方 鲲云自研的定制数据流 CAISA 芯片,采用无指令 案,识别算法采用了深度学习方法,可识别字母、 工 据中心进行深度学习推断的 AI 计算加速卡,搭载 数字以及数十种特殊字符,字符识别精度可达到 服务器提供计算加速方案。 99.99%。采用搭载鲲云 CAISA 芯片的星空加速 【技术指标】 卡,识别延迟可以降低到 50ms,识别速度可达到 国 人 集的架构方式,为支持深度学习的边缘和数据中心 1. 支 持 ResNet、VGG、YOLO 等 多 个 主 中 流 CNN 网络 2. 提供 RainBuilder 编译工具链,支持端到 端算法开发和部署 3. 支 持 TensorFlow、Caffe、PyTorch 及 ONNX(MXNet)等主流深度学习框架开发的算 法模型 4. 其宣称芯片利用率可达 95.4% 20pcs/s。 2. 电力领域: 鲲云与合作方通过研究适用于电力无人机巡检 的目标检测深度学习算法,实现基于人工智能技术 的电力无人机智能巡检、数据采集,并在服务器端 进行高质量的图片数据分析,提高巡检效率,降低 巡检工作量。 【产品特征 / 技术特点】 1 其宣称芯片利用率可达 95.4%; 33 AI 芯片技术选型目录 2 时延:3ms 分类延时; 3 支持分类、目标检测以及语义分割类深度学 习算法; 4 Batch size 不敏感; 5 温度范围:-20℃ ~70℃ ResNet-50 3.05 ms 1306.93 FPS 92.32% ResNet-152 8.68 ms 460.27 FPS 95.43% YOLOv3 31.06 ms 125.75 FPS 82.37% SSD-ResNet50 20.8 ms 182.16 FPS 77.06% U-Net Industrial 74.07 ms 54.01 FPS 64.97% 联 算法网络 延时 吞吐率 芯片利用率 盟 6 实测 Benchmark: 展 注:Batch=4,INT 8 发 【专利状态】 【产品信息】 星空加速卡 X3 峰值 56W 内存 带宽 两组 DDR4 SDRAM, 32Gbps 8GB 工 人 国 中 34 上市时间 能 产 功耗 智 芯片名称 业 已申请专利 110 件,包括 109 件发明专利、1 件外观设计专利; 2020 年 6月 深度学习计算能力 INT8 FP16 FP32 10.9 TOPS N/A N/A 工艺 28nm 人 国 中 盟 联 展 发 业 能 产 智 工 边缘计算 35 AI 芯片技术选型目录 3.7 小结 科技有限公司 CoreX I Jetson TX2 Jetson Xavier 华为技术有限公司 思元 220 M.2 星空加速卡 X3 工 人 国 中 36 25.6GB/s 7.5W | 15W 58.4GB/s 10W |15W 8 GB128-bit LPDDR4 51.2 GB/s 10W |20W 70W <2.3W 8 GB 256-bit LPDDR4 85GB/s 16 GB GDDR6 LPDDR4X 1866 320+ GB/s 15Gbps 4GB 29GB/s LPDDR4X 2*64bit @3733MT/S 两 组 DDR4 SDRAM, 8GB/DDR 32GB/s -bit LPDDR4 8.25W 峰值 56W 137GB/s 16 GB 256 10W |15W |30W 昇腾 310AI 处理 "8Tops@4W16Tops@8W" 器 智 深圳鲲云信息 科技有限公司 AGX Xavier NVIDIA T4 虎贲 T710 4 GB64- bit LPDDR4 8 GB128-bit LPDDR4 能 产 股份有限公司 273Gb/s 5W | 10W AGX Xavier Jetson 紫光展锐 中科寒武纪科技 8 GB 业 边缘 计算 峰值 5W Jetson Nano NX Jetson NVIDIA 带宽 盟 Iluvatar 内存 联 上海天数智芯 功耗 展 芯片名称 发 公司名称 边缘计算 FP16 FP32 NA 4.8TFLOPS NA 0.5 TFLOPS 2017 年 3 月 1.3TFLOPS TF32 Tensor Core T16 14|21TOPS 2018 年 12 月 32TOPS 16TFLOPS 2019 年 19.3TOPS 9.6TFLOPS 2018 年 3 月 2019 年 8 月 130TOPS 3.2TOPS 65TFLOPS 0.5TOPS 8.1TFLOPS 2019 年 11 月 8TOPS / / 2019 年 16TOPS 8TFLOPS 2020 年 6 月 10.9 TOPS N/A 展 2019 年 11 月 发 2019 年 3 月 FP64 FP64 联 INT8 工艺 能 产 业 2019 年 10 月 深度学习计算能力 盟 上市时间 16nm 12nm FFC 28nm 中 国 人 工 智 N/A 12nm 12nm 37 人 国 中 终端 盟 联 展 发 业 能 产 智 工 CHAPTER 4 工 智 能 产 业 发 展 联 盟 终端 人 4.1 通用端侧产品 国 4.1.1 NVIDIA - NVIDIA Jetson 中 【技术概述】 NVIDIA Jetson 系统所提供的性能和能效可 提高自主机器软件的运行速度,而且功耗更低。每 个系统都是一个完备的模块化系统 (SOM),具备 CPU、GPU、PMIC、DRAM 和 闪 存。NVIDIA 【技术指标】 Jetson Nano 采用 NVIDIA Maxwell 架构, 配备 128 个 NVIDIA CUDA 核心。 Jetson TX2 采用 NVIDIA Pascal 架构,配 备 256 个 NVIDIA CUDA 核心。 Jetson 具备可扩展性。通过选择适合应用场合的 Jetson Xavier NX 采 用 NVIDIA Volta 架 SOM,即能够以此为基础构建自定义系统,满足 构, 配 备 384 个 NVIDIA CUDA 核 心 和 48 个 特定的应用需求。 Tensor 核心。 39 AI 芯片技术选型目录 Jetson AGX Xavier 采 用 NVIDIA Volta 架 低功率的 AI 系统。在嵌入式物联网应用程序领域, 构, 配 备 512 个 NVIDIA CUDA 核 心 和 64 个 包括入门级网络硬盘录像机 (NVR)、家用机器人以 Tensor 核心。 及具备全面分析功能的智能网关等场景得以应用。 Jetson TX2 为用户的嵌入式 AI 计算设备提 【应用案例】 其中包括小型商用机器人、无人机、智能高分辨率 传感器(用于工厂物流和生产线)、光学检测、网 络录像机,便携式医疗设备以及其他工业物联网 (IoT)系统。 40 4 GB 64-bit LPDDR4 LPDDR4 8 GB128-bit LPDDR4 8 GB128-bit LPDDR4 工 7.5W | 15W 10W |15W 10W |15W |30W 10W |20W 人 国 中 Jetson AGX Xavier 计算机。该计算机具有六个计算机主板,用于处理 发 【专利状态】(未提供) 业 5W | 10W 内存 智 功耗 Jetson AGX Xavier Jetson AGX Xavier 是专为自主机器设计的 能 产 【产品信息】 Jetson TX2 Jetson Xavier NX 的数据,进而满足 AI 系统的需求。 全自主机器所需的性能和能效。 Jetson Nano 助力开发数百万个新的小型、 Jetson Nano 多个现代神经网络,处理来自多个高分辨率传感器 传感器数据和运行自主机器软件,并且可以提供完 【产品特征 / 技术特点】 芯片名称 Jetson Xavier NX 外形小巧,它能并行运行 盟 于两个领域:自主机器和高清传感器及视频分析。 适配各类产品和外形规格,实现的 AI 计算终端。 联 可以覆盖不同领域、不同行业。目前比较集中应用 供相应的速度和能效。提供丰富的标准硬件接口, 展 NVIDIA Jetson 平台是 NVIDIA AI 边缘平台, 带宽 25.6GB/s 58.4GB/s 51.2 GB/s 深度学习计算能力 上市时间 INT8 2019 年 3月 FP16 0.5 TFLOPS 2017 年 3月 2019 年 11 月 14|21 TOPS 1.3TFLOPS 16GB 256bit LPDDR4 137 GB/s 2018 年 12 月 32 TOPS 16TFLOPS 8GB 256bit LPDDR4 85GB/s 2019 年 19.3 TOPS 9.6TFLOPS 工艺 FP32 终端 4.1.2 华为技术有限公司 腾 310AI 处理器 【技术概述】 昇腾 AI 处理器的主要架构组成: 盟 ■ 芯片系统控制 CPU(Control CPU) ■ AI 计算引擎(包括 AI Core 和 AI CPU) 联 ■ 多层级的片上系统缓存(Cache)或缓冲 区(Buffer) 展 ■ 数 字 视 觉 预 处 理 模 块(Digital Vision 网卡 在昇腾 AI 芯片上,让开发者能够快速开发推理应 PCIe接口 昇腾AI芯片 业 USB接口 发 Pre-Processing,DVPP)等 用,为开发者提供便利的解决方案。当前主流的深 AI Core 任务 调度器 AI CPU 控制CPU 数字视觉 预处理模块 主存 GPIO/I2C 等 L2 缓冲区 度学习应用,包括图像分类、人脸识别、目标检测、 能 产 总线 光学字符识别、视频处理和自然语言处理领域的各 个模型,均可以在昇腾 310 处理器上得到很好的 DDR/HBM接口 智 技术支持。 【技术指标】 描述 达芬奇 Up to 8T @FP16 Up to 16T@INT8 16 Channel Decoder – H.264/265 1080P30 人 工 规格 架构 性能 媒体 国 1 Channel Encoder 内存 中 接口 封装 功耗 工艺 LPDDR4X 2*64bit @3733MT/S PCIe3.0 /USB 3.0/GE 15mm*15mm 8 T O P S @ 4 W , 16TOPS@8W 12nm FFC 【应用案例】 华为昇腾 AI 芯片的计算架构具有完整的软件 栈,其宣称兼容各个深度学习框架并能够高效运行 【产品特征 / 技术特点】 达芬奇架构主要由计算单元、存储系统和控制 单元三部分构成。其中计算单元又分为:矩阵计算 单元、向量计算单元、标量计算单元,分别对应矩 阵、向量和标量三种常见的计算模式。 ■ 矩阵计算单元(Cube Unit): 矩阵计算单元和累加器主要完成矩阵相关运 算。 一 拍 完 成 一 个 FP16 的 16x16 与 16x16 矩 阵乘(4096); 如果是 INT8 输入,则一拍完成 16x32 与 32x16 矩阵乘(8192); ■ 向量计算单元(Vector Unit): 实现向量和标量,或双向量之间的计算,功能 覆盖各种基本的计算类型和许多定制的计算类型, 主要包括 FP16/FP32/INT32/INT8 等数据类型的 计算; 41 AI 芯片技术选型目录 ■ 标量计算单元(Scalar Unit): 为 Cube/Vector 提供数据地址和相关参数的计算, 相当于一个微型 CPU,控制整个 AI Core 的 以及基本的算术运算。 运行,完成整个程序的循环控制、分支判断,可以 【专利状态】(未提供) 【产品信息】 功耗 内存 腾 310AI 8TOPS @4W16TOPS LPDDR4X @8W 上市时间 2*64bit @3733MT/S 2019 年 深度学习计算能力 FP16 FP32 16T 8T 展 发 业 能 产 智 工 人 国 中 42 工艺 INT8 联 处理器 带宽 盟 芯片名称 12nm FFC 终端 【技术概述】 业 发 展 联 盟 4.1.3 瑞芯微电子股份有限公司 RK1808 AIoT 芯片方案 6. 支 EMMC; 能 产 RK1808 芯片采用 22 纳米 FDX 工艺,内嵌 高性能的 64 位双核 Cortex-A35 CPU 和在人工 智能应用场景下深度学习大量使用的神经网络运算 加速引擎(NPU),实现运算力的同时满足端侧 智 产品的功耗需求,达到功耗、成本、性能的有效平 其宣称具有高性能的神经网络运算单元的 工 衡。 设计;高性能丰富接口的复杂 SoC 架构设计;多 人 形态灵活可扩展等特性。 【技术指标】 国 1. 双核 Cortex-A35,最高频率 1.6GHz 2. NPU 支持 INT8/INT16/FP16; NPU 算 中 力:3 TOPS for INT8 / 300 GOPS for INT16 / 100 GFLOPS for FP16; 3. 支 持 RKNN/OpenCL/OpenVX 编 程 接 口; 4. 支 持 TensorFlow、Caffe、ONNX、 Darknet 模型; 5. 内 存 支 持 800MHz 32-bit LPDDR2/ LPDDR3/DDR3/DDR3L/DDR4; 持 Serial SPI NOR/NAND Flash, 7. 视频支持 1080p@60FPS H.264 解码, 1080p@30FPS H.264 编码; 8. ISP 支持 2MPixel,支持 AE/AWB/AF; 9. 视 频 输 入 4-lane,MIPI-CSI/MIPI- DSI, 支 持 Virtual Channel, 支 持 BT.601/ BT.656/BT.1120; 10. 视 频 输 出 支 持 4-lane,MIPI-DSI, 最 大 分 辨 率 1920*1080;8-bit Parallel RGB panel,最大到 1280*720; 11. 支持支持 USB3.0/PCIe2.1;内置 2-ch & 8-ch I2S & 8-ch PDM, 内 置 VAD; 支 持 千兆以太网; 12. 支 持 8 x UART/3 x SPI/6 x I2C/11 x PWM/4 x SARADC 等丰富低速外设接口; 【应用案例】 1. Toybrick 算力棒,算力卡; 2. 致远电子 M1808 工业 AI 板; 3. 点创 ADAS/DSM 设备; 43 AI 芯片技术选型目录 4. 动作识别智能摄像头; 需求,可以发挥硬件运算单元的能力,在单位时钟 【产品特征 / 技术特点】 周期内尽可能让更多的运算单元处于工作状态,同 RK1808 芯片支持目标图像识别、视觉处理、 语音识别、语义分析等人工智能应用,设计乘加运 算 (MAC) 架构及高效的调度单元,能满足目前大 计的人工智能硬件加速引擎,可以达到理论上单芯 片 3.0TOPS 的运算能力。 【专利状态】(未提供) 盟 部分算法和应用对较高神经网络推理算力和效率的 时兼容考虑各种不同算法或模型的情况。该项目设 RK1808 3W 内存 带宽 上市时间 LPDDR2/LPDDR3 6.4 2019 年 INT8 3 DDR3/DDR3L/DDR4 GBytes/s 6月 TOPS 深度学习计算能力 INT16 FP16 300 100 展 功耗 GOPS 中 国 人 工 智 能 产 业 发 芯片名称 联 【产品信息】 44 GFLOPS 工艺 22nm 终端 4.1.4 瑞芯微电子股份有限公司 RK3399 Pro 人工智能端侧芯片方案 【技术概述】 7. 1080P 视频编码,支持 H.264,VP8 格式; 8. 视频后期处理器:反交错、去噪、边缘 / RK3399 Pro CPU 采用 big.LITTLE 大小核 9. 整体性能、功耗方面具有技术领先性, GPU 采用 集成更多带宽压缩技术,整体性能优异,适合于电 4096x2160 及 2560x1600; 支 持 双 通 道 MIPIDSI (每通道 4 线); 10. 显 子白板、电子书包,人脸识别设备、无人机、机器 瘦客户机(云端服务)、VOIP 视频会议系统、教 育类平板、卡拉 OK 娱乐类、医疗类、安防 / 监控 智 核 CPU 结构,频率最高 1.8GHz; 工 GPU 为 四 核 Mali-T860, 支 持 OpenGL ES1.1/2.0/3.0/3.1, OpenVG1.1, 人 OpenCL, DX11;支持 AFBC(帧缓冲压缩); 3. NPU 支持 INT8/INT16/FP16; NPU 算 国 力:3 TOPS for INT8 / 300 GOPS for INT16 / 100 GFLOPS for FP16; 4. 内 存 支 持 中 持 HDCP 1.4/2.2; 支持 DisplayPort 1.2 (4 线, 最高支持 4K 60Hz);支持 Rec.2020 和 Rec.709 色域转换; 11. 接口支持双 ISP 像素处理能力 13MPix/ lanes );内置低功耗 MCU;支持 8 路数字麦克风 1. 双 Cortex-A72+ 四 Cortex-A53 大 小 双 通 道 DDR3-1866/ DDR3L-1866/LPDDR3-1866/LPDDR4; 支 持 eMMC 5.1,SDIO3.0; 持 4K VP9 and 4K 10bits H265/ H264 视频解码,60fps; 6. 1080P 多格式视频解码 (VC-1, MPEG1/2/4, VP8); 10.8Gbps);HDMI 2.0 支持 4K 60Hz 显示,支 Type-C 接 口; 支 持 PCIe 2.1 (4 full-duplex 【技术指标】 5. 支 线, s,支持双路摄像头数据同时输入;支持 USB3.0 等近百行业应用产品。 2. 持:eDP 1.3(4 能 产 / 警务、工控类、IoT 物联网领域、VR 录像、VR 支 发 电类、广告机 / 一体机、金融 POS 类、车载控制业、 示 业 人、游戏终端、游戏外设类、手游挂机服务器、家 双 VOP 显 示: 分 辨 率 分 别 支 持 联 四核 ARM 新一代高端图像处理器 Mali-T860, 盟 细节 / 色彩优化; 展 架构,双核 Cortex-A72+ 四核 Cortex-A53,在 阵列输入; 【应用案例】 RK3399Pro 平 台 联 合 黑 芝 麻 提 供 ADAS/ DSM 方案,充分利用 3399Pro 的 AI 推理及多媒 体性能,支持 6 路视频的输入和 AI 分析,实现了 ADAS 辅助驾驶及 DSM 驾驶员疲劳检测功能,增 强了交通运输车辆的安全系数。 【产品特征 / 技术特点】 RK3399Pro 平台高性能、高扩展、全能型的 应用特性,技术特点体现在多显示接口、GPU、 音视频解码、人工智能以及与用于多终端互联、人 机交互上。 【专利状态】(未提供) 45 AI 芯片技术选型目录 【产品信息】 芯片名称 功耗 内存 双 RK3399Pro 10W 通 带宽 上市时间 14.9GBytes/s 2018 年 1 月 深度学习计算能力 INT8 INT16 FP16 工艺 3T 28nm 道 DDR31866/ DDR3L-1866/ 0.3T 0.1T 中 国 人 工 智 能 产 业 发 展 联 盟 LPDDR3-1866/ LPDDR4 46 终端 能 产 业 发 展 联 盟 4.1.5 上海天数智芯半导体有限公司 天数智芯 Iluvatar CoreX I 芯片 垃圾分类、智慧医疗等基于视频与图像识别的应用 智 【技术概述】 天数智芯 Iluvatar CoreX I 芯片是聚焦于边缘 工 应用的高精度深度学习推理人工智能芯片,针对市 场景。 【产品特征 / 技术特点】 Iluvatar CoreX I 芯片是基于数据流的深度神 减少存储单元延迟,增加运算并行度,最终大幅提 经网络处理器架构的协处理器,支持基于 CNN 网 人 场主流 CNN 网络模型算法进行了优化,可以有效 络模型的边缘侧人工智能推理,具有高精度、高性 【技术指标】 能、高能效、易扩展、易开发等多项特点。可用于 国 高边缘端人工智能应用的实际性能。 中 芯片支持 CNN 等卷积类矩阵运算,可应用 于图像识别与部分语音识别人工智能应用场景。在 5W 的峰值功耗条件下,可提供 4.8TFLOPS 的半 精度浮点 AI 算力 (FP16),16GB/s 的双向 IO 带宽, 与 8GB 的本地存储容量,并已适配包括 ARM、 X86 与龙芯等国产 CPU。 【应用案例】 智慧新零售、基于人脸识别的智慧园区、智能 智能制造、智慧新零售、智慧医疗、智慧园区、智 能垃圾分类等多个行业及领域的应用,助力产业智 能化升级。 该芯片具有以下主要特征: 1.支持基于深度学习算法的视频图像类推理 应用; 2. 主 流 深 度 神 经 网 络 架 构 支 持, 如 ResNet,VGG, YoloV2, SSD,SPP-Net 等; 3.单芯片 4.8TFLOPS FP16 高精度高性能 47 AI 芯片技术选型目录 运算能力,32 路并行计算应对海量数据处理; 7.Tensorflow 原生框架扩展,支持客户开 4.基于本地存储预取的图像推理分析低延迟; 发环境无痛迁移。 5.峰值功耗低至 5W 并支持低成本无风扇系 【专利状态】 统; 申请 17 件。 6.接口符合 PCIe4.0 工业标准,易于扩展, 【产品信息】 带宽 上市时间 Iluvatar CoreX I 峰值 5W 8GB 273Gb/s 2019 年 10 月 深度学习计算能力 INT8 FP16 NA 4.8T 业 能 产 智 工 人 国 中 48 联 内存 展 功耗 发 芯片名称 盟 可支持芯片间及卡间互联扩展; FP32 NA 工艺 T16 终端 4.2 智能驾驶 4.2.1 赛灵思 - ZU7EV(Zynq UltraScale+ MPSoC) 盟 基于这两款芯片,赛灵思现可提供:从支持边 缘传感器的小型器件到用于集中式域控制器的新型 联 高性能器件,通过全方位的产品线,满足汽车对安 展 全、质量和可靠性的各种要求。 【技术指标】 发 Zynq® UltraScale+ MPSoC 系 列 采 用 16nm 制 造 工 艺, 在 单 个 器 件 中 高 度 集 成 64 位 ) 架构,将实时控制与软硬件引擎相结合,支持图形、 (ZCU104 板卡 业 ARM 处理器和 Xilinx 可编程逻辑 (PL) UltraScale 能 产 视频、波形与数据包处理。Zynq MPSoC 系列更可以广泛用于各种端侧应用,包括 【技术概述】 智慧城市,辅助驾驶,自动驾驶,医疗临床 / 诊断, 赛灵思推出的两款车规级芯片 (XA) Zynq 智 工业相机和智慧零售等领域应用。 MPSoC7EV 和 11EG, 可 提 供 在 AD/ADAS 场景下,从分布式智能传感器、 优异的可编程能力、性能和 I/O 功能,面向 L2+ 集中式多传感器融合系统到高度集成的域控制器开 工 UltraScale+ UltraScale+ 发,XA Zynq 动驾驶(AD)应用提供高速数据汇总、预处理和 和集成能力既能帮助用户实现高度灵活的解决方案, 人 到 L4 的高级驾驶员辅助系统(ADAS)应用和自 国 分配(DAPD)功能以及计算加速功能。 中 前视摄像头 UltraScale+ MPSoC 的并行处理 又能充分满足车辆系统对各种安全及设计需求。 GEN 3:Zynq®UltraScale+ ™ MPSoC 摄像头: 4 M 像素 保护范围更大:例如对行人和骑车人的保护 汽车便捷性控制:例如塞车小帮手 Xilinx 价值: - 异构处理器 - 紧密耦合的应用软件及自定义硬件加速器 - FuSa 功能的安全岛 49 AI 芯片技术选型目录 GEN 3: Zynq® UltraScale+ ™ MPSoC 3D 环绕视图 障碍物探测 显示:全高清及以上 摄像头: 4ch+ 2MPixel - 灵活应变度更高 特性: - 动态 3D 周围环境视图(飞速摄像头) - 高分辨率图形动画 盟 - 高级拖车挂接装置 - 传感器融合 - 机器视觉目标检测,可为低速行驶实现车辆控制和自动紧急 发 展 联 刹车 (AEB) - 符合 FuSa 标准 基于 Zynq® UltraScale+TM MPSoC 的 DPU 性能 业 结合 VITIS 统一软件平台提供的深度学习处理器,可实现对 AD/ADAS 场景下各类神经网络模型加速。 XA Peak TOPS Typical Power (Watt) ZU2 ZU3 ZU4 ZU5 ZU6 ZU7 ZU9 ZU11 ZU15 0.5 0.9 1.2 1.4 2.7 2.7 4.1 4.3 5.4 5 6 7 7.5 10 10 12 16 / 智 工 人 【应用案例】 (functional safety qualified) Y Y Y Y Hardened video codec Y Y 能 产 Device Y Y Y 赛灵思 - 百度 ACU 自主泊车专用车载计算平台 国 赛灵思车规级芯片平台 Zynq UltraScale+ MPSoC 正在为百度量产型自主泊车(Automated 中 Valet Parking,AVP)专用车载计算平台 ACU-Advanced(Apollo Computing Unit )提供强大动力。 ACU-Advanced 专门针对自主泊车的特定场景和功能而设计。AVP 应用需要先进且强大的深度学 习推断能力来处理复杂的驾驶环境,量产型 ACU-Advanced 借助赛灵思 Zynq UltraScale+ EV 平台强 大的传感器融合和 AI 处理能力,取代了用于概念验证(proof-of-concepts,POC)的 GPU。而且, 该平台与百度深度学习平台框架百度飞浆(Baidu PaddlePaddle)完全兼容,并包括 5 个摄像头和 12 个超声波雷达,支持零下 40 度至零上 85 度的工作温度范围,可以完全满足严苛的车规量产要求。 50 终端 车载系统还包含一个带触摸屏操作、增强现实技术 导航显示、智能语音控制等功能的高分辨率宽屏驾 驶舱。 车内驾驶员及乘客监控系统在依靠 AI 推断的 同时受功耗限制,需要节能解决方案,特别是在受 到不良热环境限制时。同时,系统还需要低时延 Zynq® UltraScale+ 盟 来提供对使用者手势的快速响应。赛灵思车规级 MPSoC 是人工智能加速 联 的理想平台,可提供更高的灵活性,满足定制车内 展 体验的需求。 MBUX 车内助手功能: 发 1. 基于人工智能的手势输入系统,由 Zynq UltraScale+ MPSoC 提供支持 业 2. 基于数据流的 AI 引擎可通过避免存储数据 来减少时延 能 产 3. 识别乘客的自然动作,以便汽车预测司机 和乘客的请求 图 1: 基 于 赛 灵 思 车 规 级 芯 片 平 台 Zynq® 智 UltraScale+ MPSoC 的百度量产型自主泊车专用 车载计算平台 ACU-Advanced 工 图 2:赛灵思车规级芯片平台 Zynq® UltraScale+ MPSoC 人 ACU-Advanced 也是业界首款基于赛灵思 4. 区分司机和乘客的手势 5. 对肢体语言做出反应,使舒适功能自动化 【产品特征 / 技术特点】 XA Zynq®UltraScale MPSoC 提 供 了 高 度 可编程容量、性能和 I/O 能力,实现了高速、数据 聚合、预处理和分发(DAPD),以及 L2+ 到 L4 高级驾驶员辅助系统(ADAS)和自动驾驶(AD) AVP 专用车载计算平台。 应用的计算加速。 赛灵思 - 戴姆勒 合作 MBUX 车载系统 XA Zynq®UltraScale MPSoC 产品列表: 国 Zynq UltraScale+ MPSoC 5EV 器 件 而 量 产 的 中 MBUX 车 载 系 统(interior assistant) 利 用 可编辑逻辑 (PL) 人工智能(AI)快速准确地识别车主的身份、情绪、 手势以及车内偏好等,让车辆可以预测驾驶员和乘 客的需求,并且无需使用任何按钮。如 “探照灯” 功 能, 用 户 晚 上 想 看 车 内 情 况,MBUX Interior assistant 可以理解用户的这个需求,用户只需伸 系统逻辑单元 内存(Mb) DSP Slice 视频代码 单元(VCU)) 最大 I/O 引脚 ZZU5EVV ZZU7EVV ZZU11EG 256 504 653 23.1 38.0 43.6 1,248 1,728 2,928 1 1 252 204 464 手臂就可自动打开或者关闭灯光来响应。MBUX 51 AI 芯片技术选型目录 处理系统(PS) 特性 所有器件 应用处理单元 实时处理单元 嵌入式和外部 CoreSight 四 核 ARM Cortex-A53 MPCore;NEON 和 单 / 双 高 精 度 浮 点; 32KB/32KB L1 Cache、 1MB L2 Cache CoreSight 双 核 ARM Cortex-R5; 单 / 双 高 精 度 浮 点;32KB/32KB L1 Cache 和 TCM 256KB 片 上 内 存 w/ECC; 外 部 DDR4; DDR3; DDR3L; LPDDR4; LPDDR3; 外 部 图像处理单元 ARM Mali 应用处理单元 CoreSight 四 核 ARM Cortex-A53 MPCore;NEON 和 单 / 双 高 精 度 浮 点; 32KB/32KB L1 Cache、 1MB L2 Cache 【产品信息】 内存 ZU7EV ZU11EG 10 16 / / 工 人 国 中 带宽 上市 时间 能 产 功耗 智 芯片 名称 业 发 【专利状态】(未提供) 52 联 -400 MP2; 64KB L2 Cache 展 通用连接 盟 高速连接功能 Quad-SPI; NAND; eMMC 214 PS I/O; UART; CAN; USB 2.0; I2C; SPI; 32b GPIO; 实时时钟 ; WatchDog 计时 器 ; 三态计时器 4 PS-GTR; PCIe Gen1/2; Serial ATA 3.1; DisplayPort 1.2a; USB 3.0; SGMII / / 2019.11 2019.11 深度学习计算能力 INT8 / / FP16 / / 工艺 FP32 16 nm / UltraScale / 终端 【技术概述】 展 联 盟 4.2.2 NVIDIA - NVIDIA DRIVE 的应用程序,NVIDIA 也一直致力于实现安全的自 发 动驾驶。 DRIVE AGX Pegasus 和 DRIVE AGX 【产品特征 / 技术特点】 台, 由 自 动 驾 驶 处 理 芯 片 Xavier 构 成。Xavier DRIVE AGX Pegasus 采 用 基 于 两 个 NVIDIA Xavier 处理器和两个新一代 TensorCore 能 产 拥有超过 90 亿个晶体管,可以处理海量数据。 业 Xavier 是 NVIDIA DRIVE 自动驾驶运算硬件平 Xavier SOC 专为 AI 超级计算而打造。 GPU 的架构,实现了超快速的深度学习性能(达 【技术指标】 到 320 TOPS)。这台高能效、高性能的 AI 计算 自动驾驶处理芯片 Xavier 内置六种处理器: 智 ISP(图像信号处理器)、VPU(视频处理单元)、 机同时运行一系列深度神经网络,设计为安全处理 高度自动化的驾驶和全自动驾驶。 DRIVE AGX Xavier 提供 30 TOPS 的性能, PVA(可编程视觉加速器)、DLA(深度学习加 工 速器)、CUDA GPU 和 CPU,每秒可进行近 40 人 万亿次运算,深度学习 30 万亿次。这一处理水平 比上一代 DRIVE PX2 参考设计要强大 10 倍,可 功耗为 30 瓦。Xavier SoC 在设计上注重安全性, 它包含六种不同类型的处理器,可高效运行多种冗 余性深度学习算法。 【专利状态】(未提供) 国 应用于先进的生产车型中。 【应用案例】 中 Xavier 系统级芯片架构适用于自动驾驶汽车 【产品信息】 运算平台名称 功耗 内存 带宽 上市时间 深度学习计算能力 INT8 FP16 FP32 工艺 DRIVE AGX Pegasus 300W LPDDR4 + GDDR6 1 TB/s 2018 年 11 月 320 TOPS 12nm DRIVE AGX Xavier 30W 16 GB 256-bit LPDDR4 137 GB/s 2018 年 11 月 30 TOPS 12nm 53 能 产 业 发 展 联 盟 AI 芯片技术选型目录 4.3 安防、机器人、车载 【技术概述】 工 智 4.3.1 深圳云天励飞技术有限公司 面向计算机视觉的深度学习神经网络处理器 人 (以下简称 DeepEye1000)是一款面向视 国 觉的,自主可编程,用于深度学习神经网络推理加 速的,高性能异构 SoC 处理器芯片。 中 【技术指标】 云天励飞自主产权神经网络处理器(NNP) 采用自研 ASIP 深度定制指令集,支持灵活可编 推理计算加速; 采用阿里平头哥玄铁处理器(CPU)负责整 个 SoC 系统的任务调度和分配;视觉数字信号处 理器(DSP)负责通用 OpenCV 视觉处理算法执 行;视频编码,图像编解码负责完成 H.265/H.264/ MJPEG 等多种格式的视频及图片解码功能; DeepEye1000 支持丰富的外设接口,包括 USB3.0/USB2.0、SDIO、UART、I2C 等; 程计算流;支持混合精度,可保证算法模型精度; 为 了 方 便 DeepEye1000 的 使 用, 云 天 励 通过计算存储深度融合,配合智能算子引擎、动 飞 为 DeepEye1000 提 供 了 基 于 TVM 打 造 的 芯 态任务调度、高效存储调度,可以大幅减少外部 片工具链和软件开发包(SDK),支持 Caffe, 存储访问带宽,可以高效执行各种深度算法的推 MxNET,TensorFlow,ONNX 等深度学习框架, 理计算,实现高性能、低功耗的 CNN 网络模型 支持一键部署; 54 终端 【应用案例】 能 产 业 发 展 联 盟 1.DeepEye1000 智能视觉后置协处理解决方案 图 1 DeepEye1000 智能视觉协处理解决方案 说明: (1)DeepEye1000 作为协处理器协助主控芯片完成视频流或图像的 AI 处理能力; 智 (2)通过 MIPI,BT1120,USB3.0 接口接收来自主控端的实时视频流,完成对视频流的 AI 分析处 工 理,把结果通过 USB 或 SPI 接口返回给主控芯片; (3)支持最高 4K@30fps 实时视频流的视频分析处理; 人 (4)支持 YUV、RGB 和 RAW 格式的实时视频流输入; 中 国 2.DeepEye1000 智能视觉前置 AI 相机解决方案 图 2 DeepEye1000 智能视觉前置 AI 相机解决方案 55 AI 芯片技术选型目录 说明: 说明: (1)DeepEye1000 通 过 MIPI CSI 或 BT1120 接口灵活搭载前端专业成像系统,对输入 (1)支持 200 万像素、1920×1080 视频分 辨率 成像视频流进行视觉 AI 全流程分析,完成视觉的 前置化 AI 处理。处理结果通过 USB、UART 或 (2)支持人脸检测、跟踪、选优、抓拍、识别、 人脸属性分析 SPI 接口输出; (3)单场景可支持 40+ 人脸抓拍、20+ 人 脸的本地特征提取和识别 BT1120 搭载前端 3D 视觉前端,对输入深度点云 信息和 RGB 信息,进行 3D 信息复原,3D 特征 盟 过 MIPI CSI 和 (4)最大支持 5 万人脸库离线识别,识别率 大于 99% 联 (2)DeepEye1000 通 (5)支持远程人脸库管理功能 果通过 USB、UART 或 SPI 接口输出; 4.多路视频并行处理 PCI-E 加速卡 展 提取等,完成 3D 视觉的前置化 AI 处理。处理结 发 (3)DeepEye1000 把算力前置,在图像传 感器端完成实时的视觉 AI 分析,对主控 AP 选型 丰富了方案的灵活度; 能 产 (4)芯片集成基于 2D/3D 生物识别算法, 业 几乎没有要求,可以搭载到任意主控 AP,极大的 能被广泛用于人脸支付、商业零售、人脸门禁、智 慧医疗、商业零售、AI 消费电子等领域; (5)芯片开发的工具链支持其他计算机视觉 智 CNN 算法移植和应用,搭配不同的前端成像系统, 图 4 多路视频并行处理 PCI-E 加速卡 智慧物流等领域。 工 能被广泛用于如工业检测、机器人视觉、智慧医疗、 中 国 人 3.人脸识别模组方案 说明: (1)单卡槽半高半长标准小卡,被动散热 。 (2) 内 置“ 云 天 初 芯” 芯 片, 支 持 16 路 1080P 分辨率视频流的实时并行视频结构化分析, 该方案提供 DeepEye1000 全栈工具链和 SDK, 支持第三方算法模型部署,及上层 应用开发。 (3)适用于智能工业检测,边缘计算视频结 构化加速等场景。 5.边缘计算协处理方案 图 3 人脸识别模组方案 56 终端 度学习框架; (8) 支 持 Invasive 和 non-Invasive 的 通 用 Debug 架构; (9)支持处理器级联扩展、支持协处理器扩 展; (10)时钟门控、电源门控、多电压、MVT 图 5 边缘计算协处理方案 盟 等典型低功耗技术; 说明: 3.DSP 处理器 (1)支持多人像的动态抓拍、VIP 识别、人 高 600Mhz; 性分析 可提供适配不同操作系统的主控 SDK,易 于集成开发。 联 (1)双核 Vision Processor DSP,主频最 展 数统计、支持人脸、年龄、性别、人眼关注度等属 (2)32KB I-Cache/64KB ITCM/256KB DTCM; 发 (2)可广泛用于智慧门店场景下的精准营销、 (3)支持 OpenCV、OpenVX; 客流分析等。 4.视频编解码 业 【产品特征 / 技术特点】 (1)支持多路 H.264、H.265 解码,性能为 1.处理器内核 能 产 4KP30; (1) 平 头 哥 32 位 超 高 性 能 嵌 入 式 C810 CPU 玄铁处理器; (2)支持 JTAG 编解码,其中解码支持最大 16K x 16K 分辨率,编码支持最大 8Kx8K 分辨率; 5.视频输入接口 (3)L1 I/D 32KByte,L2 128KByte,主频 (1) 支持 MIPI CSI1.2 RX 4 Lane 输入接口, 智 (2)支持 16/32 位混合编码的 RISC 指令集; 最高 1.2GHz; 工 (4)单位性能 2.5DMIPS/MHz; (5)支持大端和小端模式; 人 (6)内部硬件调试模块支持片上硬件调试; (7)支持多电压、多时钟管理的低功耗技术; 最高性能为 4KP30; (2) 支 持 BT1120 视 频 输 入 接 口, 性 能 为 1080P60; (3) 支 持 SDIO 3.0 或 USB 转 WIFI 接 口 接收视频; (4)支持 USB 转 EMAC 网口接收时视频; (1)内含自研四核 NNP 神经网络处理器, 6.存储单元 中 国 2.神经网络处理器 主频最高 800Mhz; (2)自定义神经网络处理器指令集和架构; (3)支持 INT16/INT12/INT8 数据类型; (4)支持 CNN 算法所需的指令集; (1) 支 持 外 接 DDR4/DDR3/DDR3L/ LPDDR3 颗粒,最高速率 2677Mbps; (2) 支 持 SPI_NOR/SPI_NAND/EMMC/ SD 等存储接口; (5)支持 weight 参数压缩; 7.外设接口 (6)支持 feature map 压缩; (1)支持 USB3.0/2.0 Host/Device 接口; (7)支持 caffe/tensorflow/mxnet 等主流深 (2) 支 持 UART/GPIO/SPI/I2C 等 通 用 的 57 AI 芯片技术选型目录 低速接口; 8.其它说明 (1)内含多个 Temp_sensor,支持功耗动态管理; (2)支持 SPI_Nor Flash/SPI_Nand Flash SD/EMMC/USB/ 等多种 Boot 方式; (3)支持版本在线升级。 盟 【专利状态】 【产品信息】 内存 带宽 DeepEye 典型功耗 支持最大 1000 云天初芯 2W 4GB 8GBps 上市时间 2019 年 9月 支持 业 能 产 智 工 人 国 中 58 工艺 不支持 22nm 深度学习计算能力 INT8 FP16 FP32 展 功耗 支持 发 芯片名称 联 公司芯片专项发明专利近 200 件,并获得 2019 年度深圳市专利奖。 终端 4.3.2 紫光展锐 - 虎贲 T710 【技术概述】 虎 贲 T710 采 用 8 核 CPU 架 构, 由 4 颗 2.0GHz 的 Arm Cortex-A75 及 4 颗 1.8GHz 盟 的 Arm Cortex-A55 组 成, 搭 载 工 作 频 率 为 联 800MHz 的 IMG PowerVR GM 9446 图 形 处 理 器。 虎 贲 T710 包 含 了 CPU、GPU、NPU、 展 ISP、VDSP 等处理单元,为各类丰富的 AI 应用 提供了高效能、低功耗的技术基础。 CPU: 4xA75@2.0GHz + 4xA55@1.8GHz 发 【技术指标】 【应用案例】 业 虎贲 T710 已经在智能医疗,智能零售和智能 GPU: PowerVR GM 9446@800MHz 安防多个领域内得到应用。 LCD: 支持 QHD+ 分辨率 (3200x1440) 【产品特征 / 技术特点】 能 产 Camera: 支持 24M+8M/16M+16M 双摄 NPU: 3.2TOPS@INT8 主频 800MHz 网 络 制 式 : GSM/WCDMA/TDSCDMA/ TDD-LTE/FDD-LTE 通过创新的异构双核架构,虎贲 T710 的计算 能效比超过 2.5TOPS/W,并支持 INT4, INT8, 智 INT16,FP16 等多种神经网络量化方式。同时还 支持 4K@30 帧视频编解码 ,WiFi 11AC 和 BT 5.0 Bluetooth: 5.0 等多种无线连接技术。 工 WiFi: 802.11 a,b,g,n,11ac 人 【专利状态】(未提供) 国 【产品信息】 功耗 内存 带宽 上市时间 虎贲 T710 <2.3W LPDDR4X 1866 15Gbps 2019 年 8 月 中 芯片名称 深度学习计算能力 INT8 FP16 FP32 3.2 0.5 TOPS TOPS 工艺 12nm 59 发 展 联 盟 AI 芯片技术选型目录 业 4.3.3 上海海思技术有限公司 - Hi3516D V300 【技术概述】 能 产 备(如门禁、考勤、支付终端等),具有强大的 Hi3516DV300 是新一代行业专用 Smart HD IP 摄像机 SOC,其宣称在低码率、高画质、智能 智 处理和分析、低功耗等方面存在优势。 【技术指标】 【产品特征 / 技术特点】 Hi3516D V300 H.264/H.265 编解码最大宽 度 2688,最大分辨率 2688x1944。 工 Hi3516D V300 H.264/H.265 编解码最大宽 Hi3516D V300 集 成 了 第 四 代 ISP, 提 供 WDR,多级 NR,6DoF DIS 以及多种图像增强 度 2688,最大分辨率 2688x1944。 人 Hi3516D V300 集成神经网络加速引擎,处 和校正算法,从而确保了专业的图像质量。 Hi3516D V300 集成神经网络加速引擎,处 国 理性能达 1.0TOPS。 Hi3516D V300 提供 ISP 能力,提供多种图 理性能达 1.0TOPS,并集成智能计算加速引擎(含 跟踪、人脸校正)。 像处理能力。 中 【专利状态】(未提供) 【应用案例】 用于专业的端侧 IPC 相机、端侧人脸识别设 60 ISP、编解码和智能平台能力。 芯片名称 功耗 内存 带宽 上市时间 Hi3516D V300 典型 1.0W 外扩 2GB 32bit DDR3(L) DDR4 2018 年 10 月 【产品信息】 深度学习计算能力 INT8 1T FP16 FP32 工艺 T28 终端 能 产 业 发 展 联 盟 4.3.4 上海海思技术有限公司 - Hi3519A V100 【技术概述】 ISP、编解码和智能平台能力。或用于边缘计算, Hi3519A V100 是 一 款 高 性 能, 低 功 耗 4K 智 【技术指标】 【产品特征 / 技术特点】 Hi3519A V100 编解码性能 4K x 2K @ 60 工 智能 IP 摄像机 SoC。 用作多路 IPC 接入智能处理的中心。 Hi3519A V100 引 入 了 H.265 / H.264 编 fps 和 1080p @ 240 fps。 Hi3519A V100 集 成 了 第 四 代 ISP, 提 供 人 码和解码,性能 4K x 2K @ 60 fps 和 1080p @ 240 fps。 Hi3519A V100 集成了第四代 ISP,并 国 提供低功耗工艺和架构设计。Hi3519A V100 提 WDR,多级 NR,6DoF DIS 以及多种图像增强 和校正算法,从而确保了专业的图像质量。 Hi3519A V100 集 成 了 NNIE、DSP、CPU 供共 2T 智能算力。 等多核智能处理平台,提供 2T 智能算力。 中 【应用案例】 用 于 专 业 的 端 侧 IPC 相 机, 具 有 强 大 的 【专利状态】(未提供) 【产品信息】 芯片名称 功耗 内存 带宽 上市时间 Hi3519A V100 典型 1.9W 外扩 4GB DDR4/ DDR4 /LPDDR4/ SDRAM 2018 年 7月 深度学习计算能力 INT8 2T FP16 FP32 工艺 T12 61 AI 芯片技术选型目录 4.3.5 上海海思技术有限公司 - Hi3559A V100 【技术概述】 【产品特征 / 技术特点】 Hi3559A V100 是专业的 8K 超高清智能摄 Hi3559A V100 支持多通道 4K 传感器输入, 多通道 ISP 图像处理,HDR10 技术标准以及多通 【技术指标】 道全景硬件拼接。 当支持 8K30 / 4K120 视频输 入时,Hi3559A V100 提供了 6 轴 DIS。 联 它支持具有广播级图像质量的 8K30 / 4K120 盟 像机 SoC。 Hi3559A V100 提供高效且丰富的计算资源, 数字视频录制,支持多个传感器输入以及 H.265 V100 提供出色的图像处理能力。Hi3559A V100 展 ISP,并采用了低功耗工艺和架构设计。 Hi3559A 集成了双核 A73 处理器和双核 A53 处理器以及 big.LITTLE 架构和双操作系统,实现了功耗与启 动时间之间的平衡。 发 编码输出或电影级原始数据输出。 它集成了高性能 Hi3559A V100 集 提供共 4T 智能算力。 【专利状态】(未提供) 能 产 能平台能力。或用于边缘计算,用作多路 IPC 接 入智能处理的中心。 智 【产品信息】 功耗 Hi3559A V100 典型 3W 内存 带宽 上市时间 外扩 8GB 64-bitDDR4/ LPDDR4 2018 年 1月 人 工 芯片名称 国 业 算力。 用于端侧 IPC 相机,具有 ISP、编解码和智 中 了 NNIE、DSP、 CPU、GPU 等多核智能处理平台,提供 5T 智能 【应用案例】 62 成 深度学习计算能力 INT8 4T FP16 FP32 工艺 T12 终端 4.3.6 上海海思技术有限公司 - Hi3562 V100 【技术概述】 【产品特征 / 技术特点】 Hi3562V100 是一颗面向车载行车记录仪、 流 媒 体 后 视 镜 等 领 域 推 出 的 高 性 能、 低 功 耗 的 低功耗,典型场景(1080p30 输入和 H.265 编码)功耗 0.6W。 提供最高 0.5T 的神经网络计算能力,提供神 【技术指标】 盟 Camera SOC。 经网络加速,支持目标检测与识别等智能功能。 2F-WDR 输入。 支持 MIPI 显示屏输出,支持流媒体后视镜等 级降噪及多种图像增强和矫正算法,为客户提供专 应用。 支持快速启动。 发 业级的图像质量;并提供 0.5TOPS 的神经网络加 速器,以支持轻量智能业务。Hi3562V100 采用 【应用案例】 能 产 用于车载行车记录仪、流媒体后视镜等领域。 【产品信息】 Hi3562 V100 典型 0.6W 内存 带宽 上市时间 外扩 128MB~4GB DDR3L 16bit DDR3L 2020 年 3月 智 功耗 深度学习计算能力 INT8 0.5T FP16 FP32 工艺 T28 中 国 人 工 芯片名称 【专利状态】(未提供) 业 28nm 低功耗工艺,符合 AECQ100 相关认证要求。 展 编解码;集成了海思第四代 ISP,支持 WDR、多 联 支 持 2F-WDR, 支 持 1920x1080@30fps Hi3562V100 支 持 1080p30 H.265/H.264 63 AI 芯片技术选型目录 4.3.7 上海海思技术有限公司 - Hi3566 V100 【应用案例】 Hi3566V100 是一颗面向车载行车记录仪、 用于车载两路路输入,如行车记录仪、DMS 驾驶员状态监控等领域推出的高性能、低功耗的 等场景。 Camera SOC。 【产品特征 / 技术特点】 【技术指标】 盟 【技术概述】 支 持 双 路 sensor 输 入, 支 持 双 路 联 1920x1080@30fps 输入。 H.264 编 码; 集 成 了 海 思 第 四 代 ISP, 支 持 网络加速,支持目标检测与识别等智能功能。 为客户提供专业级的图像质量;并提供 1TOPS 的 神 经 网 络 加 速 器, 以 支 持 轻 量 智 能 业 务。 展 WDR、 多级 降噪及多种 图像增强和 矫正算法, 提供最高 1T 的神经网络计算能力,提供神经 支持 MIPI 显示屏输出,支持流媒体后视镜等 应用。 低 功 耗, 典 型 场 景( 双 路 1080p30 输 入 和 业 Hi3566V100 采 用 28nm 低 功 耗 工 艺, 符 合 发 Hi3566V100 支 持 双 路 1080p30 H.265/ AECQ100 相关认证要求。 H.264 编码)功耗 <1W。 【专利状态】(未提供) 【产品信息】 功耗 内存 带宽 上市时间 外扩 32bit 2020 年 256MB~4GB DDR3L 3月 工 智 芯片名称 能 产 支持快速启动。 Hi3566 典型 <1W 中 国 人 V100 64 深度学习计算能力 INT8 1T FP16 FP32 工艺 T28 终端 4.3.8 上海海思技术有限公司 - Hi3568 V100 【技术概述】 景,典型场景是多路环视、辅助泊车等。 Hi3568V100 是针对车载多路输入、高算力 【产品特征 / 技术特点】 等需求设计的 SOC。 支持多路视频输入,最大 5 路 1080p30 输入 【技术指标】 神经网络运算能力,1.5TOPS INT8 运算能 Hi3568V100 它 提 供 了 5 路 输 入, 高 性 能 力。 互联扩展接口,支持 USB3.0 和 PCIe2.0 高 供了卓越的图像处理能力。Hi3568V100 提供了 速接口。 展 高效且丰富的计算资源,支撑辅助驾驶类应用。 提供视觉计算处理能力,支持硬件深度信息处 Hi3568V100 集 成 了 双 核 A53,DSP 及 高 算 力 【应用案例】 【专利状态】(未提供) 能 产 用于车载多路输入,ADAS 高算力需求的场 发 FinFET 工艺,符合 AEC-Q100 认证要求。 理,及其他视觉处理加速力。 业 的 深 度 学 习 硬 件 加 速 引 擎。Hi3568V100 采 用 【产品信息】 功耗 内存 带宽 Hi3568 V100 典型 外扩最大 LPDDR4 1.9W 4GB 上市时间 2020 年 6月 深度学习计算能力 INT8 1.5T FP16 FP32 工艺 T12 中 国 人 工 智 芯片名称 联 ISP 处 理, 支 持 H.264/H.265 编 码, 为 用 户 提 盟 (2F line-mode WDR 融合后)。 65 AI 芯片技术选型目录 4.3.9 上海海思技术有限公司 - Hi3569 V100 【技术概述】 【应用案例】 Hi3569V100 是针对车载多路输入、高算力 用于车载多路输入、ADAS 高算力需求的场 景。 【技术指标】 【产品特征 / 技术特点】 处理,支持 H.264/H.265 编码,为用户提供了卓 支持多路视频输入。最大支持 8 路 1080 输入, 且支持硬件拼接。 越的图像处理能力。 神经网络运算能力 4TOPS INT8 运算能力。 支撑辅助驾驶类应用。Hi3569V100 集成了双核 互联扩展接口。支持 USB3.0 和 PCIe2.0 高 速接口。 理及其他视觉处理加速。 【产品信息】 功耗 内存 Hi3569 V100 典型 3W 外扩最大 8GB 工 人 国 带宽 上市时间 64bit LPDDR4 2020 年 6月 智 芯片名称 能 产 AEC-Q100 相关认证要求。 【专利状态】(未提供) 业 Hi3569V100 采 用 FinFET 工 艺, 符 合 中 提供视觉计算处理能力。支持硬件深度信息处 发 A73 和双核 A53,DSP,GPU 及高算力的深度学 习智能分析引擎。 展 Hi3569V100 提供了高效且丰富的计算资源, 66 联 Hi3569V100 提供了 8 路输入,高性能 ISP 盟 等需求设计的 SOC。 深度学习计算能力 INT8 4T FP16 FP32 工艺 T12 终端 4.3.10 北京清微智能科技有限公司 - TX510 【技术概述】 可重构计算智能处理芯片,支持视觉、语音等 盟 多模态智能处理。 【技术指标】 联 1 典 型 功 耗 为 400mW, 峰 值 算 力 达 1.2TOPS@INT8 展 2 支持混合精度计算和稀疏神经网络 3 AI 计 算 有 效 能 效 比 达 5.6TOPS/W@ 发 INT8。 人脸识别门锁:基于 3D 的活体分析、安防 ■ 集成度高 (AIE、3DE、ISP、H264 等 ) 能 产 级人脸识别算法,达到亿分之一误识别 ( 识别率 业 【应用案例】 90%) 的金融级安全,待机功耗小于 10uW,典型 功耗小于 450mW,在平均每天开锁 20 次的极端 情况下,8 节 5 号电池也可使用超过 1 年时间。启 功 耗 小 于 450mW)、AI 算 力 强(1.2TOPS@ INT8),能效比高 智 动时间小于 100ms+,识别时间小于 1 秒,免接 触体验。 ■ 芯片加密支持国密算法 ■ 开发简单,性价比高。 【专利状态】 工 【产品特征 / 技术特点】 ■ 超 低 功 耗 ( 待 机 功 耗 小 于 10uW, 峰 值 申请发明专利 120 项,已获授权 55 项 国 人 ■ 内置 3D 引擎(3D 结构光、TOF) 中 【产品信息】 芯片名称 功耗 TX510 工作模式 400mW 内存 带宽 128MB 7.464GBytes/s 上市时间 2020 年 7月 深度学习计算能力 INT8 FP16 FP32 1.2TOPS@600MHz 工艺 T C28HPC+ 67 业 发 展 联 盟 AI 芯片技术选型目录 能 产 4.4 手机 智 4.4.1 华为技术有限公司 - Kirin 990 5G 处理器 中 国 人 工 【技术概述】 68 终端 kirin 芯片中的 NPU 采用了华为的自研 NPU 经网络模型下,麒麟 990 5G 可以支持 90% 的开 架 构, 内 部 细 分 成 很 多 单 元, 包 括 核 心 的 3D 源模型。 Cube、Vector 向量计算单元、Scalar 标量计算 【应用案例】 单元等,它们各自负责不同的运算任务实现并行化 数据经过矩阵运算后,结果输出到 Buffer L0C 中, 然后输送到 Vector 向量计算单元完成向量计算, 类 似 DSP, 主 要 是 池 化(pooling)/padding、 盟 许多智慧特性运行在 NPU 上,如:场景识别、美 联 是 AI 计算的核心,这部分运算由 3D Cube 完成。 目前该芯片已经应用在华为多款手机中,并有 食分类,人脸检测,人脸识别,人像留色等应用; kirin NPU 通 过 HiAI Foundation/HiAI Engine/ 展 计算模型,共同保障 AI 计算的高效处理;矩阵乘 HiAI Service 三层接口对外开放;目前已经开放 8 大类 30+ 个 Engine; 元负责标量运算,这里主要是前面 Cube、Vector 应用使能 kirin NPU 的能力,使得应用更加智能, 增强应用的用户体验。 【产品特征 / 技术特点】 能 产 等指令的地址和参数计算以及基本的算术运算,同 HiAI 已经与 15+ 应用厂商展开合作,让这些 业 果,会传输给 Unified Buffer。Scalar 标量运算单 发 BN 运算、激活,加法等处理,如果得到最终的结 时还负责整个程序的循环控制和分支判断等工作, 它的最终结果也会输出到 Unified Buffer。 目前 kirin NPU 可以支持超过 300 个 AI 算子 核架构。 【专利状态】(未提供) 智 数量,支持 Tensorflow/Caffe/Android NN 框架, Kirin 990 5G 上,NPU 采用了 2 大核 +1 微 【产品信息】 - 国 Kirin 990 5G 处理器 功耗 内存 人 芯片名称 工 也支持 IR 算子对接到第三方框架,在视觉计算神 带宽 4x 16bit DDR: 34.128 GB/ LPDDR4x S @2133MHZ 上市时间 2019 年 9 月 深度学习计算能力 INT8 FP16 FP32 - - - 中 (Kirin 980 于 2019 年 3 月参与 AIIA DNN benchmark v0.5 评测。 工艺 N7+ ) 69 AI 芯片技术选型目录 人 工 智 能 产 业 发 展 联 盟 4.4.2 高通信息科技(上海)有限公司 高通骁龙 865 移动平台 国 【技术概述】 高通骁龙 865 移动平台是面向 5G 旗舰终端 中 的最新一代平台。7nm 工艺,5G 调制解调器及射 频系统可以提供 7.5 Gbps 的峰值速率,支持广网 络覆盖、数据快速传输和全天电池续航。全新第五 代 Qualcomm AI Engine 可实现每秒 15 万亿次 运算。 【技术指标】 1.AI: 骁 龙 865 全 系 统 AI, 包 括 CPU、 70 GPU、Hexagon 处 理 器、ISP、Qualcomm 传 感器中枢(Sensing Hub)、安全处理单元、调 制解调器,甚至 Quick Charge 等等。其 GPU 上 改善了浮点运算和 AI 性能,将 TOPS 提升两倍, 实现每秒 15 万亿次运算(15 TOPS)。同时,在 Hexagon 处理器上通过全新张量加速器将 TOPS 提升 4 倍。GPU 实现的 AI 计算最主要是 16 位和 32 位浮点运算,而 Hexagon 支持的是 8 位和 16 位的定点运算。同时开发的深度学习带宽压缩技术 能够对这些海量数据进行 50% 的压缩,将需要进 终端 入到芯片处理的数据压缩一半,以节省电能、降低 Gaming 特性,骁龙 865 提供移动游戏性能和端 功耗。这是一项完全无损的压缩技术。 游级渲染品质,实现超流畅游戏体验。 【应用案例】 可支持 7.5 Gbp 的峰值速率。该 5G 全球解决方 6GHz 以下 TDD 和 FDD 频段。其中,骁龙 865 智能手机 【产品特征 / 技术特点】 1、从调制解调器到天线的完整 5G 解决方案 能够在商用智能手机中实现毫米波支持,此外, 2、5G 毫米波 它 还 支 持 NSA 和 SA 组 网 模 式、 动 态 频 谱 共 享 3、5G 6GHz 以下 200MHz 载波聚合 (DSS)、全球 5G 漫游,并支持多 SIM 卡。支 4、十亿像素级 ISP 持实时双 Wi-Fi 6 技术。 展 5、拥有 15 TOPS 算力的第五代 AI Engine 3. 拍 摄: 骁 龙 865 集 成 了 Spectra 480 6、持久稳定的图形性能 ISP,支持以每秒 20 亿像素的速度处理专业品质 发 7、顶级游戏特性 的照片和视频。Spectra 480 ISP 处理速度支持骁 8、实时双 Wi-Fi 6 龙 865 实现拍摄特性包括:8K 视频拍摄、杜比视 9、蓝牙超宽带语音 业 界(Dolby Vision)视频拍摄、2 亿像素的照片拍摄、 10、支持 5G 全球部署的商用解决方案 能 产 以及 960FPS 不限时慢动作视频拍摄。 4. 游 戏: 借 助 新 一 代 Snapdragon Elite 功耗 内存 高通骁龙 865 5G 移 动 平台 - 人 芯片名称 工 智 【产品信息】 - 盟 案支持所有关键地区和主要频段,包括毫米波以及 联 2. 5G:骁龙 X55 5G 调制解调器及射频系统 带宽 上市时间 - 2019 年 12 月 【专利状态】(未提供) 深度学习计算能力 INT8 FP16 FP32 √ √ √ 工艺 7nm ) 中 国 (注:骁龙 855 移动平台于 2019 年 6 月参与 AIIA DNN benchmark v0.5 测试 71 AI 芯片技术选型目录 4.5 语音 业 发 展 联 盟 4.5.1 成都启英泰伦科技有限公司 人工智能语音识别降噪一体芯片 CI1103 能 产 【技术概述】 人工智能语音识别降噪一体芯片 CI1103 基 于 NPU+MCU 架构设计,内置公司自主研发的脑 智 神经网络处理器 BNPU,降噪等硬件算法模块, 可实现噪声抑制、混响消除、回声消除、声纹识别、 工 波束成形,声源定位、本地自学习等丰富功能。在 应用上,该款芯片集成多路 UART、I2C、GPIO 人 等外围控制接口,可开发低成本的单芯片智能语音 离线识别方案。同时,可外接 WIFI、蓝牙等无线 国 模块,实现本地 + 云端语音方案。 中 【技术指标】 该款芯片主要有以下七项技术指标: 1.自主研发脑神经网络处理器内核 BNPU, 可独立进行语音信号的 DNN 神经网络计算,实现 语音神经网络识别、端点检测等功能。该内核最大 支持 6 个隐含层,每层 512 个神经元节点的运算, 可以对 16KHz 的 连续语音数据进行神经网络计算 处理; 72 2.自主研发降噪硬件算法模块,支持 1-2 路 麦克风远场输入,可以实现噪声抑制、混响消除、 回声消除等算法效果,最大支持 80dB 噪音抑制效 果; 3.支持 beamforming、DOA、本地自学习 等算法; 4.自主研发 UART、SPI、PWM 等芯片外 设控制接口,可以实现最高 1MBps 的串口通信, 并可对接 Wi-Fi、BT、2.4G、433、zigbee 等通 讯协议; 5.自主研发多核 SOC 并行处理芯片架构, 将脑神经网络处理器内核、降噪硬件算法模块和 ARM 的 Cortex-M4F 应用处理器内核及芯片外 设控制接口结合,实现多核 SOC 单芯片,采用 55nm 工艺技术,系统主频为 160MHz; 6.开发芯片所需的智能语音算法,能实现本 地 5 米远场语音识别功能,在环境噪音 40dB 时标 准语音普通话输入时识别率可达 95%,声纹识别 准确率大于 90%; 终端 7.该芯片可开发软硬件开发工具套件,并形 工作流程是:人发出语音指令,通过麦克风将 成丰富的应用参考解决方案。 语音输入,智能语音模组进行识别,通过 UART/ 【应用案例】 SPI 串口发送本地语音识别结果至家电主控模组, 1.“云 + 端”智能家电解决方案 家电根据收到的信号开启不同的工作模式。 能 产 业 发 展 联 盟 下图是应用框图: 方案原理是:智能语音模组内置一个红外码 多种格式的流媒体音频播放并随时打断;可通过 库,每个红外信号有相对应的语音命令词,当语音 SDIO 外接射频 WIFI/BLE 等,从而连接云端,将 模组接收到语音信号时,便转化为相应红外信号向 本地语音识别响应快、安全性高的优点和云端丰富 外发射,实现对设备(带红外遥控功能)的控制。 资源的优点结合起来,并可进行 OTA 升级;外接 该方案可应用于家居中控、开关面板、插座、 智 本应用方案支持 AEC(回声消除),可实现 工 Nor Flash,可用于保存用户数据。 家电单品等。比如“智能语音中控小艾”,通过红 外学习,即可匹配灯具、电视机、空调、风扇、窗 2.智能语音红外解决方案 帘等家居设备,替换家中的手动红外遥控器,同时 下图是应用框图: 实现对多种设备的语音控制功能。 3.声纹识别解决方案 声纹识别原理图如下: 中 国 人 本方案可应用于油烟机、冰箱、微波炉等家电。 73 AI 芯片技术选型目录 操作流程是:用户首次使用时,说出唤醒词, 块, 硬 件 音 频 处 理 模 块, 多 路 UART、I2C、 系统检测并提取用户的语音特征,从而得到该用户 SPI、PWM、GPIO、SDIO 等 外 围 接 口, 极 大 的声纹模型。当用户再次使用时,说出唤醒词或命 降低了方案模组的硬件成本,模组成本约为同类 令词,系统即可匹配该声纹模型。该功能用于区分 NPU+MCU 芯片的 1/2; 不同的角色,实现“听声识人”,让系统针对每个 人提供不同的内容与服务。 4.快响应:本地离线识别,极速响应,最快 仅需 0.2s,提升了用户体验感; 5.多功能:支持本地语音识别(300 词条以 盟 该方案可应用于声纹锁、智能音箱、智能安防 上),本地 + 云端语音识别、中文(普通话、方言) 【产品特征 / 技术特点】 / 英文 / 日文识别、声纹识别、自然语义理解、语 音合成、回声消除等; 展 人工智能语音识别降噪一体芯片 CI1103 是 6.高可靠性:采用工业级设计,满足家电行 为 NPU+MCU 架构芯片,主要有以下六个特征: 进 行 高 性 能 神 经 网 络 并 行 计 算, 相 当 于 数 十 个 公司基于人工智能语音识别降噪一体芯片 CI1103 的相关研究成果共申请了 86 篇专利,其 3. 高 集 成 低 成 本: 集 成 Audio Codec 模 中发明专利 38 篇,实用新型 40 篇,软件著作权 功耗 人工智能语音 待机功耗: 识别降噪 一体芯片 CI1103 30mw 工作功耗: 100mw; 人 工 芯片名称 智 3 篇,集成电路布图 5 篇。 【产品信息】 国 【专利状态】 能 产 特色低功耗设计,待机功耗最低只有 30mw,工作 业 2.低功耗:基于 VAD 的低功耗芯片架构和 中 环境下运行 22 天,实验结束后不能有任何品质问 题)。 CPU 并行计算能力; 74 业“双 85”标准要求(温度 85℃、湿度 85% 的 发 1.高算力:采用自主专利技术 2 代 BNPU 功耗 100mw; 联 等产品。 内存 带宽 512KBSRAM; 1Gbps 2MBDRAM 上市 时间 2019 年 9月 深度学习计算能力 INT8 FP16 FP32 √ √ √ 工艺 55nm 终端 4.5.2 上海深聪半导体有限责任公司 人工智能语音芯片 【技术概述】 深聪智能太行芯片是根据思必驰对语音交互算 盟 法的掌握及对市场的理解,自主定义开发的一款芯 片 + 算法的人工智能人机语音交互的解决方案。可 联 实现 AI 关键字和指令识别,低功耗唤醒。第一款 芯片型号为 TH1520。 展 【技术指标】 发 在设计理念方面,TH1520 的主要关注点在于 良好的用户体验和产品开发的灵活性。在设计方法 方案的性能和能效有了大幅度的提升。 1.芯片特征 能 产 1. 低功耗:待机状态功耗毫瓦级,全速工作 【产品特征 / 技术特点】 业 方面,由于采取了软硬融合的方法,使得 TH1520 功耗在百毫瓦级。 (1) 双核增强型 DSP,含定制语音信号处理 专用指令集 2. 离线识别:支持 200 条以上指令的离线 识别,可以全离线应用。 智 3. 片内存储:存储完全内置,节省成本和总 体功耗。 工 4. 部署特点:提供算法 + 芯片的方案,支持 快速将产品推向市场。 人 5. 适用性:多种接口,功耗模式,麦克风阵 列灵活组合,适用各种场景。 国 【应用案例】 中 应用方向主要有智慧家居、智能硬件终端、车 载、手机、可穿戴设备等,聚焦于物联网语音芯片 主战场。 目前第一款芯片已经用在智能家居场景,白电 如智能空调,智能冰箱,智能洗衣机。黑电如智能 电视,机顶盒。其他如晾衣架,取暖桌,Pad 等。 在疫情期间也提供了智能语音电梯解决方案, 为非接触式场景提供了语音交互层面的解决方案。 (2) 专用的 AI 语音识别引擎 (3) 大容量片内静态存储 (4) 多通道音频编解码器,最高支持 6 + 2 通道语音同步采集 (5) 支持全部标准音频格式,支持广域的采 样率范围 (6) 支持主流接口:USB/SPI/UART/I2C/ I2S/GPIO (7) 可配置低功耗模式 2.算法特征 (1) 最高支持 6+2 通道语音同步采集,通 道间延时小于 10ns (2) 语音端点检测,召回率:>99%,精度: >90% (3)语音降噪,消除平稳和短时平稳噪声, SNR 增益:>15dB (4) 支持多达 6mic+2ref 的语音回声消除, 75 AI 芯片技术选型目录 SNR 增益:>40dB (7) 声纹验证和声纹识别,召回率 / 精度 : (5) 波束成形,目标信号增强和干扰抑制, >95%/>97% SNR 增益:>15dB (8) 本地语音识别,识别率 >95% 【专利状态】 (6)语音侦听和目标语音唤醒,召回率: >95%, 误唤醒率:<1 次 /48 小时 集成电路布图证书 2 个,软著申报 15 个,其 内存 带宽 TH1520 200mW 3MB 3.2GB/S 上市时间 2019 年 1月 INT8 深度学习计算能力 FP16 FP32 16GOPS 2GOPS 联 功耗 2GOPS 中 国 人 工 智 能 产 业 发 展 芯片名称 盟 他专利申报中 6 个。 【产品信息】 76 工艺 40nm 终端 能 产 业 发 展 联 盟 4.5.3 北京清微智能科技有限公司 - TX210 【技术概述】 TX210 语音芯片,支持本地唤醒和离线命令词识 采用可重构计算架构的智能语音芯片,适应于 智 【技术指标】 令词列表,适用于不同的家居场景。 【产品特征 / 技术特点】 工 对功耗要求严苛的场景。 别,识别率超过 95%。超长待机,可自由配置命 1 工作功耗 450uW,VAD 功耗 200uW; ■ 支持离线语音唤醒和多命令词识别 ■ 支持远场语音双麦降噪和回声消除 人 2 唤醒率超过 95% ■ 支持人声检测功能(VAD),降低长时 【应用案例】 国 间静默功耗 1 TWS 耳机:采用清微语音芯片 TX210, 中 该 耳 机 支 持 always-on 语 音 唤 醒, 唤 醒 识 别 率 95%,误识别率小于 24 小时一次。TWS 耳机可 保持长达 40 小时的待机时长。 2 智 能 家 居: 采 用 清 微 智 能 自 主 研 发 的 ■ 支持声纹识别,安全性高 ■ 支持一语直达,可以保存 3s 的语音数据 【专利状态】 申请发明专利 120 项,已获授权 55 项 【产品信息】 芯片名称 功耗 内存 带宽 上市时间 TX210 工作模式 450uW 700KB 3200 Mbps 2019 年 6月 深度学习计算能力 INT8 FP16 12.8GOPS @100MHZ FP32 工艺 T 40nm 77 AI 芯片技术选型目录 4.6 小结 公司名称 NVIDIA 芯片名称 功耗 Jetson Nano 5W | 10W Jetson TX2 Jetson Xavier NX Jetson AGX Xavier Jetson AGX Xavier 华为技术有限公司 4 GB64 25.6GB/s 7.5W | 15W -bit LPDDR4LPDDR4 8 GB128-bit LPDDR4 58.4GB/s 10W |15W 8 GB128-bit LPDDR4 51.2 GB/s 16GB 256- 10W |15W |30W 137GB/s bit LPDDR4 10W |20W 8GB 256-bit LPDDR4 85GB/s 昇腾 310AI 处理器 "8Tops@4W16 Tops@8W" LPDDR4X 2*64bit @3733MT/S RK1808 3W RK3399Pro 10W Iluvatar CoreX I 峰值 5W ZU7EV ZU11EG DRIVE AGX 10 16 盟 用 带宽 联 通 内存 "LPDDR2/ 14.9GBytes/s 8GB 273GB/s / / / / 300W LPDDR4 + GDDR6 1 TB/s 30W 16 GB 256 -bit LPDDR4 137 GB/s 典型功耗 2W 支持最大 4GB 8GBps <2.3W 典型 1.0W LPDDR4X 1866 外扩 2GB 典型 1.9W 外扩 4GB Hi3559A V100 典型 3W 外扩 8GB 15Gbps "32bitDDR3(L)DDR4" D D R 4 / D D R 4 / LPDDR4/SDRAM "64-bit DDR4/LPDD R4" Hi3562 V100 典型 0.6W Hi3566 V100 Hi3568 V100 Hi3569 V100 TX510 瑞芯微电子股份有限公司 Pegasus DRIVE AGX Xavier DeepEye1000 云 天初芯 虎贲 T710 Hi3516D V300 NVIDIA 工 Hi3519A V100 上海海思技术有限公司 国 人 安防、 机器人、 车载 智 深圳云天励 飞技术有限公司 紫光展锐 北京清微智能 科技有限公司 中 终 端 能 驾 驶 能 产 赛灵思 智 手 机 语 音 78 Kirin 990 5G 处理器 高通信息科技(上海) 高通骁龙 TM865 有限公司 移动平台 人工智能语音 成都启英泰伦科技有限 识别降噪 公司 一体芯片 CI1103 上海深聪半导体有限责 TH1520 任公司 北京清微智能科技有限 TX210 公司 华为技术有限公司 发 公司 LPDDR3-1866/ LPDDR4 业 上海天数智芯科技有限 6.4GBytes/s 展 LPDDR3DDR3/ DDR3L/DDR4" 双通道 DDR3-1866/ DDR3L-1866/ 典型 <1W 典型 1.9W 典型 3W 外扩 128MB ~4GB DDR3L 外扩 256MB~4GB 外扩最大 4GB 外扩最大 8GB 32bit DDR3L LPDDR4 64bit LPDDR4 工作模式 400mW 128MB 7.464GBytes/s - 4x 16bit LPDDR4x @2133MHZ DDR: 34.128 GB/S 待机功耗:30mW; 工作功耗:100mW 512KBSRAM; 2MBDRAM 1GB/s 200mW 3MB 3.2GB/s 工作模式 450uW 700KB 3200Mbps 16bit DDR3L 终端 深度学习计算能力 FP32 2019 年 3 月 0.5 TFLOPS 2017 年 3 月 1.3TFLOPS 2019 年 11 月 14|21TOPS 2018 年 12 月 32TOPS 16TFLOPS 2019 年 19.3TOPS 9.6TFLOPS 2019 年 16TOPS 8T 2019 年 6 月 3TOPS 100 GFLOPS FP64 TF32 FP64 工艺 Tensor Core 盟 FP16 12nm FFC 联 INT8 300 GOPS (INT16) 22nm 3TOPS 0.3T 0.1T 2019 年 10 月 NA 4.8T NA 2019 年 11 月 / / / 2019 年 11 月 / / / 2018 年 11 月 320 TOPS 2018 年 11 月 30 TOPS 2019 年 9 月 支持 支持 2019 年 8 月 2018 年 10 月 3.2TOPS 1TOPS 0.5TOPS 2018 年 7 月 2TOPS 2018 年 1 月 4TOPS T12 2020 年 3 月 0.5TOPS T28 1TOPS 1.5TOPS 4TOPS 1.2TOPS @600MHz T28 T12 T12 中 2020 年 7 月 业 能 产 智 不支持 28nm T16 16 nm UltraScale 16 nm UltraScale 12nm 12nm 22nm 12nm T28 工 T12 国 2020 年 3 月 2020 年 6 月 2020 年 6 月 发 2018 年 1 月 人 展 上市时间 T C28HPC+ 2019 年 9 月 N7+ 2019 年 12 月 √ √ √ 7nm 2019 年 9 月 √ √ √ 55nm 2019 年 1 月 16GOPS 2GOPS 2GOPS 40nm 2019 年 6 月 12.8GOPS @100MHZ T 40nm 79 盟 联 展 发 业 中 国 人 工 智 IP 技术 能 产 CHAPTER 5 IP 技术 能 产 业 发 展 联 盟 5.1 安谋科技(中国)有限公司 - 周易 AIPU 【技术概述】 台能够涵盖从微控制器(100 GOPS)到高端边 Arm 中国自主研发的 “周易” 平台,是具 智 有适配性强、开放通用等特点的人工智能平台,其 主要包括全新的硬件处理器——人工智能处理单元 【技术指标】 工 (AIPU)。 缘计算(十几 TOPS)的不同算力需求。AIPU 支 持可选的安全扩展。 【应用案例】 基于周易 AIPU 设计的芯片面向 AI 的主流应 用领域,如智能音箱 / 家电,智能门锁,智能蓝 牙耳机 (TWS),智能终端,安防,机器人,VR/ 用于深度学习处理的全新硬件 IP。这种新的架构 AR,智能商业显示器,高级辅助驾驶 (ADAS) 等 采用了统一的一套指令集实现了 AI 计算的各种功 领域。 国 人 周易人工智能处理单元(AIPU)是一个专门 目 前 已 有 国 内 AI 芯 片 头 部 企 业 基 于 周 易 定 AI 操作的指令以实现定制的硬件加速单元、以 AIPU 设计的语音识别专业芯片(NPU)即将量产, 及 AI 计算的标量指令,同时支持用户自定义硬件 为用户提供离线语音识别的强大能力,并大量应用 实现。 AIPU 可以实现人工智能应用的完全可编程 于主流智能音箱品牌。 中 能, 包含张量指令(Tensor Instructions)、特 性和很好的能效。除了 AIPU,还有完整的 AI 软 对于新开发的芯片,周易平台可以让芯片合 件开发工具包,支持 AI 算法可以 在 AIPU 上轻松 作伙伴使用周易 AIPU IP 设计新的 SoC,并提供 部署。AIPU 采用了可配置的设计,包括张量执行 了验证测试向量、参考用例和后端实现参考流程 单元(TEC)的数量和 AI 硬件加速单元,周易平 等全面支持,以加速新的 SoC 设计;同时,周易 81 AI 芯片技术选型目录 AIPU 仿真软件用于软件应用程序前期开发。 3.可选的安全扩展:有效保护用户信息,AI 【产品特征 / 技术特点】 算法 4.完整工具链 1.创新架构 (1) Build 工具和 C 编译器 (离线) :模 (1)张量:新的架构设计了 AI 特定域张量 型转换和优化,生成周易可执行文件 (一键生成) 指令集 (Tensor Instructions) (2) 运行库: Driver and Firmware (2)高能效比的专用硬件加速:特定 AI 操 盟 (3) 仿真器 和调试器 作的指令集以实现定制的硬件加速单元标量 5. 支 持 主 流 AI 框 架 (TensorFlow/ (3) 标量:用于 NN 计算所必需的通用标量 联 TensorFlow Lite/ONNX 等) 指令集 6. 丰 富 的 AI 应 用: 基 于 CPU/GPU/AIPU 展 2.PPA 最佳平衡 的应用优化;开发者社区 (1)可扩展性配置 【专利状态】(未提供) 发 (2) 高密度性能 功耗 周易 AIPU >2TOPS/ W@28nm Configurable Default 256KB 智 【补充信息】 内存 带宽 上市 时间 INT8 FP16 FP32 2~2.5 GB / TOPS 2019 年 6月 0.2 – 4TOPS n/a n/a 能 产 芯片名称 业 【产品信息】 深度学习计算能力 工艺 28nm 中 国 人 工 周易 AIPU 是一个硬件的 AI IP, 客户可以给予周易 AI IP 设计自己的覆盖 AI 全场景的 AI 芯片。 82 IP 技术 (mobile phone SOC UNISOC T710 智 【技术概述】 工 PowerVR NNA 是 Imagination 公司推出的 能 产 业 发 展 联 盟 5.2 颖脉信息技术(上海)有限公司 PowerVR NNA 神经网路加速器系列 IP ) 具与文件。PowerVR NX Mapping Tool 可实现 机器学习框架包括 Caffe 和 Tensorflow 的转换。 Series3NX 提 供 了 可 扩 展 性, 使 SoC 制 造 是一款具备支持从软件、硬件、工具全套的神经网 商能够优化汽车,移动,智能监控和物联网边缘设 人 完整、独立式的系统性硬件 IP 神经网络处理器, 备等嵌入式市场的计算能力和性能。同时也带来了 位宽的灵活调整能力。其架构可支持多种操作系统, 一些架构上改进,包括无损压缩技术,Series3NX 包括 Linux 和 Android 等等。目前最新版本为第 架构在同一硅片面积上性能比前一代产品提高 三代 PowerVR 3NX NNA 神经网络加速器 IP。 了 40 %, 使 SoC 制 造 商 的 性 能 效 率 提 高 了 近 【技术指标】 60%,带宽降低了 35%。 中 国 络系统解决方案,同时提供 16 位到 4 位高灵活度 Imagination 为开发人员提供所有必要的工 具,可快速、轻松地启用和执行其神经网络,并确 保运算带宽能与准确度平衡。PowerVR 2NX 具 有移动 Android 领域的完整支持,其开发资源包括 映射 (mapping) 和微调工具、样本网络、评估工 基 于 PowerVR 2NX IP 上 市 的 紫 光 展 锐 虎 贲 T710 芯片 计算能效比超过 2.5TOPS/W,并支持 INT4, INT8,INT16,FP16 等多种神经网络量化方式。同 时 还 支 持 4K@30 帧 视 频 编 解 码 ,WiFi 11AC 和 83 AI 芯片技术选型目录 PowerVR Series3NX 集成了通用的安全方 BT 5.0 等多种无线连接技术。 基 于 PowerVR 3NX IP 技 术 的 芯 片 将 于 案,灵活的基础架构使其可以被方便地集成到用户 2020 年下半年 tape out。 的系统级解决方案中,使数据权限持有者能够在需 【应用案例】 要时保护其内容。 【专利状态】 Imagination 专利技术 芯片,该机采用了紫光展锐虎贲 T7510,其内部 搭载了虎贲 T710 处理器 + 春藤 V510 调制解调器。 【产品信息】 T710 图 形 方 面 采 用 了 Imagination PowerVR 联 架构:PowerVR Series2NX GM 9446 GPU,主频 800Hz,满足各种使用场 Series2NX 提供了市场上高推理 / mm2,可 创建紧凑且经济高效的推理解决方案。 展 景的性能需求。在 AI 方面也采用了 Imagination PowerVR 2NX NNA 神经网络加速器 IP。内置的 (1)可扩展架构 各种处理单元,能够提供出色的 AI 性能,为各种 (2)灵活的位宽支持:作为一种完全灵活的 发 AI 场景提供了高效的性能支持。 盟 海信 5G 手机 F50 采用紫光展锐虎贲 T7510 解决方案,Series2NX 支持从 16 位到 4 位的神 【产品特征 / 技术特点】 业 经网络位宽,从而在不影响推理精度的情况下减少 了带宽并提高了性能。 能 产 可提供: 1.灵活的位宽以及数据类型支持 作为一种完全灵活的解决方案,Series3NX (3)低功耗:凭借业界领先的推理 / mW, Series2NX 以低功耗提供一流的神经网络加速。 架构: PowerVR Series3NX 和带宽资源的节省。 PowerVR Series3NX 是市场上用于神经网 智 支持从 16 位到 4 位的数据位宽,换取性能的提升 2.参数的无损压缩 络硬件加速的嵌入式解决方案。由于关键的架构增 强,3NX 系列的性能比上一代产品提高了 40%, Series3NX 引入了无损权重压缩方案, 可减少网 单核每秒可执行 10tera 的操作(TOPS),提供 络模型大小并节省带宽,从而提高整体性能。 了市场上每平方毫米超高的性能密度。 人 工 作 为 对 可 配 置 数 据 位 宽 特 性 的 补 充, 国 3.高级安全性支持 Engines 8-bit TOPs 16-bit TOPS 8-bit MACs 16-bit MACs APIs AX2145 1 1 TOPS 0.5 TOPS 512 MACs/clk 256 MACs/clk IMGDNNAPI Android NN HAL AX2185 8 2.0 TOPS 2048 MACs/clk 中 Model 84 4.1 TOPS 1024 IMG DNN API MACs/clk Android NN HAL IP 技术 (1)灵活的位宽支持 保权利持有人保护他们的内容在需要的地方。 3NX 系列产品支持从 16 到 4 位宽的神经网 (4)低功耗 络,可减少带宽和提高性能而不影响推理精度。 凭 借 业 界 高 推 理 /mW,Series3NX 以 低 功 (2)无损压缩 耗提供一流的神经网络加速。 作为对低位宽支持的补充,Series3NX 引入 PowerVR Series3NX Multi-Core Option 了一种无损权重压缩方案,它减少了网络模型的大 (3NX 系列多核选择) 由于 PowerVR Series3NX 架构的可扩展性, 盟 小和带宽,从而提高了整体性能。 多核可最多实现 160 个 TOPs,。Series3NX 将 PowerVR 3NX 系列集成了安全架构,包括 提供多种产品,使 SoC 制造商能够满足一系列设 联 (3)安全支持 8-bit MACs 16-bit MACs 发 8-bit TOPs 0.6 TOPS 256 MACs/clk 64 MACs/clk AX3145 1.2 TOPS 512MACs/clk 128MACs/clk AX3365 2.0 1024 AX3385 4.0 AX3595 10.0 业 AX3125 能 产 Model 计目标,以解决多个市场和应用程序。 展 灵活的底层基础,使其集成到自定义解决方案,确 256 512 4096 1024 APIAndroid NN HAL IMG DNN APIAndroid NN HAL IMG DNN APIAndroid NN HAL IMG DNN APIAndroid NN HAL IMG DNN APIAndroid NN HAL 工 智 2048 APIs IMG DNN Cores 8-bit TOPs 8-bit MACs 16-bit MACs UH2x40 2 20 8192 2048 UH4x40 4 40 16384 4096 UH8x40 8 80 32768 8192 UH16x40 16 160 65536 16384 中 国 人 Model APIs IMG DNNAPI Android NN HAL IMG DNNAPI Android NN HAL IMG DNNAPI Android NN HAL IMG DNNAPI Android NN HAL 85 AI 芯片技术选型目录 5.3 小结 深度学习计算能力 公司 名称 内存 带宽 INT8 FP64 FP16 FP32 FP64 TF32 Tensor AIPU /W@28nm n/a 包含 3 种设计架构:PowerVR Series2NX, (上海) PowerVR Series3NX 和 PowerVR Series3NX Multi-Core Option 架构 人 工 智 能 产 业 发 展 有限公司 86 盟 >2TOPS Configurable 2~2.5 GB 2019 年 0.2 – Default n/a / TOPS 6 月 4TOPS 256KB 联 有限公司 颖脉信息技术 周易 国 术 功耗 上市 时间 工艺 Core 安谋科技 (中国) 中 IP 技 芯片 名称 28nm 人 国 中 附录 盟 联 展 发 业 能 产 智 工 CHAPTER 5 公司名称 北京百度网讯 科技有限公司 芯片名称 功耗 内存 带宽 上市时间 百度昆仑 1 150W 16GB 512GB/s 2019 年 11 月 邃思 190W( 最大功耗 ) 16GB HBM 512GB /s 2020 年 6 月 NVIDIA A100 400W 40GB HBM2 1555 GB/s 2020 年 5 月 300W 32/16 GB HBM2 900 GB/s 2017 年 5 月 250 32/16 GB HBM2 900 GB/s 2017 年 5 月 250W 70W 32 GB HBM2 16 GB GDDR6 1134 GB/s 320+ GB/s 2019 年 11 月 2018 年 3 月 316GB/s 2019 年 8 月 77GB/s 2018 年 10 月 64GB 77GB/s 2018 年 10 月 / / 2018 年 11 月 8GB/16GB 102GB/s 2018 年 5 月 16GB 102GB/s 2019 年 6 月 68.3GB/s 2019 年 9 月 32GB/s 2020 年 6 月 上海燧原 云 AI 芯片选型目录(2020 年 7 月版) 科技有限公司 端 (PCIe) NVIDIA V100S NVIDIA T4 数据 NVIDIA 赛灵思 推 断 8GB 64GB 中科寒武纪科技 (VU37P ) 思元 100 股份有限公司 思元 270 北京比特大陆 科技有限公司 深圳鲲云信息 科技有限公司 华为技术有限公司 上海天数智芯 科技有限公司 BM1684 星空加速卡 X3 昇腾 310AI 处理器 Iluvatar CoreX I 国 人 Jetson Nano NVIDIA 中 边 缘 计 算 110W (VU13P ) Alveo U280 紫光展锐 中科寒武纪科技 股份有限公司 华为技术 有限公司 深圳鲲云信息 科技有限公司 100W 75W 70W 能 产 端 50W 100W 16W 峰值 56W 智 云 Alveo U50 (VU35P ) Alveo U200 (VU9P ) Alveo U250 工 中心 "8Tops @4W16Tops@8W" 峰值 5W 12GB LPDDR4X 两组 DDR4SDRAM,8GB/ DDR LPDDR4X 8GB 5W | 10W 7.5W | 15W Jetson Xavier NX 10W |15W Jetson AGX Xavier 10W |15W |30W Jetson AGX Xavier 10W |20W NVIDIA T4 虎贲 T710 思元 220 M.2 -bit LPDDR4 8 GB128 -bit LPDDR4 8 GB128 -bit LPDDR4 16GB 256 -bit LPDDR4 8GB 256 2019 年 273Gb/s 2019 年 10 月 25.6GB/s 2019 年 3 月 58.4GB/s 2017 年 3 月 51.2 GB/s 2019 年 11 月 137GB/s 2018 年 12 月 85GB/s 2019 年 70W <2.3W -bit LPDDR4 16 GB GDDR6 LPDDR4X 1866 320+ GB/s 15Gbps 2018 年 3 月 2019 年 8 月 8.25W 4GB 29GB/s 2019 年 11 月 "8Tops @4W16Tops LPDDR4X @8W" 星空加速卡 X3 2*64bit @3733MT/S 4 GB64 Jetson TX2 昇腾 310AI 处理器 联 云端 / 展 NVIDIA V100(NVLink) NVIDIA V100 发 NVIDIA 业 练 盟 训 峰值 56W 两组 DDR4 SDRAM, 8GB/DDR 2*64bit @3733MT/S 32GB/s 2019 年 2020 年 6 月 深度学习计算能力 FP16 FP32 64 TOPS 80TOPS 80TFLOPS "624 TOPS | 312 TF | 1248 TOPS* 624 TF* (* 采用稀疏技术)" (* 采用稀疏技术) 14nm 20TFLOPS GF 12nm FinFET "312 TFOPS 19.5 TFOPS (* 采用稀疏 TFOPS 技术)" 7.8 112TFLOPS 14 TFLOPS 7TFLOPS 130TFLOPS 65TFLOPS 16.4TFLOPS 8.1TFLOPS 8.2TFLOPS 130TOPS / 33.3TOPS / / 24.5TOPS / / 32TOPS 16TFLOPS / 128 TOPS / / NA 4.8TFLOPS 工 8T 12nm 12nm 12nm 16nm UltraScale 16nm UltraScale 16nm UltraScale 16nm UltraScale 16nm 16nm 2.2T 12nm N/A 28nm 智 "17.6TOPS ( 普通模式 ) 35.2TOPS (Winograd 加速模式)" 16TOPS 发 / / 业 / 12nm TFLOPS 能 产 16.2TOPS 18.6TOPS 7nm 盟 19.5 TFOPS 9.7 15.7TFLOPS N/A Tensor Core 16TOPS 125TFLOPS 10.9 TOPS 工艺 FP64 TF32 联 256TOPS FP64 展 INT8 12nm FFC NA T16 8.1TFLOPS 12nm 12nm / 16nm 人 0.5 TFLOPS 国 1.3TFLOPS 14|21TOPS 中 32TOPS 16TFLOPS 19.3TOPS 9.6TFLOPS 130TOPS 3.2TOPS 0.5TOPS 8TOPS / 16TOPS 8T 10.9 TOPS N/A 12nm FFC N/A 28nm NVIDIA Jetson Nano Jetson TX2 Jetson Xavier NX 5W | 10W 7.5W | 15W 10W |15W 10W |15W Jetson AGX Xavier 华为技术有限公司 Jetson AGX Xavier |30W 10W |20W "8Tops 昇腾 310AI 处理器 @4W16Tops 4 GB64-bit LPDDR4 8 GB128-bit LPDDR4 8 GB128-bit LPDDR4 25.6GB/s 58.4GB/s 51.2 GB/s 2019 年 3 月 2017 年 3 月 2019 年 11 月 16GB 256-bit LPDDR4 137GB/s 2018 年 12 月 8GB 256-bit LPDDR4 85GB/s 2019 年 2*64bit LPDDR4X @8W" 通 "LPDDR2 RK1808 3W 6.4GB /LPDDR3DDR3/ ytes/s DDR3L/DDR4" 双通道 DDR3- 瑞芯微电子 股份有限公司 RK3399Pro 10W 1866/DDR3L 14.9GB -1866/LPDDR3 ytes/s ZU7EV 10 / ZU11EG 16 / 300W LPDDR4 + GDDR6 DRIVE AGX 驾 驶 8GB NVIDIA Pegasus DRIVE AGX Xavier DeepEye1000 云 天 初 技术有限公司 紫光展锐 芯 虎贲 T710 安 防、 Hi3519A V100 机 器 上海海思 人 、 技术有限公司 北京清微智能 华为技术有限公司 国 手 高通信息科技 中 (上海)有限公司 Hi3566 V100 Hi3568 V100 Hi3569 V100 典型 <1W 典型 1.9W 典型 3W 工作模式 TX510 2019 年 11 月 / 2019 年 11 月 1 TB/s 2018 年 11 月 137 GB/s 2018 年 11 月 支持最大 4GB 8GBps 2019 年 9 月 LPDDR4X 1866 15Gbps "32bitDDR3 2019 年 8 月 16 GB 256 -bit LPDDR4 外扩 2GB 400mW Kirin 990 5G 处理器 - (L)DDR4" DDR4/ 外扩 4GB 外扩 8GB 外扩 128MB DDR4/ LPDDR4/SDRAM "64-bit DDR4 /LPDD R4" 2018 年 7 月 2018 年 1 月 16bit DDR3L 2020 年 3 月 32bit DDR3L LPDDR4 64bit LPDDR4 2020 年 3 月 2020 年 6 月 2020 年 6 月 128MB 7.464GBytes/s 2020 年 7 月 LPDDR4x DDR: 34.128 GB/S @2133MHZ 高通骁龙 2018 年 10 月 ~4GB DDR3L 外扩 256MB~4GB 外扩最大 4GB 外扩最大 8GB 4x 16bit 865 2019 年 9 月 2019 年 12 月 移动平台 待机功耗: 成都启英泰伦 人工智能语音识别 30mW; 512KBSRAM; 科技有限公司 降噪一体芯片 CI1103 工作功耗: 2MBDRAM 语 1GB/s 2019 年 9 月 3MB 3.2GB/s 2019 年 1 月 700KB 3200Mbps 2019 年 6 月 2~2.5 GB / TOPS 2019 年 6 月 100mW 上海深聪半导体 有限责任公司 北京清微智能 科技有限公司 安谋科技(中国) IP 典型 3W 典型 0.6W 人 科技有限公司 音 典型 1.9W Hi3562 V100 工 载 机 Hi3559A V100 典型 1.0W 智 车 典型功耗 2W <2.3W Hi3516D V300 / 30W 深圳云天励飞 端 2019 年 10 月 能 产 终 273GB/s 展 能 峰值 5W 发 智 赛灵思 Iluvatar CoreX I 业 科技有限公司 2018 年 1 月 联 -1866/LPDDR4 上海天数智芯 2019 年 6 月 盟 用 2019 年 @3733MT/S 技 有限公司 颖脉信息技术 术 (上海) 有限公司 TH1520 TX210 周易 AIPU 200mW 工作模式 450uW >2TOPS/ Configurable W@28nm Default 256KB 包含 3 种设计架构:PowerVR Series2NX, PowerVR Series3NX 和 PowerVR Series3NX Multi-Core Option 架构 0.5 TFLOPS 1.3TFLOPS 14|21TOPS 32TOPS 16TFLOPS 19.3TOPS 9.6TFLOPS 16TOPS 8TFLOPS 3TOPS 100GFLOPS 300GOPS(INT16) 22nm 3TOPS 0.3T 0.1T 28nm NA 4.8T NA / / / / / / 联 盟 12nm FFC 展 16 nm UltraScale 发 320 TOPS 支持 不支持 3.2TOPS 0.5TOPS 能 产 1TOPS 业 30 TOPS 支持 2TOPS 智 4TOPS 1TOPS 1.5TOPS 4TOPS 12nm 12nm 22nm 12nm T28 T12 T12 T28 T12 T12 T C28HPC+ 人 1.2TOPS@600MHz 16 nm UltraScale T28 工 0.5TOPS T16 国 N7+ √ √ 7nm √ √ √ 55nm 16GOPS 2GOPS 2GOPS 40nm 中 √ 12.8GOPS@100MHZ 0.2 – 4TOPS T 40nm n/a n/a 28nm

相关文章