Artificial Intelligence，AI（芯片）未来发展趋势

发布时间:2020/8/18 9:15:39 访问次数:80437

芯片的概念：

（半导体元件产品的统称）集成电路，缩写作 ic；或称微电路、微芯片、晶片/芯片，在电子学中是一种把电路（主要包括半导体设备，也包括被动组件等）小型化的方式，并时常制造在半导体晶圆表面上。

人工智能（artificial intelligence，ai）芯片的定义：从广义上讲只要能够运行人工智能算法的芯片都叫作 ai 芯片。但是通常意义上的 ai 芯片指的是针对人工智能算法做了特殊加速设计的芯片，现阶段，这些人工智能算法一般以深度学习算法为主，也可以包括其它机器学习算法。

ai芯片也被称为ai加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块（其他非计算任务仍由cpu负责）。当前，ai芯片主要分为gpu、fpga、asic。

ai芯片与普通芯片区别呢：

手机ai芯片对于各种ai算子能够以30倍到50倍左右的速度处理。以拍照场景为例，ai芯片能够做更好的一个图像检测，图像分割和图像语义理解。另外，对声音可以听清、听懂，并根据所了解的客户意图提供客户真正想要的服务。比如，内置独立神经网络单元npu的麒麟970的图片处理速度可达到约2005张每分钟，而在没有npu的情况下每分钟只能处理97张图像。当然，其他应用场景在ai的加持下同样变得高能。

人工智能芯片四大类：

1、通用芯片（gpu）。

gpu是单指令、多数据处理，采用数量众多的计算单元和超长的流水线，主要处理图像领域的运算加速。

gpu是不能单独使用的，它只是处理大数据计算时的能手，必须由cpu进行调用，下达指令才能工作。

但cpu可单独作用，处理复杂的逻辑运算和不同的数据类型，但当需要处理大数据计算时，则可调用gpu进行并行计算。

2、半定制化芯片（fpga）。

fpga适用于多指令，单数据流的分析，与gpu相反，因此常用于预测阶段，如云端。fpga是用硬件实现软件算法,因此在实现复杂算法方面有一定的难度，缺点是价格比较高。与 gpu 不同，fpga 同时拥有硬件流水线并行和数据并行处理能力,适用于以硬件流水线方式处理一条数据，且整数运算性能更高，因此常用于深度学习算法中的推断阶段。不过fpga 通过硬件的配置实现软件算法，因此在实现复杂算法方面有一定的难度。将fpga 和 cpu 对比可以发现两个特点,一是 fpga 没有内存和控制所带来的存储和读取部分速度更快,二是 fpga 没有读取指令操作,所以功耗更低。劣势是价格比较高、编程复杂、整体运算能力不是很高。目前国内的ai 芯片公司如深鉴科技就提供基于 fpga 的解决方案。

3、全定制化芯片（asic）。

asic是为实现特定场景应用要求时，而定制的专用ai芯片。除了不能扩展以外,在功耗、可靠性、体积方面都有优势，尤其在高性能、低功耗的移动设备端。

定制的特性有助于提高 asic 的性能功耗比，缺点是电路设计需要定制，相对开发周期长，功能难以扩展。但在功耗、可靠性、集成度等方面都有优势，尤其在要求高性能、低功耗的移动应用端体现明显。谷歌的 tpu、寒武纪的 gpu，地平线的 bpu都属于 asic芯片。谷歌的 tpu比 cpu和 gpu的方案快 30 至 80 倍，与 cpu和 gpu相比，tpu把控制电路进行了简化，因此减少了芯片的面积，降低了功耗。

4、类脑芯片。

类脑芯片架构是一款模拟人脑的神经网络模型的新型芯片编程架构，这一系统可以模拟人脑功能进行感知方式、行为方式和思维方式。

有人说，asic是人工智能芯片的一个主要发展方向，但真正的人工智能芯片未来发展的方向是类脑芯片。

类脑芯片研究是非常艰难的，ibm、高通、英特尔等公司的芯片策略都是用硬件来模仿人脑的神经突触。

我国ai芯片发展情况 :

目前，我国的人工智能芯片行业发展尚处于起步阶段。

长期以来，中国在 cpu、gpu、dsp 处理器设计上一直处于追赶地位，绝大部分芯片设计企业依靠国外的 ip 核设计芯片，在自主创新上受到了极大的限制。然而，人工智能的兴起，无疑为中国在处理器领域实现弯道超车提供了绝佳的机遇。人工智能领域的应用目前还处于面向行业应用阶段，生态上尚未形成垄断，国产处理器厂商与国外竞争对手在人工智能这一全新赛场上处在同一起跑线上，因此，基于新兴技术和应用市场，中国在建立人工智能生态圈方面将大有可为。

由于我国特殊的环境和市场，国内 ai 芯片的发展目前呈现出百花齐放、百家争鸣的态势，ai 芯片的应用领域也遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域，催生了大量的人工智能芯片创业公司，如地平线、深鉴科技、中科寒武纪等。尽管如此，国内公司却并未如国外大公司一样形成市场规模，反而出现各自为政的散裂发展现状。除了新兴创业公司，国内研究机构如北京大学、清华大学、中国科学院等在ai芯片领域都有深入研究；而其他公司如百度和比特大陆等，2017年也有一些成果发布。可以预见，未来谁先在人工智能领域掌握了生态系统，谁就掌握住了这个产业的主动权。

未来：

目前主流 ai芯片的核心主要是利用 mac（multiplier and accumulation，乘加计算）加速阵列来实现对 cnn（卷积神经网络）中最主要的卷积运算的加速。这一代 ai 芯片主要有如下 3个方面的问题。

（1）深度学习计算所需数据量巨大，造成内存带宽成为整个系统的瓶颈，即所谓的“memory wall”问题。

（2）与第一个问题相关，内存大量访问和mac阵列的大量运算，造成ai芯片整体功耗的增加。

（3）深度学习对算力要求很高，要提升算力，最好的方法是做硬件加速，但是同时深度学习算法的发展也是日新月异，新的算法可能在已经固化的硬件加速器上无法得到很好的支持，即性能和灵活度之间的平衡问题。

下一代 ai芯片发展趋势：

趋势一：更高效的大卷积解构/复用

在标准 simd 的基础上，cnn 由于其特殊的复用机制，可以进一步减少总线上的数据通信。而复用这一概念，在超大型神经网络中就显得格外重要。如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向。

趋势二：更低的 inference计算/存储位宽

ai 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从 32 位浮点到 16 位浮点/定点、8 位定点，甚至是 4 位定点。在理论计算领域，2 位甚至 1 位参数位宽，都已经逐渐进入实践领域。

趋势三：更多样的存储器定制设计

当计算部件不再成为神经网络加速器的设计瓶颈时，如何减少存储器的访问延时将会成为下一个研究方向。通常，离计算越近的存储器速度越快，每字节的成本也越高，同时容量也越受限，因此新型的存储结构也将应运而生。

趋势四：更稀疏的大规模向量实现

神经网络虽然大，但是，实际上有很多以零为输入的情况，此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结构，在最后一级输出了触发信号。在activation层后对下一次计算的必要性进行预先判断，如果发现这是一个稀疏节点，则触发 skip信号，避免乘法运算的功耗，以达到减少无用功耗的目的。

趋势五：计算和存储一体化