扫盲人工智能的计算力基石--异构计算

maoer · · 548 次点击 · 开始浏览置顶

这是一个创建于的主题，其中的信息可能已经有所发展或是发生改变。

摘要：本文将带领入门读者了解CPU，GPU，FPGA，ASIC和异构计算的一些基本概念和优缺点，希望帮助入门者和爱好者建立基本的芯片概念人工智能有三要素：算法，计算力，数据。我们今天主要来讲讲计算力。计算力归根结底由底层芯片提供。按照计算芯片的组成方式，可以分成：同构计算：使用相同类型指令集和体系架构的计算单元组成系统的计算方式。异构计算：使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU、ASIC、FPGA等。 ![d77f4da3ebe3bff7ce8d1cfd41bb7baab9021955.png](https://static.studygolang.com/180628/d277fa432f1b2482d7f4d7c800b233cf.png) 我们从CPU开始，讲一个小故事来帮助你理解一切。异构厨房系统：有一个大厨（CPU），能做各种菜（兼容性好），但是某些大量重复的动作（例如切菜）明显减慢了他做菜的速度。原来客人都点炒青菜，拌黄瓜之类的，大厨自己还算能胜任，但是最近（大数据时代到来），客人要求高了很多，开始点各种大菜（大量数据复杂处理）。 ![88ebc007ba45df9e290fa618bca3112b2bd642b3.png](https://static.studygolang.com/180628/7832f00c065926b89670e691a938cbc0.png) ![6d4892b87d92ba4a2c7fd5d573d1c2d14cf7d237.png](https://static.studygolang.com/180628/305ce51c79b636f1cab6e6bdfb03c57f.png) 大厨力不从心，于是老板需要找个帮手（协处理器）来帮助他，比如在切菜方面，这个帮手可以同时处理很多菜品（并行处理），而且速度很快（低延时）。希望在合理的分工协作下，厨房能满足新的需求。为什么CPU在大量数据处理时效率不高？在之前餐厅的例子里，大厨CPU能灵活控制整个做菜流程，更偏向一个控制者，但很多场景下并不是最好的执行者。CPU作为通用处理器，也是更偏重支持控制流数据。CPU每个物理核中大部分的硬件资源被做成了控制电路和缓存，用来提高指令兼容性和效率。只有小部分是真正用来计算的逻辑运算单元（ALU）。在这样的架构下，CPU能兼容大量指令，但是实际的计算效率并不高。而且，CPU这个大厨很健忘，每做完一步都要去看看菜谱，甚至健忘到切菜每切一刀，都要去看看下一刀怎么切。实际运行中，CPU的代码都存在Memory这个“菜谱”中，需要经过取指令，译码，然后才能执行指令。在这个流程中，取指令，译码会开销额外的时间，降低了数据处理速度。 ![25ec6ef432d9eedeae74ef569314fdf7554f35d6.png](https://static.studygolang.com/180628/f023a656962241bcec2a97571bfa1173.png) 同构厨房系统：有人会说，为啥不再雇个大厨（双核），这样组成一个同构厨房系统不好吗？当然可以，因为之前的芯片结构貌似就是这样迭代的。但是或许有以下缺陷无法避免：大厨贵 -- 价格大厨在某些方面其实不一定擅长，比如你切菜切得过料理机吗？-- 性能厨房就这么大，再来个人可能没空间 – 芯片面积大厨吃的比较多，老板想省点 – 功耗对协处理器的要求？老板对这个帮手也是精心挑选的，主要体现在：最好能提供多样的菜品加工能力，比如洗菜，切菜一体化。（算法性能）。异构系统中，High Performance Compute要求全面实现加速算法，而不是仅仅是几个步骤。所以协处理器需要能全面支持需要用到的场景关键算法。支持同时、快速加工（数据并行处理能力，低延时处理能力）。协处理器需要有大量的数据并行通道，每个通道需要支持低延迟的数据管线处理。便于操作和菜品存取（接口性能）。要提供合适的接口带宽，快速，安全地和主处理器进行数据交互。安装方便，能更新处理流程（配置灵活）。用户能方便地安装，配置，最好能更新协处理器的功能，方便日后计算需求的升级迭代。节能（功耗）。更低的功耗意味着更低的运行成本，更小的空间占用和更简单的热处理方案。 GPU：动作很快的笨笨小帮厨 GPU和CPU都属于通用处理器，但是却有不同的架构。如果把CPU大厨形容为“头脑发达（控制电路多），四肢简单（计算电路少）”，那么GPU帮厨正好相反。在GPU中，硬件资源被大量用作逻辑运算单元（ALU），小部分用作控制电路。这为大规模的数据并行处理提供了基础。其实，这个帮手在特定工作中远远超过了师傅（切菜洗菜超级快），大厨可以放心地把算法简单、重复性高、需要大量并行操作的工作交给它。 ![1a101ae1581c152df77671a73240cde4144fe967.png](https://static.studygolang.com/180628/983357468c5db318d3d8f615254d8e83.png) 但是CPU支持的控制复杂度较低。当你要求笨笨的GPU把所有菜都切丝，它一定完成得又快又好，但是你告诉它：“土豆切丝，洋葱切片，南瓜雕花……”它就没有那么高效了。这是因为，复杂的控制流程会产生大量的分支（如编程语言中的case和if else），而GPU中一个控制单元要负责好几个计算单元。所以，如果要最大程度地使用GPU，势必要求控制分支越少越好。另外，GPU有CPU大厨的共同毛病：健忘（需要从Memory读取指令），这带来了一系列问题（如功耗大，基于指令系统，要译码）。 ![8905400285aad531dfb2aafa7a90500b5e18fc31.png](https://static.studygolang.com/180628/3b711beb3f5e1daffeafce286986b963.png) ASIC: 最强订制料理机如果给ASIC牌料理机制定一句广告语，我觉得是：最快速度，最低能效，您厨房的最强帮手。 ![1eecdce6bec05deafe57bda3f4f1e9cc16ac6b0b.png](https://static.studygolang.com/180628/2d74fd2aead49aaa99a160287e027aa9.png) 我们先来看看为什么ASIC像“料理机”。因为它摆脱了指令系统，没有了“健忘”问题，所有功能都固化了交付给客户，更像一台厨房机器。ASIC的中文全称是“特殊订制集成电路”。它是订制的，也意味着不需要去纠结CPU和GPU怎样分配控制资源和计算资源的问题了，想怎么分配就怎么分配。编程语言越接近底层硬件，运行速度越快。ASIC的设计是直接用软件思维搭建硬件电路，所有的设计是直接建筑在物理硬件（门电路）上的。所以，ASIC不需要取指令和译码，每个时间单位都能专注于数据处理或者传输，大大提高了效能。直接设计的硬件结构也让数据处理管线真正实现，每一级的处理结果能直接用于下一级的输入，无缝连接。在一定规则下（比如一定芯片面积和布线规则下），并行通道可以最大化叠加。在功耗方面，因为硬件利用的最大化，是所有协处理器里最小的。那么厉害的ASIC，看来我们的最佳方案一定是它了吧，问题来了：ASIC料理机哪里能买到呢？对不起，哪里都买不到，刚刚说了只能订制。这个过程很漫长，带来的风险自然很大。更重要的是，CPU大厨在拿到专属料理机后，如果突然有一天想把功能更新一下，比如原来土豆切丝，现在想切土豆片了。很抱歉，只能再订制一次。 FPGA: 可变化的万能料理机 FPGA也是料理机，也没有指令系统。和ASIC一样：它的设计也是直接建筑在物理硬件上。这样的结构就已经注定了FPGA在大量数据处理时的优势。事实上，它几乎具有ASIC的所有优点，速度功耗也远远优于通用处理器，但是和ASIC对比，还稍微差一点，例如：功耗大一点，速度慢一点，同样芯片面积下能实现的功能弱一点。不过，FPGA却有一个巨大优势。 FPGA，中文全称“现场可编程门级列阵”。对比ASIC，有三个字无比耀眼：可编程。可编程意味着可改变。今天切土豆丝，明天切土豆片，都没有问题了，不需要进行芯片重新订制，灵活性堪比通用处理器。对比ASIC的研发流程，FPGA开发可以快速试错迭代，缩短了开发时间。其实，在半导体界，FPGA有“万能芯片”的美誉，它以可编程和灵活的直接基于硬件订制两大法宝，在众多应用场景中有着重要地位。 FPGA的主要问题在开发。FPGA料理机交付客户时其实是一个空机器，里面什么功能都没有，需要客户根据自己的需求一点点搭建。这个难度不低，主要原因是：异构算法的开发人员大部分是软件人员，缺乏对FPGA结构和数字电路的了解，编程语言也不统一（CPU端是C、C++等等，FPGA端是VHDL、Verilog）。目前解决这个问题的方法是OpenCL和HLS（High Level Synthesis）技术，支持直接把C、C++代码编译成Verilog，虽然目前转化效果仍然有待提高，但是随着这些技术的成熟，相信FPGA会站上异构计算的舞台中央。 ![a85ff70d44df50ea4c354c4e4a1f240cc39e68d9.png](https://static.studygolang.com/180628/44ebc25277b73300e912433824e50c9b.png) 总结小结一下，本文带领大家扫盲了一下CPU，GPU，ASIC，FPGA的一些基本概念和优缺点。在人工智能不断发展的今天，成本，功耗，灵活性，易用性都被提上了需求单。如果你也想体验一下异构计算的高效，可以试着购买一下阿里云的CPU+GPU和CPU+FPGA的实例方案。另外附上一些相关文章，让大神们继续带你飞。原文链接：http://click.aliyun.com/m/1000003950/

有疑问加站长微信联系（非本文作者）