
現(xiàn)在這年代,技術(shù)日新月異,物聯(lián)網(wǎng)、人工智能、深度學(xué)習(xí)等概念遍地開花,各類芯片名詞GPU, TPU, NPU,DPU,層出不窮......它們都是什么鬼?與CPU又是什么關(guān)系?
今天我們就來通俗易懂的科普一下這些所謂的“XPU”!
老規(guī)矩,先上概念:
- CPU即中央處理器(Central Processing Unit)
- GPU即圖形處理器(Graphics Processing Unit)
- TPU即谷歌的張量處理器(Tensor Processing Unit)
- NPU即神經(jīng)網(wǎng)絡(luò)處理器(Neural network Processing Unit)
CPU
中央處理器(CPU,Central Processing Unit),是電子計算機(jī)的主要設(shè)備之一,電腦中的核心配件。其功能主要是解釋計算機(jī)指令以及處理計算機(jī)軟件中的數(shù)據(jù)。電腦中所有操作都由CPU負(fù)責(zé)讀取指令,對指令譯碼并執(zhí)行指令的核心部件。
CPU的結(jié)構(gòu)主要包括運(yùn)算器(ALU, Arithmetic and Logic Unit)、控制單元(CU, Control Unit)、寄存器(Register)、高速緩存器(Cache)和它們之間通訊的數(shù)據(jù)、控制及狀態(tài)的總線。
CPU遵循的是馮諾依曼架構(gòu),其核心就是:存儲程序,順序執(zhí)行。
另外,因為遵循馮諾依曼架構(gòu)(存儲程序,順序執(zhí)行),CPU就像是個一板一眼的管家,人們吩咐的事情它總是一步一步來做。但是隨著人們對更大規(guī)模與更快處理速度的需求的增加,這位管家漸漸變得有些力不從心。
于是,大家就想,能不能把多個處理器放在同一塊芯片上,讓它們一起來做事,這樣效率不就提高了嗎?
沒錯,GPU便由此誕生了。
GPU
在正式講解GPU之前,我們先來講講的一個概念:并行計算。
并行計算(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程,是提高計算機(jī)系統(tǒng)計算速度和處理能力的一種有效手段。它的基本思想是用多個處理器來共同求解同一問題,即將被求解的問題分解成若干個部分,各部分均由一個獨立的處理機(jī)來并行計算。
并行計算可分為時間上的并行和空間上的并行。
時間上的并行是指流水線技術(shù),比如說工廠生產(chǎn)食品的時候分為四步:清洗-消毒-切割-包裝。
如果不采用流水線,一個食品完成上述四個步驟后,下一個食品才進(jìn)行處理,耗時且影響效率。但是采用流水線技術(shù),就可以同時處理四個食品。這就是并行算法中的時間并行,在同一時間啟動兩個或兩個以上的操作,大大提高計算性能。
空間上的并行是指多個處理機(jī)并發(fā)的執(zhí)行計算,即通過網(wǎng)絡(luò)將兩個以上的處理機(jī)連接起來,達(dá)到同時計算同一個任務(wù)的不同部分,或者單個處理機(jī)無法解決的大型問題。
比如小李準(zhǔn)備在植樹節(jié)種三棵樹,如果小李1個人需要6個小時才能完成任務(wù),植樹節(jié)當(dāng)天他叫來了好朋友小紅、小王,三個人同時開始挖坑植樹,2個小時后每個人都完成了一顆植樹任務(wù),這就是并行算法中的空間并行,將一個大任務(wù)分割成多個相同的子任務(wù),來加快問題解決速度。
所以說,如果讓CPU來執(zhí)行這個種樹任務(wù)的話,它就會一棵一棵的種,花上6個小時的時間,但是讓GPU來種樹,就相當(dāng)于好幾個人同時在種。
GPU全稱為Graphics Processing Unit,中文為圖形處理器,就如它的名字一樣,GPU最初是用在個人電腦、工作站、游戲機(jī)和一些移動設(shè)備(如平板電腦、智能手機(jī)等)上運(yùn)行繪圖運(yùn)算工作的微處理器。
為什么GPU特別擅長處理圖像數(shù)據(jù)呢?這是因為圖像上的每一個像素點都有被處理的需要,而且每個像素點處理的過程和方式都十分相似,也就成了GPU的天然溫床。
但GPU無法單獨工作,必須由CPU進(jìn)行控制調(diào)用才能工作。CPU可單獨作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,但當(dāng)需要大量的處理類型統(tǒng)一的數(shù)據(jù)時,則可調(diào)用GPU進(jìn)行并行計算。
有一點需要強(qiáng)調(diào),雖然GPU是為了圖像處理而生的,但是它在結(jié)構(gòu)上并沒有專門為圖像服務(wù)的部件,只是對CPU的結(jié)構(gòu)進(jìn)行了優(yōu)化與調(diào)整,所以現(xiàn)在GPU不僅可以在圖像處理領(lǐng)域大顯身手,它還被用來科學(xué)計算、密碼破解、數(shù)值分析,海量數(shù)據(jù)處理(排序,Map-Reduce等),金融分析等需要大規(guī)模并行計算的領(lǐng)域。
TPU
張量處理單元(TPU)是一種定制化的 ASIC 芯片,它由谷歌從頭設(shè)計,并專門用于機(jī)器學(xué)習(xí)工作負(fù)載。TPU 為谷歌的主要產(chǎn)品提供了計算支持,包括翻譯、照片、搜索助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴(kuò)展的云計算資源,并為所有在 Google Cloud 上運(yùn)行尖端 ML 模型的開發(fā)者與數(shù)據(jù)科學(xué)家提供計算資源。
按照上文所述,CPU和GPU都是較為通用的芯片,但是有句老話說得好:萬能工具的效率永遠(yuǎn)比不上專用工具。
隨著人們的計算需求越來越專業(yè)化,人們希望有芯片可以更加符合自己的專業(yè)需求,這時,便產(chǎn)生了ASIC(專用集成電路)的概念。
ASIC是指依產(chǎn)品需求不同而定制化的特殊規(guī)格集成電路,由特定使用者要求和特定電子系統(tǒng)的需要而設(shè)計、制造。
而TPU(Tensor Processing Unit, 張量處理器)就是谷歌專門為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,其實也是一款A(yù)SIC。
據(jù)稱,TPU與同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。初代的TPU只能做推理,要依靠Google云來實時收集數(shù)據(jù)并產(chǎn)生結(jié)果,而訓(xùn)練過程還需要額外的資源;而第二代TPU既可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),又可以用于推理。
NPU
所謂NPU(Neural network Processing Unit), 即神經(jīng)網(wǎng)絡(luò)處理器。用電路模擬人類的神經(jīng)元和突觸結(jié)構(gòu)。
神經(jīng)網(wǎng)絡(luò)中存儲和處理是一體化的,都是通過突觸權(quán)重來體現(xiàn)。而馮·諾伊曼結(jié)構(gòu)中,存儲和處理是分離的,分別由存儲器和運(yùn)算器來實現(xiàn),二者之間存在巨大的差異。當(dāng)用現(xiàn)有的基于馮·諾伊曼結(jié)構(gòu)的經(jīng)典計算機(jī)(如X86處理器和英偉達(dá)GPU)來跑神經(jīng)網(wǎng)絡(luò)應(yīng)用時,就不可避免地受到存儲和處理分離式結(jié)構(gòu)的制約,因而影響效率。這也就是專門針對人工智能的專業(yè)芯片能夠?qū)鹘y(tǒng)芯片有一定先天優(yōu)勢的原因之一。
NPU的典型代表有國內(nèi)的寒武紀(jì)芯片和IBM的TrueNorth。以中國的寒武紀(jì)為例,DianNaoYu指令直接面對大規(guī)模神經(jīng)元和突觸的處理,一條指令即可完成一組神經(jīng)元的處理,并對神經(jīng)元和突觸數(shù)據(jù)在芯片上的傳輸提供了一系列專門的支持。
用數(shù)字來說話,CPU、GPU與NPU相比,會有百倍以上的性能或能耗比差距–以寒武紀(jì)團(tuán)隊過去和Inria聯(lián)合發(fā)表的DianNao論文為例–DianNao為單核處理器,主頻為0.98GHz,峰值性能達(dá)每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算,65nm工藝下功耗為0.485W,面積3.02平方毫米mm。
BPU
BPU(Brain Processing Unit,大腦處理器)是由地平線科技提出的嵌入式人工智能處理器架構(gòu)。第一代是高斯架構(gòu),第二代是伯努利架構(gòu),第三代是貝葉斯架構(gòu)。目前地平線已經(jīng)設(shè)計出了第一代高斯架構(gòu),并與英特爾在2017年CES展會上聯(lián)合推出了ADAS系統(tǒng)(高級駕駛輔助系統(tǒng))。
DPU
DPU(Deep learning Processing Unit, 即深度學(xué)習(xí)處理器)最早由國內(nèi)深鑒科技提出,基于Xilinx可重構(gòu)特性的FPGA芯片,設(shè)計專用的深度學(xué)習(xí)處理單元(可基于已有的邏輯單元,設(shè)計并行高效的乘法器及邏輯電路,屬于IP范疇),且抽象出定制化的指令集和編譯器(而非使用OpenCL),從而實現(xiàn)快速的開發(fā)與產(chǎn)品迭代。事實上,深鑒提出的DPU屬于半定制化的FPGA。
你以為到這里就完了嗎?
不,據(jù)說每過18天,集成電路領(lǐng)域就會多出一個XPU,直到26個字母被用完。
這被戲稱為AI時代的XPU版摩爾定律。
據(jù)不完全統(tǒng)計,已經(jīng)被用掉的有:
APU -- Accelerated Processing Unit, 加速處理器,AMD公司推出加速圖像處理芯片產(chǎn)品。
BPU -- Brain Processing Unit, 地平線公司主導(dǎo)的嵌入式處理器架構(gòu)。
CPU -- Central Processing Unit 中央處理器, 目前PC core的主流產(chǎn)品。
DPU -- Deep learning Processing Unit, 深度學(xué)習(xí)處理器,最早由國內(nèi)深鑒科技提出;另說有Dataflow Processing Unit 數(shù)據(jù)流處理器, Wave Computing 公司提出的AI架構(gòu);Data storage Processing Unit,深圳大普微的智能固態(tài)硬盤處理器。
FPU -- Floating Processing Unit 浮點計算單元,通用處理器中的浮點運(yùn)算模塊。
GPU -- Graphics Processing Unit, 圖形處理器,采用多線程SIMD架構(gòu),為圖形處理而生。
HPU -- Holographics Processing Unit 全息圖像處理器, 微軟出品的全息計算芯片與設(shè)備。
IPU -- Intelligence Processing Unit, Deep Mind投資的Graphcore公司出品的AI處理器產(chǎn)品。
MPU/MCU -- Microprocessor/Micro controller Unit, 微處理器/微控制器,一般用于低計算應(yīng)用的RISC計算機(jī)體系架構(gòu)產(chǎn)品,如ARM-M系列處理器。
NPU -- Neural Network Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器,是基于神經(jīng)網(wǎng)絡(luò)算法與加速的新型處理器總稱,如中科院計算所/寒武紀(jì)公司出品的diannao系列。
RPU -- Radio Processing Unit, 無線電處理器, Imagination Technologies 公司推出的集合集Wifi/藍(lán)牙/FM/處理器為單片的處理器。
TPU -- Tensor Processing Unit 張量處理器, Google 公司推出的加速人工智能算法的專用處理器。目前一代TPU面向Inference,二代面向訓(xùn)練。
VPU -- Vector Processing Unit 矢量處理器,Intel收購的Movidius公司推出的圖像處理與人工智能的專用芯片的加速計算核心。
WPU -- Wearable Processing Unit, 可穿戴處理器,Ineda Systems公司推出的可穿戴片上系統(tǒng)產(chǎn)品,包含GPU/MIPS CPU等IP。
XPU -- 百度與Xilinx公司在2017年Hotchips大會上發(fā)布的FPGA智能云加速,含256核。
ZPU -- Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位開源處理器。
當(dāng)26個字母被用完后,即將出現(xiàn)XXPU,XXXPU,并以更快的速度占領(lǐng)起名界。
你說嚇不嚇人?
到這里,相信諸位也對這些XPU的概念有了初步的認(rèn)識。想了解更多有趣有料的信息 歡迎掃碼關(guān)注小F(ID:iamfastone)獲取更多最新最全的信息。
我們有個 為應(yīng)用定義的研發(fā)云平臺
集成多種行業(yè)應(yīng)用,大量任務(wù)多節(jié)點并行
應(yīng)對短時間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個月甚至幾年,現(xiàn)在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創(chuàng)建集群
掃碼免費試用,送200元體驗金,入股不虧~

更多電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務(wù)背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發(fā)性Fluent仿真計算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺:
和28家業(yè)界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學(xué)生篇
楊洋組織的“太空營救”中, 那2小時到底發(fā)生了什么?
速石科技獲元禾璞華領(lǐng)投數(shù)千萬美元B輪融資
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
速石科技成三星Foundry國內(nèi)首家SAFE?云合作伙伴
Ansys最新CAE調(diào)研報告找到阻礙仿真效率提升的“元兇”
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動白皮書
國內(nèi)超算發(fā)展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500