盤點2019年十大AI晶片，國產晶片全面崛起 - 人工智能產業鏈聯盟

人工智慧浪潮的推動下，AI相關產業的商用場景正逐步大規模落地，基於AI技術的三大支柱：「算法+大數據+計算能力」智能應用已成為計算機最主要的負載之一。我國在用戶數據方面擁有數量的先天優勢，但面對有限的規模、結構固定、能耗受限的硬體制約下，如何用AI晶片處理海量的並不斷演進的深度學習算法呢？跟隨OFweek編輯一起來看看各大科技巨頭們研發的AI晶片吧。（排名按首字母順序排列）

1.含光800

2019年的杭州雲棲大會上，達摩院院長張建鋒現場展示了這款全球最強的 AI晶片——含光800。在業界標準的 ResNet-50 測試中，含光 800 推理性能達到 78563 IPS，比目前業界最好的 AI 晶片性能高 4 倍；能效比500 IPS/W，一個含光800的算力相當於10個GPU。

目前，含光800已經實現了大規模應用於阿里巴巴集團內多個場景，例如視頻圖像識別/分類/搜索、城市大腦等，未來還可應用於醫療影像、自動駕駛等領域。以杭州城市大腦實時處理1000路視頻為例，過去使用GPU需要40塊，延時為300ms，單路視頻功耗2.8W；使用含光800僅需4塊，延時150ms，單路視頻功耗1W。

2.Graphcore IPU

總部位於英國布里斯托的Graphcore公司日前推出了一款稱為智能處理單元（IPU）的新型AI加速處理器。晶片本身，即IPU處理器，是迄今為止最複雜的處理器晶片：它在一個16納米晶片上有幾乎240億個電晶體，每個晶片提供125 teraFLOPS運算能力。

一個標準4U機箱中可插入8張卡，卡間通過IPU鏈路互連。8張卡中的IPU可以作為一個處理器元件工作，提供兩個petaFLOPS的運算能力。與晶片在CPU和GPU中的存在形式不同，它為機器智能提供了更高效的處理平台。

Graphcore公司於2016年啟動風險投資計劃，並在2018年12月的最後一輪融資中募集了2億美元。基於其17億美元的公司估值，Graphcore已成為西方半導體界的唯一「獨角獸」。它的投資者們包括戴爾、博世、寶馬、微軟和三星。

3.Inferentia晶片

2019年，亞馬遜的雲服務業務AWS在其發布會AWS re:Invent上帶來了高性能機器學習加速晶片Inferentia。據了解，AWS Inferentia 是一個由 AWS 定製設計的機器學習推理晶片，旨在以極低成本交付高吞吐量、低延遲推理性能。該晶片將支持 TensorFlow、Apache MXNet 和 PyTorch 深度學習框架以及使用 ONNX 格式的模型。

每個 AWS Inferentia 晶片都能在低功率下支持高達 128 TOPS（每秒數萬億次運行）的性能，從而為每個 EC2 實例啟用多個晶片。AWS Inferentia 支持 FP16、BF16 和 INT8 數據類型。此外，Inferentia 可以採用 32 位訓練模型，並使用 BFloat16 以 16 位模型的速度運行該模型。與EC4上的常規Nvidia G4實例相比，藉助Inferentia，AWS可提供更低的延遲和三倍的吞吐量，且每次推理成本降低40％。

4.崑崙晶片

2019年尾聲，百度宣布首款AI晶片崑崙已經完成研發，將由三星代工生產。該晶片使用的是三星14nm工藝技術，封裝解決方案採用的是I-Cube TM。

據悉，崑崙AI晶片提供512Gbps的內存帶寬，在150瓦的功率下實現260TOPS的處理能力，能支持語音，圖像，NLP等不同的算法模型，其中ERNIE模型的性能是T4GPU的三倍以上，兼容百度飛槳等主流深度學習框架。該款晶片主要用於雲計算和邊緣計算，預計在2020年初實現量產。

5.Nervana NNP 晶片

2019 英特爾人工智慧峰會，英特爾推出面向訓練 (NNP-T1000) 和面向推理 (NNP-I1000) 的英特爾 Nervana 神經網絡處理器 (NNP)。據了解，Nervana NNP-T 代號 Spring Crest，採用了台積電的 16nm FF+ 製程工藝，擁有 270 億個電晶體，矽片面積 680 平方毫米，能夠支持 TensorFlow、PaddlePaddle、PYTORCH 訓練框架，也支持 C++ 深度學習軟體庫和編譯器 nGraph。

Nervana NNP-I，代號為 Spring Hill，是一款專門用於大型數據中心的推理晶片。這款晶片是基於 10nm 技術和 Ice Lake 內核打造的，打造地點是以色列的 Haifa ，Intel 號稱它能夠利用最小的能量來處理高負載的工作，它在 ResNet50 的效率可達 4.8TOPs/W，功率範圍在 10W 到 50W 之間。

6.Orin晶片

2019年NVIDIA GTC中國大會中英偉達發布了全新的軟體定義自動駕駛平台——NVIDIA DRIVE AGX Orin，該平台內置全新Orin系統級晶片，由170億個電晶體組成。

Orin系統級晶片集成了NVIDIA新一代GPU架構和Arm Hercules CPU內核以及全新深度學習和計算機視覺加速器，每秒可運行200萬億次計算，幾乎是NVIDIA上一代Xavier系統級晶片性能的7倍。此外，Orin可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經網絡，並且達到了ISO 26262 ASIL-D等系統安全標準。

7.邃思DTU

由騰訊領投、融資累計超過 6 億元的 AI 晶片公司燧原科技，在2019年發布會中推出自主研發的首款 AI 訓練晶片「邃思 DTU」。

據了解，邃思DTU採用格羅方德12nm FinFET工藝，480平方毫米主晶片上承載141億個電晶體，實現2.5D高級立體封裝，據稱單卡單精度算力為業界第一，達20TFLOPS，首次支持混合精度，半精度及混合精度下算力達80TFLOPS，最大功耗僅225W。

邃思晶片基於可重構晶片的設計理念，其計算核心包含 32 個通用可擴展神經元處理器（SIP），每 8 個 SIP 組合成 4 個可擴展智能計算群（SIC）。SIC 之間通過 HBM 實現高速互聯，通過片上調度算法，數據在遷移中完成計算，實現了 SIP 利用率最大化。

8.思元220晶片

寒武紀在第21屆高交會正式發布邊緣AI系列產品思元220（MLU220）晶片及M.2加速卡產品，標誌寒武紀在雲、邊、端實現了全方位、立體式的覆蓋。

思元220晶片採用了寒武紀在處理器架構領域的一系列創新性技術，其架構為寒武紀最新一代智能處理器MLUv02，實現最大32TOPS（INT4）算力，而功耗僅10W，可提供16/8/4位可配置的定點運算。作為通用處理器，支持各類深度學習技術，支持多模態智能處理（視覺、語音和自然語言處理），應用領域廣泛，客戶可以根據實際應用靈活的選擇運算類型來獲得卓越的人工智慧推理性能。

9.昇騰910

2019年8月，華為在深圳總部發布AI處理器Ascend 910（昇騰910），據華為發布的參數顯示，昇騰910是一款具有超高算力的AI處理器，其最大功耗為310W，華為自研的達文西架構大大提升了其能效比。八位整數精度（INT8）下的性能達到512TOPS，16位浮點數（FP16）下的性能達到256 TFLOPS。

作為一款高集成度的片上系統（SoC），除了基於達文西架構的AI核外，昇騰910還集成了多個CPU、DVPP和任務調度器（Task Scheduler），因而具有自我管理能力，可以充分發揮其高算力的優勢。

昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口，為構建橫向擴展（Scale Out）和縱向擴展（Scale Up）系統提供了靈活高效的方法。HCCS是華為自研的高速互聯接口，片內RoCE可用於節點間直接互聯。最新的PCIe 4.0的吞吐量比上一代提升一倍。

10.征程二代

2019世界人工智慧大會中，人工智慧晶片初創公司地平線正式宣布量產中國首款車規級人工智慧晶片——征程二代，並且獲得五個國家市場客戶的前裝定點項目。

據介紹，征程二代於今年初流片成功，搭載地平線自主創新研發的高性能計算架構BPU2.0（Brain Processing Unit），可提供超過4TOPS的等效算力，典型功耗僅2瓦，滿足AEC-Q100標準，算力利用率超過90%。

每TOPS算力可以處理的幀數可達同等算力GPU的10倍以上，識別精度超過99%，延遲少於100毫秒，多任務模式下可以同時跑超過60個分類任務，每秒鐘識別目標數可以超過2000個。

此次地平線率先推出首款車規級AI晶片不僅實現了中國車規級AI晶片量產零的突破，也補齊了國內自動駕駛產業生態建設的關鍵環節。

小結

目前通過CPU/GPU處理人工神經網絡效率低下，谷歌大腦需要1.6萬個CPU核跑數天方能完成貓臉識別訓練；AIphaGO與李世石下棋時用了1000個CPU和200個GPU，AI晶片的發展是第三次AI浪潮中極為明顯的趨勢，算法已滲透到雲伺服器和智慧型手機的方方面面，未來每台計算機可能都需要一個專門的深度學習處理器。

薦：

【中國風動漫】除了《哪吒》，這些良心國產動畫也應該被更多人知道！

聲明

來源：OFweek人工智慧，RAD極客會（ID:RAD_Geek_Club）推薦閱讀，不代表RAD極客會立場，轉載請註明，如涉及作品版權問題，請聯繫我們刪除或做相關處理！