偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="fqr1v"></thead>

<p id="fqr1v"></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

人工智能專用SoC芯片IP需求分析

作者： synopsys 2021-03-11 07:54:31

目前支持AI計(jì)算開發(fā)的半導(dǎo)體有獨(dú)立加速器和 in-memory/near-memory 計(jì)算技術(shù)兩種。獨(dú)立加速器以某種方式連接到應(yīng)用處理器，并且有一些應(yīng)用處理器在設(shè)備上添加了神經(jīng)網(wǎng)絡(luò)硬件加速。

本文轉(zhuǎn)載自微信公眾號(hào)「智能計(jì)算芯世界」，作者synopsys 。轉(zhuǎn)載本文請(qǐng)聯(lián)系智能計(jì)算芯世界公眾號(hào)。

目前支持AI計(jì)算開發(fā)的半導(dǎo)體有獨(dú)立加速器和 in-memory/near-memory 計(jì)算技術(shù)兩種。獨(dú)立加速器以某種方式連接到應(yīng)用處理器，并且有一些應(yīng)用處理器在設(shè)備上添加了神經(jīng)網(wǎng)絡(luò)硬件加速。獨(dú)立加速器可以通過芯片與芯片的互連而實(shí)現(xiàn)了將硬件擴(kuò)展到多個(gè)芯片的巨大創(chuàng)新，從而實(shí)現(xiàn)最高性能，in-memory 和 near-memory 計(jì)算技術(shù)主要滿足減少能耗需求。

設(shè)備上的 AI 加速正在通過利用處理器和架構(gòu)對(duì)他們的神經(jīng)網(wǎng)絡(luò)處理器進(jìn)行升級(jí)，這些處理器和架構(gòu)是獨(dú)立半導(dǎo)體的先驅(qū)。半導(dǎo)體領(lǐng)導(dǎo)者、行業(yè)巨頭和數(shù)百家初創(chuàng)公司都在全力將 AI 能力推廣到各個(gè)行業(yè)的大量新型 SoC 和芯片組中，涵蓋從云服務(wù)器組到每個(gè)廚房中的家庭助理等所有環(huán)節(jié)。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)用在許多不同的應(yīng)用中，為使用它們的人提供了強(qiáng)大的新工具。例如，它們可以用于高級(jí)安全威脅分析、預(yù)測(cè)和預(yù)防安全漏洞，以及通過預(yù)測(cè)潛在買家的購(gòu)物流程而幫助廣告商識(shí)別和簡(jiǎn)化銷售流程。這是在融合最新 GPU 和 AI 加速器半導(dǎo)體技術(shù)的服務(wù)器群中運(yùn)行的數(shù)據(jù)中心應(yīng)用的兩個(gè)實(shí)例。

但 AI 設(shè)計(jì)并未包含在數(shù)據(jù)中心內(nèi)。許多新功能可基于傳感器輸入的組合而了解發(fā)生的情況，例如用于對(duì)象和面部檢測(cè)的視覺系統(tǒng)，用于改進(jìn)人機(jī)接口的自然語言理解以及上下文感知)。這些深度學(xué)習(xí)能力已添加到所有行業(yè)的 SoC 中，包括汽車、移動(dòng)、數(shù)字家庭、數(shù)據(jù)中心和物聯(lián)網(wǎng) (IoT)。

為實(shí)現(xiàn)最高性能，針對(duì)云 AI 加速的 SoC 設(shè)計(jì)人員致力于最大限度地提升性能以解決重大問題。執(zhí)行 AI 訓(xùn)練以及為了得到最高準(zhǔn)確度而需要的最復(fù)雜的 AI 算法，需要很高的處理器運(yùn)算能力(TOPS)，這最終可通過縮短訓(xùn)練時(shí)間而降低成本，并減少推理過程所需的能耗。云計(jì)算市場(chǎng)的這些半導(dǎo)體硬件創(chuàng)新使人們認(rèn)為可能需要花費(fèi)數(shù)年開發(fā)才能完成的工作成為可能，并縮短了取得突破的時(shí)間，例如，以識(shí)別和疫苗開發(fā)的形式找到當(dāng)前最令人擔(dān)憂的健康問題的治療方法。

然而，并非所有問題都可以在云端解決，因此，許多 AI 加速器架構(gòu)經(jīng)過修改，可支持邊緣計(jì)算和設(shè)備端 AI。在邊緣服務(wù)器和插入式加速卡中，成本和功耗更加重要。隨著我們?cè)絹碓娇拷⑦M(jìn)入數(shù)據(jù)收集點(diǎn)的應(yīng)用“邊緣設(shè)備加速器”，單位能耗性能的優(yōu)化成為最高設(shè)計(jì)要求。

邊緣設(shè)備加速器的資源、處理和內(nèi)存有限，因此，經(jīng)過訓(xùn)練的算法需要壓縮和裁剪，以滿足功耗和性能的要求，同時(shí)保證所需的準(zhǔn)確性。最大的 AI 細(xì)分市場(chǎng)是設(shè)備端 AI，它會(huì)影響多種應(yīng)用，例如汽車 ADAS、數(shù)字電視的超高圖像分辨率、音頻和語音識(shí)別以及智能音箱中的語言理解。這類應(yīng)用包括執(zhí)行面部檢測(cè)、面部識(shí)別和物體識(shí)別的攝像頭。

例如，在某些行業(yè)中，攝像頭中的設(shè)備端 AI 可對(duì)工業(yè)應(yīng)用執(zhí)行缺陷分析。設(shè)備端 AI 類別還包括消費(fèi)類應(yīng)用，例如手機(jī)和 AR/VR 耳機(jī)，這些應(yīng)用可實(shí)現(xiàn)前面提到的許多AI 功能，例如導(dǎo)航、超高圖像分辨率、語音理解、對(duì)象 / 面部檢測(cè)等，而且所有這些都在小巧的體積中實(shí)現(xiàn)。移動(dòng)設(shè)備通過最新的工藝節(jié)點(diǎn)而持續(xù)在工藝中保持領(lǐng)先地位，這與用于云計(jì)算的工藝節(jié)點(diǎn)類似。邊緣和設(shè)備端計(jì)算不斷優(yōu)化性能。根據(jù)市場(chǎng)的不同，可以采用傳統(tǒng)工藝節(jié)點(diǎn)。

2020 年，AI 市場(chǎng)仍處于初期階段，并有望在未來幾年內(nèi)快速增長(zhǎng)。大于 100W 的云 AI SoC 廠商包括市場(chǎng)領(lǐng)導(dǎo)者NVIDIA 和 Intel。通過先發(fā)優(yōu)勢(shì)，這些廠商占據(jù)了主導(dǎo)地位。大量初創(chuàng)企業(yè)希望在效率方面比這些解決方案高出多倍。此外，Google、TPU、阿里巴巴、亞馬遜和百度等系統(tǒng)公司也設(shè)計(jì)自己的芯片，并通過優(yōu)化而支持其業(yè)務(wù)模式。所有這些公司都為客戶提供云出租服務(wù)，使客戶能夠在云端進(jìn)行培訓(xùn)和推理。

邊緣計(jì)算 (>5W) SoC 通常利用現(xiàn)有的云解決方案，或者經(jīng)過修改的云架構(gòu)，但是許多初創(chuàng)企業(yè)通過更低功耗和更優(yōu)化的解決方案而找到了自己的市場(chǎng)位置，同時(shí)在性能上遠(yuǎn)遠(yuǎn)超越當(dāng)今的解決方案。

在圖2 中，5W 以下市場(chǎng)包括設(shè)備端和獨(dú)立加速器，通常稱為 AIoT 加速器，這一市場(chǎng)正在迅速發(fā)展。對(duì)于設(shè)備端解決方案，移動(dòng)市場(chǎng)在出貨量方面占主導(dǎo)地位，而汽車市場(chǎng)也在快速增長(zhǎng)，例如 Tesla ASIC。在低于 5W 的市場(chǎng)中，AIoT 加速器仍然只占很小的比例，但 Perceive、Kneron、Gyrfalcon、Brainchip 和 GrAI Matter Labs 等公司都在試圖突圍。

每個(gè) AI 市場(chǎng)細(xì)分都有不同的目標(biāo)和挑戰(zhàn)。云 AI SoC 設(shè)計(jì)人員注重縮短昂貴的訓(xùn)練時(shí)間，同時(shí)適應(yīng)可包含 80 億個(gè)甚至更多參數(shù)的最復(fù)雜的新算法。邊緣計(jì)算 AI 設(shè)計(jì)更注重降低功耗和延遲。5G 和設(shè)備端 AI 旨在實(shí)現(xiàn)低延遲，但對(duì)于 5G，這些 AI 并不用于壓縮模型，因?yàn)檫@可能是非常昂貴且耗時(shí)的設(shè)計(jì)過程。對(duì)于設(shè)備端 AI，您需要通過壓縮模型，最大程度優(yōu)化功能和性能的推理。

最后，AIoT獨(dú)立加速器設(shè)計(jì)人員使用更多創(chuàng)新技術(shù)，并且往往是 TOPS/W 的領(lǐng)導(dǎo)者。在提高密度，縮短延遲，以及應(yīng)對(duì)存儲(chǔ)系數(shù)的波動(dòng)方面，他們承擔(dān)著更多的風(fēng)險(xiǎn)，而且他們還是裁剪和壓縮算法以及為客戶實(shí)施算法的專家，提供了獨(dú)特的差異化能力。

除這些獨(dú)特的挑戰(zhàn)外，AI 市場(chǎng)也面臨著一系列核心挑戰(zhàn)，包括：

添加專門的處理能力，可以更高效地執(zhí)行必要的數(shù)學(xué)運(yùn)算，例如矩陣乘法和點(diǎn)積

高效的內(nèi)存訪問，可處理深度學(xué)習(xí)所需的唯一系數(shù)，例如權(quán)重和激活

可靠且經(jīng)過驗(yàn)證的實(shí)時(shí)接口，用于芯片到芯片、芯片到云端、傳感器數(shù)據(jù)以及加速器到主機(jī)的連接

保護(hù)數(shù)據(jù)并防止黑客攻擊和數(shù)據(jù)損壞

AI 模型使用大量?jī)?nèi)存，這增加了芯片的成本。訓(xùn)練神經(jīng)網(wǎng)絡(luò)可能需要幾 GB 到 10 GB 的數(shù)據(jù)，這需要使用最新的 DDR 技術(shù)，以滿足容量要求。例如，作為圖像神經(jīng)網(wǎng)絡(luò)的 VGG-16 在訓(xùn)練時(shí)需要大約 9GB 的內(nèi)存。更精確的模型 VGG-512 需要 89GB 的數(shù)據(jù)才能進(jìn)行訓(xùn)練。為了提高 AI 模型的準(zhǔn)確性，數(shù)據(jù)科學(xué)家使用了更大的數(shù)據(jù)集。同樣，這會(huì)增加訓(xùn)練模型所需的時(shí)間或增加解決方案的內(nèi)存需求。

由于需要大規(guī)模并行矩陣乘法運(yùn)算以及模型的大小和所需系數(shù)的數(shù)量，這需要具有高帶寬存取能力的外部存儲(chǔ)器。新的半導(dǎo)體接口 IP，如高帶寬存儲(chǔ)器 (HBM2) 和未來的衍生產(chǎn)品 (HBM2e)，正被迅速采用，以滿足這些需求。先進(jìn)的 FinFET 技術(shù)支持更大的片上 SRAM 陣列和獨(dú)特的配置，具有定制的存儲(chǔ)器到處理器和存儲(chǔ)器到存儲(chǔ)器接口，這些技術(shù)正在開發(fā)中，目的是更好地復(fù)制人腦并消除存儲(chǔ)器的約束。

AI 模型可以壓縮。這種技術(shù)是確保模型在位于手機(jī)、汽車和物聯(lián)網(wǎng)應(yīng)用邊緣的 SoC 中受限的存儲(chǔ)器架構(gòu)上運(yùn)行所必需的。壓縮采用剪枝(pruning)和量化(pruning)技術(shù)進(jìn)行，而不降低結(jié)果的準(zhǔn)確性。這使得傳統(tǒng) SoC 架構(gòu)(具有 LPDDR 或在某些情況下沒有外部存儲(chǔ)器)支持神經(jīng)網(wǎng)絡(luò)，然而，在功耗和其他方面需要權(quán)衡。隨著這些模型的壓縮，不規(guī)則的存儲(chǔ)器存取和不規(guī)則的計(jì)算強(qiáng)度增加，延長(zhǎng)了系統(tǒng)的執(zhí)行時(shí)間和延遲。因此，系統(tǒng)設(shè)計(jì)人員正在開發(fā)創(chuàng)新的異構(gòu)存儲(chǔ)器架構(gòu)。

AI SoC設(shè)計(jì)解決方案

在SoC中添加 AI 功能突顯了當(dāng)今 SoC 架構(gòu)在 AI 方面的薄弱。在為非 AI 應(yīng)用構(gòu)建的 SoC 上實(shí)施視覺、語音識(shí)別和其他深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法時(shí)，資源非常匱乏。IP 的選擇和集成明確界定了 AI SoC 的基準(zhǔn)效率，這構(gòu)成了 AI SoC 的“DNA”，或者叫先天性。例如，引入定制處理器或處理器陣列可以加速 AI 應(yīng)用中所需的大規(guī)模矩陣乘法。

云AI加速器

為了應(yīng)對(duì)帶寬和可靠性挑戰(zhàn)，云 AI 加速器 SoC 設(shè)計(jì)人員正在集成 HBM2e 和 HBM3，以及用于芯片到芯片通信的高速 SerDes die-to-die 或 PCIe。安全(包括支持 AI 模型加密和身份驗(yàn)證的高速安全協(xié)議加速器)的作用越來越明顯。嵌入式內(nèi)存解決方案的多端口存儲(chǔ)器 (TCAMs) 與 SRAM 編譯器一起有助于減少泄漏。

邊緣計(jì)算AI 加速器

許多邊緣計(jì)算應(yīng)用的主要目標(biāo)是圍繞與較低延遲相關(guān)的新服務(wù)。為了支持較低的延遲，許多新系統(tǒng)都采用了一些最新的行業(yè)接口標(biāo)準(zhǔn)，包括 PCIe 5.0、LPDDR5、DDR5、HBM2e、USB 3.2、CXL、基于 PCIe 的 NVMe 以及其他基于新一代標(biāo)準(zhǔn)的技術(shù)。與上一代產(chǎn)品相比，每一種技術(shù)都通過增加帶寬而降低延遲。

比減少延遲的驅(qū)動(dòng)因素更為突出的是為所有這些邊緣計(jì)算系統(tǒng)增加 AI 加速。AI 加速由某些服務(wù)器芯片通過 x86 擴(kuò)展 AVX-512 向量神經(jīng)網(wǎng)絡(luò)指令 (AVX512 VNNI) 等新指令提供，或者提供給移動(dòng)應(yīng)用處理器，例如高通 DSP 內(nèi)核。很多時(shí)候，這種額外的指令集不足以提供預(yù)期任務(wù)所需的低延遲和低功耗，因此，大多數(shù)新系統(tǒng)中還添加了定制 AI 加速器。這些芯片所需的連接能力通常采用帶寬最高的主機(jī)而實(shí)現(xiàn)加速器連接。例如，由于這些帶寬要求直接影響延遲，PCIe 5.0 正迅速得到廣泛的應(yīng)用，最常見的是用在具有多個(gè) AI 加速器的某種交換配置中。

CXL 是另一種為降低延遲并提供緩存一致性而專門開發(fā)的接口，正迅速興起。由于 AI 算法具有異構(gòu)計(jì)算需求和大量?jī)?nèi)存需求，因此，確保緩存一致性至關(guān)重要。

除了本地網(wǎng)關(guān)和聚合服務(wù)器系統(tǒng)之外，單個(gè) AI 加速器通常無法提供足夠的性能，因此需要借助帶寬極高的芯片到芯片的 SerDes PHY 而擴(kuò)展這些加速器。最新發(fā)布的 PHY 支持 56G 和 112G 連接。支持 AI 擴(kuò)展的芯片到芯片要求已經(jīng)在多個(gè)項(xiàng)目中實(shí)施。在基于標(biāo)準(zhǔn)的實(shí)施項(xiàng)目中，以太網(wǎng)可能是一種可擴(kuò)展的選項(xiàng)，現(xiàn)在已經(jīng)推出了一些基于這種理念的解決方案。然而，當(dāng)今許多實(shí)施項(xiàng)目都是通過專有控制器而利用最高帶寬的 SerDes。不同的架構(gòu)可能會(huì)改變服務(wù)器系統(tǒng)的未來 SoC 架構(gòu)，從而將網(wǎng)絡(luò)、服務(wù)器、AI 和存儲(chǔ)組件整合到集成度更高的 SoC 中，而不是目前實(shí)施的 4 種不同 SoC 中。

設(shè)備端AI

關(guān)于設(shè)備端 AI 處理的一個(gè)最大關(guān)注點(diǎn)就是軟件能力。算法變化很快。設(shè)計(jì)人員需要采用 Tensorflow 和 Caffe 等傳統(tǒng)工具訓(xùn)練初始模型，然后將其映射到設(shè)備上的處理器。借助可針對(duì)特定處理器進(jìn)行優(yōu)化并保持高精度的圖形映射工具，以及進(jìn)行壓縮和修剪的工具，許多工程可以節(jié)省數(shù)月的時(shí)間和精力。如果沒有這些工具，軟件和系統(tǒng)的設(shè)計(jì)速度趕不上硬件的設(shè)計(jì)。

優(yōu)化的內(nèi)存配置可以優(yōu)化設(shè)備端 AI 系統(tǒng)。在開始設(shè)備本身的架構(gòu)設(shè)計(jì)之前，設(shè)計(jì)人員需要擁有可模擬多個(gè) IP 權(quán)限和配置的工具。在運(yùn)行實(shí)際算法的同時(shí)，通過利用處理器模擬片上和片外存儲(chǔ)器，可以在開始設(shè)計(jì)之前為設(shè)計(jì)人員提供最有效的架構(gòu)。由于有些設(shè)計(jì)人員尚不清楚如何優(yōu)化系統(tǒng)，因此，他們經(jīng)常需要為同一過程節(jié)點(diǎn)開發(fā)多代產(chǎn)品，這會(huì)浪費(fèi)數(shù)月的時(shí)間。

最后，傳感器連接對(duì)于設(shè)備端 AI 系統(tǒng)的視覺至關(guān)重要。MIPI CSI-2 是 CMOS 圖像傳感器的最常見實(shí)施。新的 V3 規(guī)范旨在提高機(jī)器感知能力，并支持更高的精度，從而提供更高質(zhì)量的圖像。特別需要指出的是，智能化能力應(yīng)有助于提高效率，因?yàn)樾聰?shù)據(jù)僅在需要時(shí)才提供，而不是提供整個(gè)圖像。I3C 整合了多個(gè)傳感器，為支持多個(gè)系統(tǒng)輸入源提供了一種低成本的方法。

隨著 AI 能力進(jìn)入新市場(chǎng)，選擇用于集成的 IP 為 AI SoC 提供了關(guān)鍵組件。但除了 IP 之外，設(shè)計(jì)人員還發(fā)現(xiàn)，利用 AI 專業(yè)知識(shí)、服務(wù)和工具具有明顯的優(yōu)勢(shì)，能夠確保設(shè)計(jì)的按時(shí)交付，為最終客戶提供高質(zhì)量的服務(wù)和高價(jià)值，以滿足新的創(chuàng)新應(yīng)用需求。

責(zé)任編輯：武曉燕來源：智能計(jì)算芯世界

人工智能 SoC 芯片

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<del id="fi10l"><th id="fi10l"></th></del>

<tt id="fi10l"><video id="fi10l"></video></tt>

<tr id="fi10l"><td id="fi10l"></td></tr>