偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="rrbuj"></dfn>

<blockquote id="rrbuj"></blockquote>

<kbd id="rrbuj"><acronym id="rrbuj"></acronym></kbd>

<sub id="rrbuj"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

不依賴CUDA的大模型推理已經(jīng)實現(xiàn) 原創(chuàng)

發(fā)布于 2024-9-25 10:41

瀏覽

0收藏

在過去的十年中，CUDA已經(jīng)成為深度學(xué)習(xí)模型推理領(lǐng)域的核心技術(shù)。NVIDIA的CUDA技術(shù)優(yōu)化了GPU的性能，提高了數(shù)據(jù)處理的速度和效率。然而，CUDA的主導(dǎo)地位也帶來了對NVIDIA硬件的依賴，這限制了在非NVIDIA平臺上進行高效推理的可能性。為了應(yīng)對這一挑戰(zhàn)，近年來，開源社區(qū)和企業(yè)開始尋求開發(fā)不依賴于特定供應(yīng)商的推理技術(shù)。

Triton的崛起

OpenAI開發(fā)的Triton編程語言應(yīng)運而生，旨在為廣泛的硬件設(shè)備提供高效的并行編程方式。

它允許開發(fā)者編寫一次代碼，就能在NVIDIA、AMD甚至未來的Intel GPU上運行，極大地擴展了AI模型的適用范圍。Triton的出現(xiàn)，不僅打破了CUDA的壟斷，還為AI社區(qū)帶來了新的活力和創(chuàng)新的可能性。

與CUDA相比，Triton提供了一個更靈活、更高級的抽象層，使得開發(fā)者可以在多種類型的GPU上實現(xiàn)優(yōu)化的計算性能，而不僅僅是NVIDIA的產(chǎn)品。

Triton的核心優(yōu)勢在于其對于大型模型如LLM的支持。Triton能夠處理諸如矩陣乘法、正規(guī)化（RMSNorm）、自注意力機制（RoPE）、激活函數(shù)（如SiLU）以及元素級乘法等關(guān)鍵操作，這些都是LLM推理中不可或缺的部分。PyTorch社區(qū)已經(jīng)利用Triton重寫了這些操作的內(nèi)核，通過torch.compile實現(xiàn)了自動生成Triton內(nèi)核的能力。

不依賴CUDA的大模型推理已經(jīng)實現(xiàn)-AI.x社區(qū)

技術(shù)實現(xiàn)細節(jié)

將CUDA內(nèi)核替換為Triton內(nèi)核是一個復(fù)雜的過程，需要精細的調(diào)優(yōu)和定制。例如，PyTorch團隊開發(fā)了一種自定義的FP16 Triton GEMM（General Matrix-Matrix Multiply）內(nèi)核，該內(nèi)核專門針對LLM中的線性層的矩陣乘法進行優(yōu)化。這個過程涉及到對不同線性層權(quán)重矩陣形狀的精確調(diào)整，以確保最佳性能。

此外，flash attention是LLM中另一個關(guān)鍵操作，PyTorch團隊采用了多種配置的Triton flash attention內(nèi)核進行實驗，最終選擇了AMD的Triton flash attention內(nèi)核，因為它能夠在eager和compile模式下提供清晰的輸出，同時兼容torch.compile。

不依賴CUDA的大模型推理已經(jīng)實現(xiàn)-AI.x社區(qū)

性能評估

在性能方面，雖然Triton內(nèi)核的性能尚未完全達到CUDA的水平，但已經(jīng)非常接近。在NVIDIA的H100和A100 GPU上的測試顯示，使用Triton內(nèi)核的模型推理性能達到了CUDA模型性能的78%到82%。這一結(jié)果足以證明，即使是在高要求的應(yīng)用場景下，非CUDA推理也能達到實用的水平。

不依賴CUDA的大模型推理已經(jīng)實現(xiàn)-AI.x社區(qū)

未來發(fā)展方向

展望未來，Triton內(nèi)核還有很大的優(yōu)化空間。PyTorch團隊和OpenAI已經(jīng)在探索更高效的內(nèi)核設(shè)計，如利用更精細的工作分解策略和持久內(nèi)核技術(shù)，這可能會進一步提高Triton的計算效率并縮小與CUDA的性能差距。此外，隨著FlexAttention和FlashAttention-3等新技術(shù)的引入，PyTorch有望在更廣泛的硬件平臺上實現(xiàn)更長的上下文長度和更大規(guī)模的解碼任務(wù)，這將推動整個行業(yè)向前發(fā)展。

Triton中國社區(qū)的發(fā)展和影響

2024年，智源研究院舉辦了多期Triton中國生態(tài)Meetup活動，這些活動不僅聚焦于技術(shù)分享和經(jīng)驗交流，也致力于構(gòu)建一個開放、協(xié)作的Triton技術(shù)生態(tài)體系。國內(nèi)大量支持Triton語言編程的芯片廠商積極參與了交流。

不依賴CUDA的大模型推理已經(jīng)實現(xiàn)-AI.x社區(qū)

隨著Triton和其他非CUDA技術(shù)的成熟，社區(qū)正逐步克服對特定硬件供應(yīng)商的依賴，這將使得大模型推理技術(shù)更加普及和可用。這一進展不僅對科研人員和開發(fā)者具有重要意義，也對推動AI技術(shù)的普及具有深遠影響。隨著更多的創(chuàng)新和研究，未來的大模型推理將更加高效、靈活和開放。

參考鏈接：

1. https://pytorch.org/blog/cuda-free-inference-for-llms/
2. https://hub.baai.ac.cn/view/39486

本文轉(zhuǎn)載自公眾號AI時代窗口作者：郁愈

原文鏈接：??https://mp.weixin.qq.com/s/TrzwSBQ301Grcpye9-pt1Q???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

大模型推理

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

更好、更安全、更不依賴OpenAI，微軟的AI新動向，推出大模型安全工具Azure AI

51CTO技術(shù)棧 ? 3847瀏覽 ? 0回復(fù)
開源大模型可能不香了！您在微調(diào)開源大模型的時候，很可能已經(jīng)泄露了您寶貴的數(shù)據(jù)！

AIGC最前線 ? 4895瀏覽 ? 0回復(fù)
更好、更安全、更不依賴OpenAI，微軟的AI新動向，推出大模型安全工具Azure AI

51CTO技術(shù)棧 ? 3744瀏覽 ? 0回復(fù)
CVPR 2024 Highlight | 基于單曝光壓縮成像，不依賴生成模型也能從單張圖像中重建三維場景

輕薄滴假象 ? 3981瀏覽 ? 0回復(fù)
AI學(xué)會隱藏思維暗中推理！不依賴人類經(jīng)驗解決復(fù)雜任務(wù)，更黑箱了

Crystalcxt ? 3423瀏覽 ? 0回復(fù)
時序預(yù)測Decoder中的時間步依賴問題

海因斯DK ? 4702瀏覽 ? 0回復(fù)
大模型的條件推理和模態(tài)推理

xuxiangda ? 4669瀏覽 ? 0回復(fù)
幾何視角下的大語言模型推理

sbf_2000 ? 3890瀏覽 ? 0回復(fù)
多模態(tài)大模型的實現(xiàn)原理，以及技術(shù)難點

AI探索時代 ? 7800瀏覽 ? 0回復(fù)
不依賴特定模型的統(tǒng)一模型壓縮框架CPD發(fā)布

angel ? 3591瀏覽 ? 0回復(fù)
你是否還在認為大模型沒什么實際作用？事實上大模型應(yīng)用已經(jīng)遍地開花

AI探索時代 ? 3117瀏覽 ? 0回復(fù)
使用 LlamaFactory 結(jié)合開源大語言模型實現(xiàn)文本分類：從數(shù)據(jù)集構(gòu)建到 LoRA 微調(diào)與推理評估

AI悠閑區(qū) ? 9851瀏覽 ? 0回復(fù)
多智能體微調(diào)：用多樣化推理鏈實現(xiàn)語言模型的自我提升

sbf_2000 ? 4105瀏覽 ? 0回復(fù)
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍

輕薄滴假象 ? 2965瀏覽 ? 0回復(fù)
如何確認深度學(xué)習(xí)模型的loss已經(jīng)收斂好了？

石映飛云 ? 3068瀏覽 ? 0回復(fù)
ReSearch: 突破性強化學(xué)習(xí)框架實現(xiàn)大模型推理搜索能力無縫整合

頓數(shù)AI ? 9919瀏覽 ? 0回復(fù)
Fin-R1：通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型

AIRoobt ? 4286瀏覽 ? 0回復(fù)
大模型推理能力的局限性

JavaEdge1 ? 2696瀏覽 ? 0回復(fù)
循環(huán)網(wǎng)絡(luò)能否提升推理能力？分層推理模型已經(jīng)問世！

51CTO內(nèi)容精選 ? 1663瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

企業(yè)部署DeepSeek的AI基礎(chǔ)設(shè)施方案建議 2025-03-03 09:51:14發(fā)布
大模型部署解決方案之TorchServe+vLLM 2024-11-12 09:29:13發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

下一篇：大模型訓(xùn)練集群的存儲設(shè)計

社區(qū)精華內(nèi)容

目錄

<sub id="0xdr1"></sub>

<style id="0xdr1"></style>