偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<acronym id="th4iw"><cite id="th4iw"><strong id="th4iw"></strong></cite></acronym>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

【TVM 教程】編寫自定義 Pass 原創(chuàng)

HyperAI超神經(jīng)

發(fā)布于 2025-6-3 10:50

瀏覽

0收藏

Apache TVM是一個(gè)深度的深度學(xué)習(xí)編譯框架，適用于 CPU、GPU 和各種機(jī)器學(xué)習(xí)加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/

作者：Jian Weng

TVM 是一個(gè)抽象出機(jī)器學(xué)習(xí)加速器異質(zhì)性的框架，有時(shí)用戶希望自定義一些分析和 IR 轉(zhuǎn)換，使得 TVM 適應(yīng)自己的專用硬件。本教程介紹如何在 TVM 中編寫自定義 Pass。

先決條件?

閱讀本教程前，假設(shè)讀者已經(jīng)熟悉以下主題：

在 TVM 中編寫算法并對其進(jìn)行調(diào)度，若不熟悉，請參閱示例教程如?如何在 CPU 上優(yōu)化 GEMM。
熟悉 HalideIR 的基本結(jié)構(gòu)，若不熟悉，請參閱?HalideIR/src/ir/IR.h?了解定義了 IR 節(jié)點(diǎn)的哪些屬性。
訪問器設(shè)計(jì)模式，若不熟悉，請參閱?Python AST 模塊?以查看 AST 訪問器的實(shí)現(xiàn)原理。
Schedule 如何降低為 IRModule 類或 LLVM 模塊。若不熟悉，請參閱?python/tvm/build_module.py?獲取相關(guān)基礎(chǔ)知識。

import tvm
from tvm import te
import numpy as np

首先編寫一個(gè)簡單的向量加法，并用默認(rèn) schedule 構(gòu)建。然后，使用自定義的降低 pass 而非調(diào)度原語，來直接操作 IR。

n = tvm.tir.const(128, "int32")
a = te.placeholder((n,), name="a")
b = te.placeholder((n,), name="b")
c = te.compute((n,), lambda i: a[i] + b[i], name="c")

sch = te.create_schedule(c.op)
ir = tvm.lower(sch, [a, b, c])
print(ir)

輸出結(jié)果：

@main = primfn(a_1: handle, b_1: handle, c_1: handle) -> ()
  attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}
  buffers = {a: Buffer(a_2: Pointer(float32), float32, [128], []),
             b: Buffer(b_2: Pointer(float32), float32, [128], []),
             c: Buffer(c_2: Pointer(float32), float32, [128], [])}
  buffer_map = {a_1: a, b_1: b, c_1: c}
  preflattened_buffer_map = {a_1: a_3: Buffer(a_2, float32, [128], []), b_1: b_3: Buffer(b_2, float32, [128], []), c_1: c_3: Buffer(c_2, float32, [128], [])} {
  for (i: int32, 0, 128) {
    c[i] = (a[i] + b[i])
  }
}

編寫 Pass?

本質(zhì)上，「IR 轉(zhuǎn)換 pass」是將語句映射到新語句的函數(shù)。因此，我們要定義這個(gè)向量化函數(shù)，并逐步實(shí)現(xiàn)它。

TVM 為用戶提供了兩個(gè)類來分析和轉(zhuǎn)換 IR。

IR 訪問器?

可以用?tvm.tir.stmt_functor.post_order_visit(stmt, func)?從 Halide IR 中收集信息。?func?是一個(gè)回調(diào)函數(shù)，會在退出當(dāng)前 IR 節(jié)點(diǎn)之前調(diào)用，即 post-order visit。然后存儲 IR 訪問的結(jié)果，因?yàn)?func?的返回值將被忽略。

備注

必須用數(shù)組來存儲 IR 訪問的結(jié)果。值甚至是一個(gè)單變量。這主要是由于 Python-C runtime 的限制，每次遞歸都會刷新變量值，但會保留數(shù)組值。

loops = []

def find_width8(op):
    """查找范圍可以被 8 整除的所有「tir.For」節(jié)點(diǎn)。"""
    if isinstance(op, tvm.tir.For):
        if isinstance(op.extent, tvm.tir.IntImm):
            if op.extent.value % 8 == 0:
                loops.append(op)

IR 轉(zhuǎn)換?

轉(zhuǎn)換接口與訪問器接口略有不同。訪問器中只有一個(gè)后序回調(diào)，但轉(zhuǎn)換訪問器同時(shí)支持前序回調(diào)和后序回調(diào)。若要保留原始 IR 節(jié)點(diǎn)，只需返回 None。若要將當(dāng)前節(jié)點(diǎn)更改為某個(gè)節(jié)點(diǎn)，使用 TVM IR maker 接口構(gòu)建，并返回這個(gè)值。

備注

若調(diào)用 pre-order 函數(shù)后返回一個(gè)非 None 的值，則將跳過 post-order 函數(shù)。

def vectorize8(op):
    """Split 可以向量化 `find_width8` 中的循環(huán)。"""
    if op in loops:
        extent = op.extent.value
        name = op.loop_var.name
        lo, li = te.var(name + ".outer"), te.var(name + ".inner")
        body = tvm.tir.stmt_functor.substitute(op.body, {op.loop_var: lo * 8 + li})
        body = tvm.tir.For(li, 0, 8, tvm.tir.ForKind.VECTORIZED, body)
        body = tvm.tir.For(lo, 0, extent // 8, tvm.tir.ForKind.SERIAL, body)
        return body
    return None

@tvm.tir.transform.prim_func_pass(opt_level=0)
def vectorize(f, mod, ctx):
    global loops

    tvm.tir.stmt_functor.post_order_visit(f.body, find_width8)

    if not loops:
        return f

    # 最后一個(gè)列表參數(shù)表示將轉(zhuǎn)換哪些類型的節(jié)點(diǎn)。
    # 在這種情況下，只有 `For` 節(jié)點(diǎn)會調(diào)用 `vectorize8`
    return f.with_body(tvm.tir.stmt_functor.ir_transform(f.body, None, vectorize8, ["tir.For"]))

對接低層（Glue to Lowering）?

到目前為止，已經(jīng)完成了這個(gè) IR 轉(zhuǎn)換 pass 的編寫。接下來將這個(gè) pass 和 TVM 的底層 pass 對接。

在這種情況下，通過元組列表作為參數(shù)提供給?tir.add_lower_pass，將上面編寫的 pass 注入 TVM 標(biāo)準(zhǔn)較低級的 pass。「元組」表示降級的不同階段。 TVM 中有四個(gè)階段的降級，每個(gè)階段完成后，都會調(diào)用自定義的階段。

備注

以下是每個(gè)階段完成的基本轉(zhuǎn)換：

階段 0 生成原始 IR 和循環(huán)級別。
階段 1 扁平化數(shù)組存儲。
階段 2 轉(zhuǎn)換循環(huán)，如展開、矢量化和線程綁定。
階段 3 清理工作。

因此，這個(gè)轉(zhuǎn)換 pass 適合放在第 1 階段之后。

with tvm.transform.PassContext(config={"tir.add_lower_pass": [(1, vectorize)]}):
    print(tvm.lower(sch, [a, b, c]))

輸出結(jié)果：

@main = primfn(a_1: handle, b_1: handle, c_1: handle) -> ()
  attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}
  buffers = {a: Buffer(a_2: Pointer(float32), float32, [128], []),
             b: Buffer(b_2: Pointer(float32), float32, [128], []),
             c: Buffer(c_2: Pointer(float32), float32, [128], [])}
  buffer_map = {a_1: a, b_1: b, c_1: c}
  preflattened_buffer_map = {a_1: a_3: Buffer(a_2, float32, [128], []), b_1: b_3: Buffer(b_2, float32, [128], []), c_1: c_3: Buffer(c_2, float32, [128], [])} {
  for (i.outer: int32, 0, 16) {
    let cse_var_1: int32 = (i.outer*8)
    c[ramp(cse_var_1, 1, 8)] = (a[ramp(cse_var_1, 1, 8)] + b[ramp(cse_var_1, 1, 8)])
  }
}

快速回顧?

快速回顧本教程有關(guān)編寫自定義 IR 轉(zhuǎn)換 pass：

用?tvm.tir.stmt_functor.post_order_visit?收集每個(gè) IR 節(jié)點(diǎn)的信息。
用?tvm.tir.stmt_functor.ir_transform?轉(zhuǎn)換 IR 節(jié)點(diǎn)。
總結(jié)以上兩點(diǎn)來編寫一個(gè) IR 轉(zhuǎn)換函數(shù)。
用?tvm.transform.PassContext?將此函數(shù)放入 TVM 降級 pass。

下載 Python 源代碼：low_level_custom_pass.py

下載 Jupyter Notebook：low_level_custom_pass.ipynb

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

機(jī)器學(xué)習(xí)

編寫自定義 Pass

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

文生超逼真歌曲，可自定義歌詞、時(shí)間延長

Aceryt ? 4088瀏覽 ? 0回復(fù)
谷歌定義了新搜索，殺死了Perplexity？

51CTO技術(shù)棧 ? 3117瀏覽 ? 0回復(fù)
Udio: AI音樂生成新工具教程

AIGC最前線 ? 7830瀏覽 ? 0回復(fù)
Tailor3D:自定義3D編輯和資產(chǎn)生成（港大&上海AI-Lab&港中文）

angel ? 2815瀏覽 ? 0回復(fù)
如何編寫出色的生成式AI提示？

51CTO內(nèi)容精選 ? 2400瀏覽 ? 0回復(fù)
基于自定義數(shù)據(jù)集的YOLOv8模型實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 3945瀏覽 ? 0回復(fù)
Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 5024瀏覽 ? 0回復(fù)
如何使用模型上下文協(xié)議構(gòu)建自定義工具

51CTO內(nèi)容精選 ? 2744瀏覽 ? 0回復(fù)
大模型 SFT 有監(jiān)督微調(diào)教程

AI悠閑區(qū) ? 2214瀏覽 ? 0回復(fù)
怎么自定義一個(gè)數(shù)據(jù)集？自定義數(shù)據(jù)集面臨哪些問題？

AI探索時(shí)代 ? 2177瀏覽 ? 0回復(fù)
自己打包一個(gè)數(shù)據(jù)集代碼案例——使用Numpy計(jì)算框架自定義一個(gè)類似MINST的數(shù)據(jù)集

AI探索時(shí)代 ? 1974瀏覽 ? 0回復(fù)
DeepSeek-編寫智能體提示詞模板的10個(gè)編程常識

九歌AI大模型 ? 3899瀏覽 ? 0回復(fù)
【模型測試】基于OpenCompass構(gòu)建Dify應(yīng)用的自定義評測體系

一起AI技術(shù) ? 2685瀏覽 ? 0回復(fù)
【TVM 教程】創(chuàng)建使用 microTVM 的 MLPerfTiny 提交

HyperAI超神經(jīng) ? 714瀏覽 ? 0回復(fù)
【TVM 教程】開發(fā)環(huán)境中加入 microTVM

HyperAI超神經(jīng) ? 637瀏覽 ? 0回復(fù)
【TVM 教程】如何使用 TVM Pass Infra

HyperAI超神經(jīng) ? 631瀏覽 ? 0回復(fù)
【TVM 教程】如何使用 TVM Pass Instrument

HyperAI超神經(jīng) ? 357瀏覽 ? 0回復(fù)
【TVM 教程】在 TVM 中使用 Bring Your Own Datatypes

HyperAI超神經(jīng) ? 368瀏覽 ? 0回復(fù)
【TVM 教程】PAPI 入門

HyperAI超神經(jīng) ? 163瀏覽 ? 0回復(fù)

HyperAI超神經(jīng)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：內(nèi)含教程丨微軟Aurora計(jì)算速度提升5000倍，可預(yù)測極端天氣/空氣質(zhì)量/海浪/氣旋路徑等

下一篇：深度強(qiáng)化學(xué)習(xí)賦能城市消防優(yōu)化，中科院團(tuán)隊(duì)提出DRL新方法破解設(shè)施配置難題

社區(qū)精華內(nèi)容

目錄