Llama4我的理解
我覺(jué)得LLaMA4最值得看的技術(shù)就是iRoPE,他們自己沒(méi)出說(shuō)說(shuō)明,所以我試著解讀了一下:
簡(jiǎn)單來(lái)說(shuō),iRoPE 技術(shù)是對(duì)標(biāo)準(zhǔn) RoPE 位置編碼方式的升級(jí),主要解決了在處理超長(zhǎng)文本時(shí)出現(xiàn)的問(wèn)題。
交錯(cuò)式應(yīng)用 (Interleaved Application):
標(biāo)準(zhǔn) RoPE 在模型的每一層Q和K都用旋轉(zhuǎn)操作來(lái)編碼PI頁(yè)就是位置編碼。
iRoPE 的做法是“交替進(jìn)行”——有些層用帶 RoPE 的注意力機(jī)制,有些層不用(或者用其他方法)。
這樣做的目的是為了防止在處理很長(zhǎng)的文本時(shí),位置信息因?yàn)檫B續(xù)旋轉(zhuǎn)而變得混亂或丟失,從而讓模型更好地理解長(zhǎng)距離的關(guān)聯(lián)。
動(dòng)態(tài)尺度調(diào)整 (Dynamic Scale Adjustment):
標(biāo)準(zhǔn) RoPE 使用固定的頻率參數(shù)θ。
當(dāng)處理的文本長(zhǎng)度超過(guò)模型訓(xùn)練時(shí)設(shè)定的最大長(zhǎng)度時(shí),這些頻率參數(shù)可能會(huì)超出模型能有效處理的范圍,影響效果。
iRoPE 可能(我猜的)會(huì)使用動(dòng)態(tài)調(diào)整尺度或改進(jìn)頻率計(jì)算的方法,確保旋轉(zhuǎn)角度在處理超長(zhǎng)文本時(shí)仍然在合理的范圍內(nèi)。
通過(guò)上面2個(gè)改進(jìn),iRoPE 能夠處理非常長(zhǎng)的文本(比如 10M token),而標(biāo)準(zhǔn) RoPE 根本打不上去,現(xiàn)在市面上最狠的夜就是Gemini的2M了,我覺(jué)得llama4就這么一個(gè)值得說(shuō)的,對(duì)了還有一個(gè)就是因?yàn)楦愣嗄B(tài)了,所以pretrain的數(shù)據(jù)一下翻番了,30T,這對(duì)賣(mài)卡的是個(gè)好消息。
本文轉(zhuǎn)載自??熵減AI??,作者:周博洋
