偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

熵減AI
LV.2
科技類博客
聲望 121
關(guān)注 0
粉絲 0
私信
主帖 15
回帖
最近更新的比較少,因?yàn)橐恢痹诖蚪职?的天梯,我已經(jīng)沖到鉆石了,離大師一步之遙。然而...今天又被人問了MOE和dense到底區(qū)別在哪,但是他說(shuō)的很多理解是完全錯(cuò)的。其實(shí)我以前講過(guò),但是可能沒那么細(xì),所以我今天仔細(xì)澄清一下大家理解的誤區(qū)。如果隨便答,其實(shí)什么推理省顯存,簡(jiǎn)單的道理,因?yàn)閍ctivation少了么,原來(lái)要激活整個(gè)MLP,現(xiàn)在激活的幾個(gè)expert之類的云答案,這種很好找的。那么問題來(lái)了,激活experts(一般需要N)就...
2025-09-29 07:29:01 1596瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天本來(lái)就想更一期強(qiáng)化學(xué)習(xí),但是突然看了Anthropic的personavector,所以又來(lái)寫這一篇,因?yàn)槲矣X得這個(gè)很有價(jià)值。以往我們玩LLM比較怕的事就是他亂說(shuō)話作為概率模型,它能說(shuō)對(duì),它也能亂編,亂編輕癥就是所謂的幻覺,亂編的重癥就嚴(yán)重了,比如輸出一些有毒的內(nèi)容,涉黃涉恐內(nèi)容,雖然上線前都做過(guò)毒性測(cè)試,但是事實(shí)證明,幾乎任何模型都在一定條件下可以被jailbreak。還有一個(gè)就是可解釋性。神經(jīng)網(wǎng)絡(luò)尤其LLM一直被詬病就是不...
2025-08-11 06:51:42 1445瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片一般你們下AR模型的時(shí)候,都有這個(gè),也就是tokenzier,tokenizer是干啥的,其實(shí)就是你的分詞字典不光有specal的token對(duì)應(yīng)的還有實(shí)際的對(duì)應(yīng)的分詞對(duì)應(yīng)的代碼,比如:圖片也有tokenzier沒顯示的,比如,為什么呢?因?yàn)樗皇俏谋灸P停思逸斎胧锹曇?,因?yàn)樗茿SR扯遠(yuǎn)了,回歸主題tokenizer之所以總是個(gè)獨(dú)立的model,因?yàn)樗蛅ransformer不是一個(gè)網(wǎng)絡(luò),它也不參與transformer訓(xùn)練時(shí)候的反向傳播(和embedding層兩回事,embed...
2025-07-28 00:36:21 1202瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片清華,交大,普林斯頓和德州奧斯丁,港大等一堆學(xué)生聯(lián)合完成的一篇論文(全華班)文章雖然被冠以Distill,但是嚴(yán)格說(shuō)和我們理解的Distill沒啥關(guān)系,最早的Distill要求有訓(xùn)練任務(wù)和損失的交互,后來(lái)Deepseek把抽COT數(shù)據(jù)來(lái)FT也叫Distill直到這個(gè)文章,連LLM的參數(shù)都被凍結(jié)了,也算是老詞新用吧!AgentDistill實(shí)現(xiàn)知識(shí)蒸餾的機(jī)制與傳統(tǒng)的大語(yǔ)言模型(LLM)蒸餾方法不同。它通過(guò)以下關(guān)鍵方式實(shí)現(xiàn)知識(shí)轉(zhuǎn)移:訓(xùn)練無(wú)關(guān)的代理蒸餾:...
2025-07-07 06:58:39 1305瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
排名是真的挺好,開源閉源現(xiàn)在都是第一了,這個(gè)事embeddiing的,rerank應(yīng)該也是第一,甚至4B的基本也除了8B以外就是它第一。它和普通的比如原來(lái)的我們常用的BGE之類的有啥區(qū)別?傳統(tǒng)的embedding都是基于bert來(lái)弄模型,一般也就encoderonly,bert原來(lái)也就是干分類器的,給一句話到它,它給你進(jìn)行embedding了,這里考慮到有些同學(xué)可以不理解整套流程,我就稍微說(shuō)細(xì)點(diǎn)一般來(lái)講用3層法就很好理解:第一層:詞元嵌入(TokenEmbedding...
2025-06-23 06:46:29 2488瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我覺得LLaMA4最值得看的技術(shù)就是iRoPE,他們自己沒出說(shuō)說(shuō)明,所以我試著解讀了一下:簡(jiǎn)單來(lái)說(shuō),iRoPE技術(shù)是對(duì)標(biāo)準(zhǔn)RoPE位置編碼方式的升級(jí),主要解決了在處理超長(zhǎng)文本時(shí)出現(xiàn)的問題。交錯(cuò)式應(yīng)用(InterleavedApplication):標(biāo)準(zhǔn)RoPE在模型的每一層Q和K都用旋轉(zhuǎn)操作來(lái)編碼PI頁(yè)就是位置編碼。iRoPE的做法是“交替進(jìn)行”——有些層用帶RoPE的注意力機(jī)制,有些層不用(或者用其他方法)。這樣做的目的是為了防止在處理很長(zhǎng)的文本時(shí),位...
2025-06-10 06:42:53 1634瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
最近看了一張畫Agent記憶分類的圖我覺得分類分的還可以,但是太淺了,于是就著它的邏輯,仔細(xì)得寫了一下在不同的記憶層,該如何設(shè)計(jì)和選型先從流程,作用,實(shí)力和持續(xù)時(shí)間的這4個(gè)維度來(lái)解釋一下這幾種記憶:1.短期記憶(ShortTermMemory,STM)流程:Input(輸入)→Encode(編碼)→Store(存儲(chǔ))→Erase(清除)作用:在進(jìn)行活動(dòng)時(shí)保持臨時(shí)細(xì)節(jié),類似于我們?cè)趯?duì)話中臨時(shí)記住的信息。示例:保存最近的交互信息,比如剛剛發(fā)送的...
2025-05-27 07:11:12 2151瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
那什么是粗暴的控制LLM的幻覺的方法呢?正常你們大家學(xué)到的應(yīng)該是temperature0topk1topp0.1類似這種的但是這種是不是能解決幻覺呢?很顯然在做的各位試過(guò),應(yīng)該是沒什么效果的。為什么呢正常來(lái)講,我們不是把生成nexttoken的概率放到最大的那個(gè)token上了嗎?今天先回憶個(gè)概念LLM是靠什么來(lái)決定nexttoken生成的,就是Logit,就是softmax你的前向計(jì)算的最后一層(這么表達(dá)不精確,但是你可以認(rèn)為就算最后一層了)過(guò)了output之后呢...
2025-05-14 00:30:26 1706瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
如果你玩過(guò)開源的Text2video,也就是文生視頻,也會(huì)感慨AI越來(lái)越能整活兒了,但是如果你好奇去各大平臺(tái)看一圈,基本上視頻最大就是在810秒左右,甚至有35秒的。(sora能到20秒)當(dāng)然有兄弟說(shuō)是算力的問題,這個(gè)確實(shí)是一個(gè)問題,生成視頻diffusion的算力確實(shí)要比純text多,但是這個(gè)如果有錢也不是問題(后文我們發(fā)現(xiàn)其實(shí)就算有錢也是問題),但是現(xiàn)在我們談?wù)摰氖清X解決不了的問題,一致性。這個(gè)一致性指的是多幀一致性比如這個(gè)...
2025-04-28 00:07:45 2669瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我見過(guò)的最省的GPT4o,Claude,Gemini2級(jí)別的模型,而且是國(guó)內(nèi)唯一有機(jī)會(huì)上桌的,其實(shí)海外目前和這三家有資格掰手腕的也只有它自己,可以負(fù)責(zé)任的說(shuō)其他的模型不配上桌吃菜(Gemini上個(gè)月都沒資格)。其實(shí)性能好就不說(shuō)了,DeepseekR1就還不錯(cuò),國(guó)內(nèi)講道理是第一家做inferencetimingscalinglaw的模型,阿里是第二家,其他的就不太值得談?wù)摿耍鋵?shí)國(guó)外也只有GPT和Google有資格,沒想到年底還能出個(gè)DeepseekV3,在傳統(tǒng)scalinglaw...
2025-04-16 07:55:06 3105瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
論文名稱KBLAM:KNOWLEDGEBASEAUGMENTEDLANGUAGEMODELICLR2025的論文,MS系的這篇論文介紹了一種名為KBLAM(KnowledgeBaseaugmentedLanguageModel,知識(shí)庫(kù)增強(qiáng)語(yǔ)言模型)的新方法,用于將外部知識(shí)庫(kù)(KB)高效地集成到預(yù)訓(xùn)練的大型語(yǔ)言模型(LLM)中,以提升其在特定任務(wù)中的表現(xiàn),同時(shí)避免傳統(tǒng)方法的局限性。核心問題與背景LLM雖然在知識(shí)和推理方面表現(xiàn)優(yōu)異,但當(dāng)需要處理超出其參數(shù)存儲(chǔ)知識(shí)的外部信息時(shí),往往需要額外的增強(qiáng)手...
2025-04-03 07:30:02 3125瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
我之前演示過(guò)幾個(gè)OpenManus的demo,其實(shí)也就是demo,包括manus,現(xiàn)在也就是demo階段,復(fù)雜的plan和flow,現(xiàn)在的代碼支撐和LLM的能力都有待改善,但是我們這期不是吐槽文章,是來(lái)把OpenManus給打開看看它的實(shí)現(xiàn)是怎么樣的,其實(shí)Manus也都差不多,甚至OWL也都差不多,我們看一個(gè)就夠了。其他的幾個(gè)目錄也沒啥特別需要看的,就看app。app里面有這么幾個(gè)結(jié)構(gòu):1agent沒啥好解釋的2flow就是來(lái)做multiagent的planning和管理任務(wù)框架的...
2025-03-25 00:31:21 3452瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
總結(jié),模型門戶留給GPT5去做了,4.5還是像Altman之前說(shuō)的就是最后一代純預(yù)訓(xùn)練。1一個(gè)超巨大的模型,grok3級(jí)別(10萬(wàn)卡),AK說(shuō)每個(gè)0.5要提升10倍預(yù)訓(xùn)練算力,那對(duì)比GPT4的1.8T,也就說(shuō)4.5是一個(gè)18T(18000B)級(jí)別的模型,所以必須跨多campus,異步梯度下降的訓(xùn)練方式(要求太高,這個(gè)目前只有g(shù)rok,oai,gemini,3家真正嚴(yán)格實(shí)踐過(guò),anthropic都不行)。2擁有更多的知識(shí)(o3和人類比如博士生做題的合成數(shù)據(jù)),比4o能力提升百分之50(其實(shí)...
2025-03-12 00:22:42 2965瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
其實(shí)我這個(gè)問題不算瞎問。在你的項(xiàng)目里,你是真覺得GraphRAG有用,還是就圖個(gè)新鮮勁,這個(gè)是非常重要的思考。RAG能干啥,其實(shí)不用復(fù)雜的解釋了。傳統(tǒng)的方式就是基于向量余弦近似度的查找,當(dāng)然BM25其實(shí)也是傳統(tǒng)RAG(別把它當(dāng)新東西),常見一點(diǎn)的基本都有向量查找,或者向量+BM25關(guān)鍵字集成查找,為了方便我就畫向量的了。如下圖:通用LLM里不太存在專用領(lǐng)域的知識(shí),RAG可以作為外掛知識(shí)庫(kù)的補(bǔ)充,補(bǔ)充新的知識(shí),另外有些問題,...
2025-02-27 13:11:25 3079瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
有點(diǎn)意思的論文2410.13639ACOMPARATIVESTUDYONREASONINGPATTERNSOFOPENAI’SO1MODEL簡(jiǎn)而言之就是曼徹斯特大學(xué),浙大和中科大還有一些開源的項(xiàng)目組一些一起研究OpenAIO1的人,來(lái)發(fā)O1為什么牛B的論文。正常,研究紅樓夢(mèng)畢竟也有紅學(xué)(我是一集紅樓夢(mèng)也沒看過(guò),書和電視都沒看過(guò))。。。文章主要講分析猜測(cè)和評(píng)估OpenAI的推理模式在不同任務(wù)上的效果。同時(shí)也利用不同的模型比如GPT4o,Gemma,LLama,Qwen等嘗試?yán)梅治龀鰜?lái)的O1的推...
2025-02-19 09:11:43 2826瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
獲得成就
已積累 7611 人氣
獲得 0 個(gè)點(diǎn)贊
獲得 0 次收藏