在當今數字化時代,文檔處理和翻譯需求日益增長,尤其對于科研人員、學生以及企業(yè)專業(yè)人士來說,高效、準確地處理復雜文檔是提升工作效率的關鍵。今天,我要向大家介紹一款備受矚目的智能文檔處理工具——Doc2X。它以其卓越的性能和強大的功能,正在成為眾多用戶的首選。官網地址:https:doc2x.noedgeai.com日常接觸的知識庫源文件,大多都是PDF格式,尤其是包含掃描件、學術論文、產品手冊和財報的。這些文檔的特點就是——排...
在數字化時代,視覺信息在知識傳遞和決策支持中的重要性日益凸顯。然而,傳統(tǒng)的檢索增強型生成(RAG)方法在處理視覺豐富信息時面臨著諸多挑戰(zhàn)。一方面,傳統(tǒng)的基于文本的方法無法處理視覺相關數據;另一方面,現有的視覺RAG方法受限于定義的固定流程,難以有效激活模型的推理能力。來自阿里巴巴通義實驗室的最新研究成果——VRAGRL(EmpowerVisionPerceptionBasedRAGforVisuallyRichInformationUnderstandingviaIterativeReaso...
2025-06-16 07:56:18 572瀏覽 0點贊 0回復 0收藏
去年底的時候,筆者寫過,與其在RAG系統(tǒng)上雕花,可以重新思考一下,自己的業(yè)務場景是否非RAG不可嗎?隨著去年大模型的蓬勃發(fā)展,長度外推、更長的上下文模型,更厲害的中文底座大模型,都可以讓整個系統(tǒng)的壓力往生成部分上遷移。后來筆者造了一個詞,文檔片段化。對于常規(guī)的pdf問答檔問答,基本上都能使用單一的大模型覆蓋到了。但是對于知識庫,文檔庫的問答,似乎RAG還是必不可少的。但是如果生成模型能力更強了,那與其在思...
2025-06-04 06:19:46 428瀏覽 0點贊 0回復 0收藏
論文分享,ReinforcementLearningforReasoninginLargeLanguageModelswithOneTrainingExample這個論文看起來挺有意思,比較反常識,代碼開源:https:github.comypwang61OneShotRLVR。在Math500上,讓Qwen2.5Math1.5B性能翻倍,從36%提升到73.6%。讓Qwen2.5Math7B,從51%提升到79.2%。僅需要1個樣本進行強化學習訓練即可達到。如下圖,最終收斂跟藍色線(一個1000多個樣本的數據集)訓練出來的效果差不多。那這個樣本到底是個什么...
2025-05-21 06:48:13 905瀏覽 0點贊 0回復 0收藏
論文筆記分享,ReasoningModelsCanBeEffectiveWithoutThinking。ucberkeley。目前主流的推理模型在解決問題時,通常會有一個think階段。這種方式雖然結果會大幅提升,但消耗的計算資源卻不少。所以,這個文章研究的問題是:AI真的需要這么“認真思考”嗎?注:本文寫于o3發(fā)布之前,o3的思考充分利用工具能力,模型即產品,有一點跳脫o1版推理大模型的范疇了。另外,今天開源的Gemini2.5Flash,支持了thinkingbudget,有一些理念...
2025-04-23 07:14:33 1076瀏覽 0點贊 0回復 0收藏
Meta開源llama4,原生多模態(tài)模型,慣例,支持200多種語言,除了中文。有點堆活,主要特色是,可以單張GPU運行近1000wtoken上下文的模型,所以直接對標gemini了?1000萬token上下文窗口意味著什么?相當于可以處理20多小時的視頻內容(因為它是原生多模態(tài)模型)。三款全新模型同步發(fā)布Scout:17B激活參數(16個專家)。速度極快,原生多模態(tài),智能程度高。達到業(yè)界領先的1000萬+token上下文窗口,并且可以在單個GPU上運行!Maver...
2025-04-10 07:06:26 1585瀏覽 0點贊 0回復 0收藏
一篇對deepseekr1論文補漏的文章,做了很多額外的實驗,內容很到位,標題:UnderstandingR1ZeroLikeTraining:ACriticalPerspective。論文地址:https:github.comsailsgunderstandr1zeroblobmainunderstandr1zero.pdf基礎模型分析驗證模板對幾種基礎模型的影響觀察結果如下:模板對模型是回答question,還是補全question很重要測試的幾個基礎模型在RL之前已經具備數學解題能力Llama和DeepSeek模型使用R1模板時回答能力顯著提升De...
2025-03-28 00:47:51 1391瀏覽 0點贊 0回復 0收藏
Qwen2.5Omni7B開源,Qwen的第一個端到端的多模態(tài)模型,可以文本、圖像、音頻和視頻輸入,同時以流式方式生成文本和自然語音回復。提出了ThinkerTalker架構。PR還沒合進去,要注意安裝方式評測的榜似乎畫的有點趕,看不出信息量。提出了一種新的位置嵌入,稱為TMRoPE(時間對齊多模態(tài)RoPE),用于同步視頻輸入的時戳與音頻。資源占用:理論值如下,實際要在高1.2倍,看起來消耗有點大。瞄下代碼,關于輸入,每個模態(tài)都有專門的處...
2025-03-28 00:45:18 1689瀏覽 0點贊 0回復 0收藏
基于圖的RAG統(tǒng)一框架indepth分析作者:港中深與華為的研究人員核心速覽研究背景研究問題:這篇文章要解決的問題是如何在統(tǒng)一框架下對基于圖的檢索增強生成(RAG)方法進行系統(tǒng)的比較和分析?,F有的基于圖的RAG方法沒有在同一實驗設置下進行系統(tǒng)的比較。研究難點:包括缺乏統(tǒng)一的框架來抽象和比較各種基于圖的RAG方法;現有工作主要關注整體性能評估而非單個組件的性能;以及缺乏對各種方法在準確性和效率方面的全面比較。相關工作...
2025-03-18 07:49:16 2614瀏覽 0點贊 0回復 0收藏
論文筆記,LongRoPE2:NearLosslessLLMContextWindowScaling,https:arxiv.orgpdf2502.20082。longropev1的升級工作,應對長度外推的。longropev1簡單回顧,核心思想是非均勻插值+漸進式微調:對比NTK、YaRN之類的插值方式,LongROPE的每個頻率都有自己的縮放因子。所以先進行基于困惑度的進化搜索,得到每個rope維度的最佳縮放因子。在應用當前階段的RescaledRoPE后,對模型進行微調,讓模型權重適應新的上下文窗口大小和位置編...
2025-03-06 09:15:11 2134瀏覽 0點贊 0回復 0收藏
今天開源了deepseekv3中提到的的FP8GEMM內核。300行代碼的暴力cuda美學,看不太懂,但是每天都可以打個醬油支持普通的矩陣乘法以及MixofExperts分組矩陣乘法。使用CUDA編寫,安裝時無需編譯,所有內核在運行時通過輕量級的即時編譯(JIT)模塊動態(tài)編譯。DeepGEMM設計,避免了對CUTLASS和CuTe的過度依賴,采用了更簡潔的設計,核心代碼只有大約300行。整個庫就是非常“輕量化”,但同時性能又很強大,甚至超過了專家調優(yōu)的庫。在...
2025-02-26 13:47:43 2024瀏覽 0點贊 0回復 0收藏
最近在折騰DeepSeekR1的私有部署,發(fā)現不少開發(fā)者都遇到了類似的困擾。明明按照文檔一步步來,卻總是會碰到這樣那樣的問題分片下載老是斷,模型合并偶爾出錯,環(huán)境配置更是讓人頭大。要是再遇到多機分布式、高并發(fā)或者國產芯片這些場景,那就更不好處理了。正好最近看到一個挺有意思的開源項目GPUStack(https:github.comgpustackgpustack)。它用Apache協議開源,主要就是為了解決DeepSeekR1這類大模型的部署問題。試用下來體驗...
2025-02-18 11:50:42 3642瀏覽 0點贊 0回復 0收藏
這個工作目標是,找到一種簡單的方法,可以實現testtimescalling。關鍵點有2個,構建高質量的監(jiān)督數據1k,用于監(jiān)督微調;一個BudgetForcing的方法,用于限定模型的推理過程。經過這么一折騰,模型的性能隨著推理token數量變長而編號。如何構建高質量的1k數據初始收集:從16個不同的來源收集了59,029個問題,包括NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval等。最終篩選:通過質量、難度和多樣性三個標準,從59K個問題中...
2025-02-07 14:07:32 1855瀏覽 0點贊 0回復 0收藏
??摘要檢索增強生成(RAG)在開放域問答任務中表現出色。然而,傳統(tǒng)搜索引擎可能會檢索淺層內容,限制了大型語言模型(LLM)處理復雜、多層次信息的能力。為了解決這個問題,我們引入了WebWalkerQA,一個旨在評估LLM執(zhí)行網頁遍歷能力的基準。它評估LLM系統(tǒng)性地遍歷網站子頁面以獲取對應信息的能力。同時我們提出了WebWalker,一個通過explorercritic范式模擬人類網頁導航的multiagent框架。廣泛的實驗結果表明,WebWalkerQA具有...
2025-01-23 10:07:24 1919瀏覽 0點贊 0回復 0收藏
CAG:CacheAugmentedGeneration緩存增強生成。不要做RAG了:當緩存增強生成對于知識任務就足夠時檢索增強生成(RAG)作為一種通過整合外部知識源來增強語言模型的有效方法,已經得到了廣泛應用。然而,RAG引入了檢索延遲、文檔選擇潛在錯誤和系統(tǒng)復雜性增加等挑戰(zhàn)。隨著具有顯著擴展上下文窗口的大型語言模型(LLMs)的出現,本文提出了一種替代范式,即緩存增強生成(CAG),它繞過了實時檢索。我們的方法涉及預先加載所有相關...
2025-01-14 13:14:55 2082瀏覽 0點贊 0回復 0收藏
langchain也送來新年禮物了,對標openaicanvas的項目開源。OpenCanvas不是又一個AI聊天機器人。它是一個開源的Web應用,可以讓你與AI助手協同工作,以更高效、更智能的方式創(chuàng)作文檔和代碼。它汲取了OpenAI“Canvas”的靈感,但又有所創(chuàng)新,為你帶來更強大的功能和更靈活的體驗。試用地址:https:opencanvas.langchain.comOpenCanvas的獨特之處:完全開源,自由掌控:所有代碼都是開源的,并采用MIT許可。你可以自由地使用、修改...
2025-01-06 11:32:52 2029瀏覽 0點贊 0回復 0收藏
宇航員如何在火星上生存而無需谷歌搜索?太空、火星、外星人、太空任務……自從人類首次見證尼爾·阿姆斯特朗登上月球以來,所有關于太空探索的話題以及太空的隱藏秘密一直讓我們著迷。隨著技術的進步,我們的目光投向了火星殖民和深空探索。盡管太空探索的美麗吸引了無數電影的關注,但它也帶來了許多挑戰(zhàn),其中一個關鍵挑戰(zhàn)是:在不依賴地球互聯網基礎設施的情況下獲取實時、可操作的信息。顯然,宇航員在太空中無法使用谷歌...
2024-12-26 13:37:04 2061瀏覽 0點贊 0回復 0收藏
Anthropic剛剛發(fā)布了一篇瘋狂的新論文。ALIGNMENTFAKINGINLARGELANGUAGEMODELS。人工智能模型會“偽裝對齊”——在訓練期間假裝遵守訓練規(guī)則,但在部署后會恢復其原始行為!研究表明,Claude3Opus在訓練中有策略地遵守有害請求,以保持其無害行為。也就是說,模型并非簡單地隨機或無意識地做出反應,而是經過了類似人類的思考過程,并且其思考的目標是維持它原本“無害”的行為模式。舉個例子,模型可能會這樣“思考”:“我現...
2024-12-26 13:32:00 2910瀏覽 0點贊 0回復 0收藏
分詞化tokenize化,是模型理解自然語言的最小單元。但是一些問題,如多語言、錯別字、計算開銷等問題,基于Byte的分詞更為流行。Meta的這個工作開源ByteLatentTransformer(BLT)的方法。BLT的核心思想:直接處理原始字節(jié):與傳統(tǒng)的基于詞元的模型不同,BLT直接使用構成文本的最小數字單位字節(jié)進行處理。這從根本上消除了對分詞的需求,避免了分詞可能帶來的誤差和局限性。動態(tài)patching:這是BLT的關鍵創(chuàng)新。它根據文本的復雜度...
2024-12-18 10:52:44 2378瀏覽 0點贊 0回復 0收藏
OpenAI和Deepmind在pk了?紅方:openai從明天開始“OpenAI的12天”,每天都會有直播活動,展示新產品和演示。目前社區(qū)猜測可能發(fā)布的產品,如O1full、Sora視頻模型和GPT4.5。openai挖走了deepmind的3名高級工程師,他們在視覺方面的研究,目前落后于最近的SOTA視覺方法,像ViT、SigLIP、PaliGemma這些開源模型,開始搶人大戰(zhàn)。藍方:deepmindGenCast天氣模型代碼和模型開源,GoogleDeepMind在《自然》雜志上發(fā)布了一個AI天氣預...
2024-12-06 07:37:00 2419瀏覽 0點贊 0回復 0收藏