偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型結(jié)構(gòu)化推理優(yōu)勢(shì)難復(fù)制到垂直領(lǐng)域!最新法律AI評(píng)估標(biāo)準(zhǔn)來(lái)了,抱抱臉評(píng)測(cè)集趨勢(shì)第一

人工智能 新聞
來(lái)自蘇黎世聯(lián)邦理工學(xué)院、瑞士聯(lián)邦最高法院、馬克斯-普朗克研究所及蘇黎世大學(xué)等多個(gè)機(jī)構(gòu)的研究人員聯(lián)合發(fā)起并發(fā)布了一項(xiàng)全新的、多語(yǔ)言法律推理基準(zhǔn)數(shù)據(jù)集——LEXam。

大模型推理,無(wú)疑是當(dāng)下最受熱議的科技話題之一。

但在數(shù)學(xué)和物理等STEM之外,當(dāng)LLM落到更多實(shí)際應(yīng)用領(lǐng)域之中,大模型的推理能力又有多大的潛能和局限?

比如,如何評(píng)估大模型的推理能力在法律領(lǐng)域的應(yīng)用,就在當(dāng)前備受關(guān)注。

為此,來(lái)自蘇黎世聯(lián)邦理工學(xué)院、瑞士聯(lián)邦最高法院、馬克斯-普朗克研究所及蘇黎世大學(xué)等多個(gè)機(jī)構(gòu)的研究人員聯(lián)合發(fā)起并發(fā)布了一項(xiàng)全新的、多語(yǔ)言法律推理基準(zhǔn)數(shù)據(jù)集——LEXam。

LEXam法律推理基準(zhǔn)集發(fā)布一周以來(lái)下載量1.7k+,在Hugging Face Evaluation Datasets趨勢(shì)榜上排名第一。

圖片

法律推理基準(zhǔn)測(cè)試:更復(fù)雜、更精確

近年來(lái),以ChatGPT、Claude等為代表的生成式大語(yǔ)言模型(LLM)迅猛發(fā)展,在多個(gè)領(lǐng)域內(nèi)取得了令人矚目的成果,甚至在數(shù)學(xué)和物理等STEM科目基準(zhǔn)測(cè)試中頻頻逼近或超過(guò)了人類表現(xiàn)。

然而,雖然LLM在推理類任務(wù)上進(jìn)展顯著,但在更為復(fù)雜與微妙的法律領(lǐng)域,這類模型的實(shí)際表現(xiàn)仍然存在很大的未知和諸多疑問(wèn)。

這是因?yàn)榉赏评砗w了諸多現(xiàn)有機(jī)器學(xué)習(xí)優(yōu)化框架亟待解決的挑戰(zhàn),包括但不限于:

  • 基于事實(shí)與證據(jù)的推理(Fact/evidence-based reasoning)
  • 高度依賴細(xì)致推導(dǎo)的證據(jù)檢索(Reasoning-dense retrieval)
  • 主觀評(píng)價(jià)與客觀事實(shí)的平衡(Subjectivity vs. Objectivity)
  • 以及全流程推理的準(zhǔn)確性(Process accuracy)

上述挑戰(zhàn)不僅存在于法律領(lǐng)域,在醫(yī)學(xué)診斷、社會(huì)科學(xué)研究決策、歷史文本分析等眾多非結(jié)構(gòu)化推理任務(wù)中同樣廣泛存在,值得更多通用機(jī)器學(xué)習(xí)領(lǐng)域研究者的關(guān)注與研究。

這些問(wèn)題尚未在目前主流的推理框架,如RLHF/RLVR優(yōu)化路徑中得到充分體現(xiàn)與解決;而現(xiàn)有LLM優(yōu)化框架更多是集中在數(shù)學(xué)計(jì)算或程序代碼等結(jié)構(gòu)化推理任務(wù)對(duì)推導(dǎo)過(guò)程或答案進(jìn)行規(guī)范性調(diào)整與優(yōu)化。

可是不同于可以直接運(yùn)用公式或標(biāo)準(zhǔn)方法的數(shù)學(xué)、物理問(wèn)題,現(xiàn)實(shí)法律推理中通常涉及復(fù)雜、多層次的分析,既需要精確的規(guī)則回憶(rule recall),也要求多層次的規(guī)則適用(rule application),還涉及對(duì)案件事實(shí)和證據(jù)進(jìn)行敏銳具體的識(shí)別(issue spotting);甚至要基于先例法律條文進(jìn)行深層次的推理和論證。

這些特性使得大模型在法律推理領(lǐng)域可能面臨以往訓(xùn)練中所未曾遇到的考驗(yàn):一旦LLM出現(xiàn)推理錯(cuò)誤甚至“幻覺(jué)”,就可能導(dǎo)致嚴(yán)重的現(xiàn)實(shí)法律風(fēng)險(xiǎn),甚至影響公信力。

LEXam:一個(gè)專注法律推理的開(kāi)創(chuàng)性多語(yǔ)言基準(zhǔn)數(shù)據(jù)集

LEXam專門(mén)設(shè)計(jì)了高質(zhì)量的數(shù)據(jù)集,包含來(lái)自瑞士蘇黎世大學(xué)法學(xué)院的340場(chǎng)不同課程、不同級(jí)別(本科與碩士)的真實(shí)法律考試,覆蓋瑞士、歐洲及國(guó)際法,以及法學(xué)理論和法律歷史領(lǐng)域。整個(gè)數(shù)據(jù)集共有4886道問(wèn)題,其中包括:

  • 2841道長(zhǎng)篇問(wèn)答題(long-form open-ended questions)
  • 2045道多項(xiàng)選擇題(MCQ)

這些題目分別使用英語(yǔ)和德語(yǔ)撰寫(xiě),結(jié)合了大陸法(強(qiáng)調(diào)成文法和法典)及普通法系(強(qiáng)調(diào)判例)的多元法律文化背景。

圖片

上圖為展示的是開(kāi)發(fā)和測(cè)試數(shù)據(jù)集中,按法律領(lǐng)域、語(yǔ)言和司法管轄區(qū)劃分的開(kāi)放性問(wèn)題和MCQ分布情況。

重要的是,每一道長(zhǎng)篇題目不僅提供了標(biāo)準(zhǔn)答案(reference answers),還詳細(xì)說(shuō)明了對(duì)應(yīng)的推理分析路徑:例如清晰地規(guī)定需要使用的問(wèn)題識(shí)別方法(issue spotting)、法律規(guī)則回憶(rule recall)或特定規(guī)則下的事實(shí)適用(rule application)。

這種設(shè)計(jì)使得我們可以深入理解LLM在復(fù)雜法律推理中的能力缺陷,而非僅僅局限于評(píng)估最終的正確性。

LLM-as-a-Judge:構(gòu)建可靠且可擴(kuò)展的推理評(píng)估體系

LEXam團(tuán)隊(duì)最新的實(shí)證研究表明:

  • 現(xiàn)有最先進(jìn)的大模型仍顯著難以應(yīng)對(duì)長(zhǎng)篇的開(kāi)放性法律問(wèn)答題。特別是涉及多步分析、復(fù)雜規(guī)則應(yīng)用的情境下,LLM表現(xiàn)尤為困難。
  • 即便是現(xiàn)有被公認(rèn)最先進(jìn)的LLM模型,難以有效且穩(wěn)定地完成嚴(yán)格的、結(jié)構(gòu)化的多步法律推理任務(wù),這為后續(xù)模型研究與開(kāi)發(fā)指明了重要方向。

與傳統(tǒng)僅關(guān)注最終答案正確與否的評(píng)估方式不同,LEXam的另一大重要?jiǎng)?chuàng)新在于引入了可信的“LLM-as-a-Judge”模式,即使用大模型本身來(lái)評(píng)估其他模型生成的法律推理步驟的質(zhì)量。

通過(guò)先讓模型生成中間法律推理步驟,再由其他模型以清晰的標(biāo)準(zhǔn)對(duì)這些推理步驟進(jìn)行評(píng)估和打分,并最終與專家工評(píng)估結(jié)果做嚴(yán)格比較驗(yàn)證。

驗(yàn)證結(jié)果發(fā)現(xiàn),這一模型擔(dān)任法官的評(píng)估方法與人工專家的評(píng)分擁有高度一致性(高相關(guān)性),這種方法為法律推理的評(píng)估提供了高效的自動(dòng)化支持,克服了以往基準(zhǔn)測(cè)試僅對(duì)最終正確答案做評(píng)估的局限。

這一方法提供了一種全新的自動(dòng)化評(píng)估路徑,使得法律推理能力評(píng)估體系更加透明、可靠、可規(guī)?;?,也為未來(lái)研究者們提供了可輕松復(fù)用的工具。

模型評(píng)測(cè)總體表現(xiàn)

LEXam團(tuán)隊(duì)針對(duì)不同類別的大語(yǔ)言模型進(jìn)行了測(cè)試。

包括“專精推理優(yōu)化”的模型(如Gemini-2.5-Pro、Claude-3.7-Sonnet、DeepSeek-R1、o3-mini和QwQ-32B);

一些“旗艦級(jí)”的大型通用LLM(如GPT-4及其變種、DeepSeek-V3、Llama-4-Maverick);

以及小尺寸模型(如Gemma、Phi-4、EuroLLM等)。

圖片

上表展示的是大語(yǔ)言模型在長(zhǎng)式開(kāi)放問(wèn)題和MCQ上的表現(xiàn)及標(biāo)準(zhǔn)誤差(S.E.)。

開(kāi)放題由GPT-4o判定,Temperature為0。Judge S.E.表示GPT-4o判定的3個(gè)樣本(1個(gè)樣本采用貪婪解碼,2個(gè)樣本采用temperature=0.5)的平均S.E.。結(jié)果按得分從高到低排序。

從評(píng)測(cè)結(jié)果看,專門(mén)的推理型模型展現(xiàn)出最高的性能。

其中Gemini-2.5-Pro達(dá)到最高平均分(82.2分),其次是Claude-3.7-Sonnet(77.6分)。

這證實(shí)了對(duì)推理任務(wù)做過(guò)明確優(yōu)化的模型比傳統(tǒng)大規(guī)模通用型LLM更適合復(fù)雜的法律推理任務(wù)。

在非專門(mén)設(shè)計(jì)推理的通用大型模型中,GPT-4.1(68.2分)和GPT-4o(66.2分)表現(xiàn)優(yōu)異,明顯領(lǐng)先于其他傳統(tǒng)模型(DeepSeek-V3、Llama-4-Maverick等),顯示出GPT系列對(duì)復(fù)雜指令遵循和一般常識(shí)理解的卓越能力。

同時(shí),較小的LLMs和老一代模型的性能普遍偏低。

但值得注意的是,小型模型中的Gemma-3-12B-it表現(xiàn)優(yōu)于體積比它大33倍的Llama-3.1-405B-Instruct模型(Gemma-3-12B-it得分50.9,Llama-3.1-405B-Instruct為48.9),這可能得益于Gemma對(duì)多語(yǔ)言任務(wù)的特殊優(yōu)化設(shè)計(jì)。

圖片

LEXam團(tuán)隊(duì)檢查了大語(yǔ)言模型在不同語(yǔ)言、法律領(lǐng)域和司法管轄區(qū)分組的開(kāi)放性問(wèn)題的表現(xiàn),可以看到:

  • 專精推理優(yōu)化模型再次領(lǐng)先,尤其是Claude-3.7-Sonnet(準(zhǔn)確率57.2%)和Gemini-2.5-Pro(準(zhǔn)確率55.7%)。
  • 大型通用LLM中,GPT-4.1表現(xiàn)突出,(54.4%),與推理特化模型相距不遠(yuǎn)。
  • 小尺寸模型整體表現(xiàn)明顯不如其他類別,但GPT-4o-mini(41.0%)與Phi-4(40.7%)兩款小尺寸模型表現(xiàn)相對(duì)突出。

圖片

LEXam團(tuán)隊(duì)進(jìn)一步分析了模型在不同維度上的表現(xiàn)(包括語(yǔ)言、法律領(lǐng)域及司法轄區(qū)),發(fā)現(xiàn):

  • 整體而言,所有類型和尺寸的LLM在英文任務(wù)上的表現(xiàn)明顯優(yōu)于德語(yǔ)任務(wù),這可能與模型訓(xùn)練語(yǔ)料庫(kù)的語(yǔ)言分布密切相關(guān)。
  • 從法律領(lǐng)域角度看,跨學(xué)科和公法領(lǐng)域的表現(xiàn)普遍高于刑法和私法。這可能體現(xiàn)出刑法及私法涉及更細(xì)致的推理鏈條和更嚴(yán)格的邏輯確定性要求。
  • 在司法轄區(qū)方面,國(guó)際法和通用法律題目的總體得分普遍高于地區(qū)(以瑞士法律為例)法律任務(wù)的得分,這顯示地區(qū)法律知識(shí)對(duì)模型的挑戰(zhàn)更大。
  • 在選項(xiàng)的表述上,推理模型面對(duì)否定式的問(wèn)題時(shí)(例如:以下表述哪些是錯(cuò)誤的?)表現(xiàn)明顯低于肯定式的問(wèn)題;而且,這一點(diǎn)在推理模型上尤為明顯。

圖片

上表展示的是不同上下文長(zhǎng)度下的大語(yǔ)言模型準(zhǔn)確度(Acc.)和Bootstrap標(biāo)準(zhǔn)誤差(S.E.)百分比。

為了深入探討模型性能穩(wěn)定性,LEXam團(tuán)隊(duì)額外進(jìn)行了一系列多選題擾動(dòng)測(cè)試,對(duì)模型的判斷選項(xiàng)數(shù)量進(jìn)行了擴(kuò)展(4、8、16、32個(gè)選項(xiàng)),以了解模型在更復(fù)雜多選情境下的性能變化,發(fā)現(xiàn):

  • 模型準(zhǔn)確度在選項(xiàng)數(shù)量增加時(shí)均明顯下降。例如,Gemini-2.5-Pro準(zhǔn)確率從4選項(xiàng)時(shí)的68.6%下降到了32選項(xiàng)時(shí)的35.6%。
  • 類似情況也出現(xiàn)在Claude、DeepSeek-R1與GPT等主流模型中。這表明模型表現(xiàn)有顯著的選項(xiàng)數(shù)量依賴性,擴(kuò)展選項(xiàng)明顯暴露了模型可能存在的猜測(cè)和依賴淺層特征的缺陷。
  • 此項(xiàng)測(cè)試說(shuō)明在實(shí)踐中,標(biāo)準(zhǔn)多選題的測(cè)試可能會(huì)造成模型性能被高估,必須特別謹(jǐn)慎處理和解釋此類測(cè)試的結(jié)果。

項(xiàng)目主頁(yè):https://lexam-benchmark.github.io/數(shù)據(jù):https://huggingface.co/datasets/LEXam-Benchmark/LEXam論文:https://arxiv.org/abs/2505.12864

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-03-20 15:54:36

2025-01-10 13:56:28

2011-08-03 09:40:29

云存儲(chǔ)存儲(chǔ)管理

2023-12-26 12:12:01

模型訓(xùn)練

2023-05-08 15:36:50

模型AI

2022-12-09 09:52:47

AI深度學(xué)習(xí)

2022-07-13 11:31:43

量子計(jì)算英偉達(dá)

2017-04-20 13:22:07

醫(yī)療AI助手虛擬護(hù)理

2024-07-17 09:47:18

2009-09-14 16:37:40

結(jié)構(gòu)化的數(shù)據(jù)

2018-04-03 14:00:03

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫(kù)

2024-08-19 14:03:00

2023-12-01 08:43:31

2021-12-12 08:37:18

結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)

2010-01-13 13:20:08

VB.NET結(jié)構(gòu)化異常

2009-07-07 09:09:48

結(jié)構(gòu)化綜合布線光系統(tǒng)

2011-12-16 14:48:46

SaaS云計(jì)算

2024-06-19 11:45:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)