偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT 和 Stack Overflow,誰(shuí)的解答更勝一籌?

人工智能
只有當(dāng) ChatGPT 答案中的錯(cuò)誤非常明顯時(shí),用戶(hù)才能意識(shí)到。但當(dāng)錯(cuò)誤不易驗(yàn)證或需要外部 IDE 或文檔時(shí),用戶(hù)往往會(huì)無(wú)法識(shí)別錯(cuò)誤或者會(huì)低估答案的錯(cuò)誤程度。“禮貌用語(yǔ)、清晰的教科書(shū)式風(fēng)格的答案、全面性以及答案的關(guān)聯(lián)性會(huì)使得完全錯(cuò)誤的答案顯得正確?!?/div>

美國(guó)普渡大學(xué)最新發(fā)布的一份 “誰(shuí)的回答更好?深入分析 ChatGPT 和 Stack Overflow 對(duì)軟件工程問(wèn)題的回答” 研究報(bào)告指出,ChatGPT 在回答軟件編程問(wèn)題時(shí),錯(cuò)誤率高達(dá)一半以上。

研究團(tuán)隊(duì)共分析了 ChatGPT 對(duì) 517 個(gè) Stack Overflow 問(wèn)題的回答,以評(píng)估 ChatGPT 回答的正確性、一致性、全面性和簡(jiǎn)潔性。同時(shí)還就這些答案進(jìn)行了大規(guī)模的語(yǔ)言分析和用戶(hù)研究,以便從語(yǔ)言和人性化方面了解 ChatGPT 答案的特點(diǎn)。

結(jié)果表明,52% 的 ChatGPT 答案是錯(cuò)誤的,77% 的回答過(guò)于冗長(zhǎng)。但盡管如此,鑒于其全面性和清晰的語(yǔ)言風(fēng)格,仍有 39.34% 的人選擇 ChatGPT 的回答。

且深入的人工分析結(jié)果得出,ChatGPT 答案中存在大量概念和邏輯錯(cuò)誤;“由于 ChatGPT 無(wú)法理解所提出問(wèn)題的基本語(yǔ)境,許多答案都是不正確的”。語(yǔ)言分析結(jié)果則指出 ChatGPT 的回答非常正式,很少描繪負(fù)面情緒或風(fēng)險(xiǎn);“我們多次觀(guān)察到 ChatGPT 插入了諸如‘我當(dāng)然能幫你’、‘這肯定能解決’等語(yǔ)句?!?/p>

“我們的結(jié)果表明,有必要對(duì) ChatGPT 中的錯(cuò)誤進(jìn)行仔細(xì)檢查和糾正,同時(shí)讓用戶(hù)意識(shí)到看似正確的 ChatGPT 答案所帶來(lái)的風(fēng)險(xiǎn)?!?/p>

研究人員觀(guān)察到,只有當(dāng) ChatGPT 答案中的錯(cuò)誤非常明顯時(shí),用戶(hù)才能意識(shí)到。但當(dāng)錯(cuò)誤不易驗(yàn)證或需要外部 IDE 或文檔時(shí),用戶(hù)往往會(huì)無(wú)法識(shí)別錯(cuò)誤或者會(huì)低估答案的錯(cuò)誤程度?!岸Y貌用語(yǔ)、清晰的教科書(shū)式風(fēng)格的答案、全面性以及答案的關(guān)聯(lián)性會(huì)使得完全錯(cuò)誤的答案顯得正確?!?/p>

普渡大學(xué)博士生、該論文的作者之一 Samia Kabir 向 The Register 表示,與 Stack Overflow 的答案相比,受訪(fǎng)者更偏向不正確且冗長(zhǎng)的 ChatGPT 答案。造成這一現(xiàn)象的原因有多種:

其中一個(gè)主要原因是 ChatGPT 的回答非常詳細(xì)。在很多情況下,如果參與者從冗長(zhǎng)而詳細(xì)的答案中獲得有用的信息,他們并不會(huì)介意答案的長(zhǎng)度。此外,積極的情緒和答案的禮貌性也是另外兩個(gè)因素。

當(dāng)參與者發(fā)現(xiàn) ChatGPT 的答案很有見(jiàn)地時(shí),他們就會(huì)忽略錯(cuò)誤。ChatGPT 自信地傳達(dá)有洞察力的信息(即使信息不正確)的方式贏(yíng)得了用戶(hù)的信任,這使他們更喜歡錯(cuò)誤的答案。

研究人員對(duì) ChatGPT 答案和 Stack Overflow 答案的語(yǔ)言分析表明,機(jī)器人的反應(yīng) “更正式,表達(dá)了更多分析思維,表達(dá)了更多的分析性思維,展示了更多為實(shí)現(xiàn)目標(biāo)所做的努力,并表現(xiàn)出較少的負(fù)面情緒”。情感分析得出的結(jié)論是,ChatGPT 的答案比 Stack Overflow 的答案表達(dá)了 “更積極的情緒”。

“根據(jù)我們的發(fā)現(xiàn)和這項(xiàng)研究的觀(guān)察,我們建議 Stack Overflow 可以采用有效的方法來(lái)檢測(cè)評(píng)論和答案中的毒性和負(fù)面情緒,以改善情感和禮貌。我們還認(rèn)為 Stack Overflow 可能希望提高答案的可發(fā)現(xiàn)性,以幫助找到有用的答案。此外,Stack Overflow 可能希望提供更具體的指南來(lái)幫助回答者構(gòu)建答案,例如:以循序漸進(jìn)、注重細(xì)節(jié)的方式。”

此外論文指出,這項(xiàng)研究工作還旨在鼓勵(lì)進(jìn)一步研究如何識(shí)別和減少不同類(lèi)型的概念和事實(shí)錯(cuò)誤?!拔覀兿M@項(xiàng)工作能促進(jìn)更多關(guān)于機(jī)器生成答案中不正確性的透明度和交流的研究,尤其是在 SE 的背景下?!?/p>

責(zé)任編輯:武曉燕 來(lái)源: OSCHINA
相關(guān)推薦

2025-08-05 08:13:19

2024-07-31 09:39:33

2020-03-06 09:21:28

PWA原生應(yīng)用Web

2010-05-28 11:21:17

2022-07-20 08:16:54

Lombokjava工具

2014-03-06 15:07:41

青橙小米

2018-06-12 10:09:41

編程語(yǔ)言PythonJava

2020-02-02 15:42:22

PythonC++編程語(yǔ)言

2010-07-27 14:36:31

Flex Array

2020-01-18 14:55:03

架構(gòu)運(yùn)維技術(shù)

2017-01-11 14:38:39

編程語(yǔ)言Java

2010-05-21 16:36:09

GoogleCode

2024-04-25 08:57:04

2017-11-13 15:38:03

VMwareOpenStack混合云

2023-08-23 15:14:13

Web開(kāi)發(fā)Javascript編程語(yǔ)言

2013-02-19 13:13:33

SurfaceiPad

2023-04-26 07:34:38

Java并發(fā)編程

2019-01-04 09:59:14

KafkaRabbitMQMQ

2025-01-03 09:27:14

2018-10-12 13:54:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)