多模方式提升AI理解能力,微軟展示Project Rumi
在新興技術(shù)的數(shù)字時(shí)代,大語言模型(LLM)已經(jīng)成為一種強(qiáng)大的工具,革命性地改變了人類社會(huì)和文化的許多方面,重塑了我們與計(jì)算機(jī)的互動(dòng)方式。然而,還有一個(gè)關(guān)鍵的挑戰(zhàn)需要解決。LLM的局限性是顯而易見的,它揭示了在無法掌握對話的上下文和細(xì)微差別以及取決于提示的質(zhì)量和具體性方面的差距。
不過,LLM主要依賴于文本輸入輸出,忽略了人類在自然交流中的語調(diào),面部表情,手勢和肢體語言等線索,從而在理解方面會(huì)存在偏差。
這些線索統(tǒng)稱為副語言,微軟的Project?Rumi旨在通過解決理解非語言線索和上下文細(xì)微差別的局限性來增強(qiáng)LLM的能力。它將副語言輸入納入與LLM的基于提示的互動(dòng)中,以提高溝通質(zhì)量。研究人員使用音頻和視頻模型來檢測數(shù)據(jù)流中的實(shí)時(shí)非語言線索。兩個(gè)獨(dú)立的模型用于來自用戶音頻的副語言信息,第一個(gè)是音頻的韻律音調(diào)和屈折,另一個(gè)是來自語音的語義。他們使用視覺變換器對幀進(jìn)行編碼,并從視頻中識別面部表情。下游服務(wù)將副語言信息合并到基于文本的提示中。這種多模式方法旨在增強(qiáng)用戶情緒和意圖理解,從而將人類人工智能交互提升到一個(gè)新的水平。
在這項(xiàng)研究中,研究人員只簡要探討了副語言學(xué)在傳達(dá)有關(guān)用戶意圖的關(guān)鍵信息方面所起的作用。未來,他們計(jì)劃進(jìn)行建模,使模型變得更好、更高效。他們還希望添加更多細(xì)節(jié),如源自標(biāo)準(zhǔn)視頻、認(rèn)知和環(huán)境感知的心率變異性。這一切都是在下一波與人工智能的互動(dòng)中增加隱含意義和意圖的更大努力的一部分。