?作者 | 徐杰承
審校 | 云昭
GPT4的提前發(fā)布,把壓力著實給到百度了!在ChatGPT引爆聊天機器人領(lǐng)域后的數(shù)月,我們終于迎來了國內(nèi)的第一款生成式對話產(chǎn)品。
3月16日14:00,百度文心一言新聞發(fā)布會于百度北京總部正式召開。百度創(chuàng)始人、董事長兼CEO李彥宏也實現(xiàn)了自己此前的諾言,將酷技術(shù)真正變成了一款人人都需要的產(chǎn)品。
據(jù)悉,文心一言(英文名:ERNIE Bot)是百度基于文心大模型技術(shù)推出的一款生成式對話產(chǎn)品,可實現(xiàn)自然流暢的人機交互。作為百度的核心技術(shù)之一,文心大模型ERNIE具備著跨模態(tài)、跨語言的深度語義理解與生成能力。而基于ERNIE技術(shù)的文心一言,成功將人工智能技術(shù)與人類語言交流能力進行了融合,能夠為用戶提供優(yōu)質(zhì)、智能化的交互體驗。
1、Robin展示文心一言續(xù)寫三體、做洛陽紙貴詩、算雞兔同籠
目前,大型語言模型和生成式AI代表了一個新的技術(shù)范式,是全球每家企業(yè)都不可錯過的機會。百度文心一言定位于人工智能基座模型的賦能平臺,將助力金融、能源、媒體、政務等千行百業(yè)的智能化變革。
新聞發(fā)布會現(xiàn)場,李彥宏展示了文心一言的五大核心能力以及其在五個使用場景的表現(xiàn),其中包括文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解和多模態(tài)生成。
在文學創(chuàng)作場景中,文心一言根據(jù)對話問答將知名科幻小說《三體》的核心內(nèi)容進行了總結(jié),并提出了多個續(xù)寫《三體》的建議和思路。此外,文心一言還根據(jù)問題內(nèi)容準確回答了《三體》作者、《三體》電視劇角色扮演者等事實性信息。
目前生成式AI的主要弊端就是對問題回答的準確性難以保障,而文心一言延續(xù)了百度知識增強的大模型理念,大幅提高了事實性問題的準確率。面對“于和偉和張魯一有哪些共同點”、“于和偉和張魯一誰更高”這類問題,文心一言也依靠信息檢索能力及推理能力得出了正確答案。
在商業(yè)文案創(chuàng)作場景中,文心一言則順利完成了為公司命名、撰寫公司Slogan、撰寫公司成立新聞稿等創(chuàng)作任務。在連續(xù)三次內(nèi)容創(chuàng)作中,文心一言不僅準確理解了用戶意圖,還完成了對用戶反饋的清晰表達。
這是基于龐大數(shù)據(jù)規(guī)模而發(fā)生的“智能涌現(xiàn)”。據(jù)介紹,文心一言大模型的訓練數(shù)據(jù)包括萬億級網(wǎng)頁數(shù)據(jù)、數(shù)十億搜索數(shù)據(jù)及圖片數(shù)據(jù)、百億級語音日均調(diào)用數(shù)據(jù),以及5500億事實的知識圖譜等,這使得其在中文語言的理解和處理上,能夠優(yōu)于目前世界范圍內(nèi)幾乎所有的其他大模型。
數(shù)理推算方面,文心一言則依靠其思維能力、數(shù)學推演能力及邏輯推理能力成功完成了對“雞兔同籠”這類鍛煉人類邏輯思維的經(jīng)典例題的解答。
在這一環(huán)節(jié)中,文心一言不僅識別出了題目中所存在的問題,還成功像人類一樣找到了解題思路,并按照正確步驟一步步推演出了題目的準確答案。
如果說文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算是大語言模型常見的優(yōu)勢和能力。那么文心一言的獨特之處,則是更優(yōu)秀的中文理解及多模態(tài)生成能力。
作為扎根于中國市場的大語言模型,文心一言具備中文領(lǐng)域最先進的自然語言處理能力,在中文語言和中國文化上有更好的表現(xiàn)。在第四輪演示中,文心一言正確解釋了成語“洛陽紙貴”的含義,并結(jié)合成語內(nèi)涵分析出了“洛陽紙貴”對應的經(jīng)濟學理論,甚至還成功用“洛陽紙貴”四個字創(chuàng)作了一首藏頭詩。
而在多模態(tài)生成方面,李彥宏現(xiàn)場展示了文心一言生成文本、圖片、音頻和視頻的能力。有趣的是,文心一言甚至能夠生成四川話等方言語音;文心一言的視頻生成能力則因成本較高,現(xiàn)階段還未對所有用戶開放,未來會逐步接入。
2、文心一言技術(shù)解讀
文心一言作為新一代知識增強大語言模型,是在ERNIE及PLATO系列模型的基礎(chǔ)上研發(fā)的。它的關(guān)鍵技術(shù)包括有監(jiān)督精調(diào)、人類反饋的強化學習、提示、知識增強、檢索增強和對話增強。
前三項是此類大語言模型都會采用的技術(shù),ERNIE和PLATO中也已經(jīng)有應用和積累,在文心一言中又有了進一步強化和打磨;后三項則是百度已有技術(shù)優(yōu)勢的再創(chuàng)新,也是文心一言未來越來越強大的基礎(chǔ)。
文心一言的知識增強主要通過知識內(nèi)化和知識外用兩種方式。知識內(nèi)化,是從大規(guī)模知識和無標注數(shù)據(jù)中,基于語義單元學習,利用知識構(gòu)造訓練數(shù)據(jù),將知識學習到模型參數(shù)中。知識外用則是引入外部多源異構(gòu)知識,進行知識推理、提示構(gòu)建等等。
文心一言的檢索增強,來自以語義理解與語義匹配為核心技術(shù)的新一代搜索架構(gòu)。通過引入搜索結(jié)果,能夠為大模型提供時效性強、準確率高的參考信息,更好地滿足用戶需求。
而文心一言的對話增強,則是基于對話技術(shù)和應用積累,文心一言具備記憶機制、上下文理解和對話規(guī)劃能力,實現(xiàn)更好的對話連貫性、合理性和邏輯性。
3、生成式AI催生的三大產(chǎn)業(yè)機會
李彥宏提到,如今的AI技術(shù)已經(jīng)發(fā)展到一個臨界點,各行各業(yè)都不可避免地被改變。中國AI市場即將迎來爆發(fā)性的需求增長,其商業(yè)價值的釋放將是前所未有的、指數(shù)級的。
自2月份百度官宣“文心一言”以來,已有超過650家企業(yè)宣布接入文心一言生態(tài)。這意味著很多企業(yè)已經(jīng)理解到,文心一言和生成式AI代表了一個新的技術(shù)范式,它會影響到每一家公司。據(jù)李彥宏預測,大語言模型將會帶來三大產(chǎn)業(yè)機會。
第一類便是新型云計算公司,其主流商業(yè)模式將從IaaS轉(zhuǎn)變?yōu)镸aaS。文心一言將根本性改變云計算行業(yè)的游戲規(guī)則。之前企業(yè)選擇云廠商更多看算力、存儲等基礎(chǔ)云服務。未來,則會更注重框架好不好、模型好不好,以及模型、框架、芯片、應用這四層之間的協(xié)同。
第二類是進行行業(yè)模型精調(diào)的公司,這是通用大模型和企業(yè)之間的中間層,他們可以基于對行業(yè)的洞察,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。這方面,百度文心大模型已經(jīng)在電力、金融、媒體等領(lǐng)域,發(fā)布了10多個行業(yè)大模型。
第三類則是基于大模型底座進行應用開發(fā)的公司,即應用服務提供商。李彥宏斷言,對于大部分創(chuàng)業(yè)者和企業(yè)來說,真正的機會并不是從頭開始做ChatGPT和文心一言這樣的基礎(chǔ)大模型,這很不現(xiàn)實,也不經(jīng)濟?;谕ㄓ么笳Z言模型搶先開發(fā)重要的應用服務,這可能才是真正的機會。目前,基于文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人、3D等場景,已經(jīng)涌現(xiàn)出很多創(chuàng)業(yè)明星公司,可能就是未來的新巨頭。
文心一言將通過百度智能云對外提供服務,幫助企業(yè)構(gòu)建自己的模型和應用,農(nóng)業(yè)、工業(yè)、金融、教育、醫(yī)療、交通、能源等重點領(lǐng)域,都會因此效率大幅提升,并在每一個行業(yè)快速形成新的產(chǎn)業(yè)空間,助力數(shù)字中國的實現(xiàn)。李彥宏預告稱,百度智能云將于近期舉辦新聞發(fā)布會,主題圍繞文心一言的云服務和應用產(chǎn)品,既有公有云服務和也可以做私有化部署。
在發(fā)布會末尾,王海峰表示文心一言目前已開放內(nèi)測。即日起首批用戶可以通過邀請測試碼在官網(wǎng)體驗文心一言產(chǎn)品,百度智能云即將面向企業(yè)客戶開放文心一言 API 接口調(diào)用服務,在官網(wǎng)可申請加入文心一言云服務測試。
4、文心一言,并不完美
Robin 也坦言此次的發(fā)布時,文心一言,并沒有完全的Ready。
最近一段時間,很多朋友問我,“為什么是今天,你們真的ready了嗎”。其實從某種意義上說我們已經(jīng)為此準備了多年,我們十幾年前就開始投入AI研究2019年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續(xù)。但也不能說我們完全ready了,文心一言對標ChatGPT、甚至是對標GPT-4,門檻是很高的,全球大廠還沒有一個做出來的,百度是第一個。我自己測試感覺還是有很多不完美的地方。個體選擇。
5、寫在最后
看完這場發(fā)布會,相信每個人都有自己不同的感觸。歸根結(jié)底,對用戶而言,尤其是在文化內(nèi)容領(lǐng)域,我們還是更需要國內(nèi)科技企業(yè)實打?qū)嵉厥褂煤A恐形恼Z料訓練出一些更加匹配中文環(huán)境的本土化高品質(zhì)大模型。
如今,作為國內(nèi)AIGC的先行者,百度已在這一領(lǐng)域邁出了第一步。未來百度能否在這條道路上越走越遠;是否會有更多優(yōu)秀的國內(nèi)科技企業(yè)踏足這片土壤;中國的AIGC生態(tài)又會在這些先行者的厚積薄發(fā)之下,產(chǎn)生哪些變化?讓我們拭目以待。?