譯者 | 朱先忠
審校 | 孫淑娟
OpenAI新推出的聊天GPT棒極了
我是一名研究人員,每天都使用人工智能技術(shù)工作??梢哉f,在我的位置上,每個人都像盯著冰淇淋筒的狗狗一樣興奮。
原因如下:
對于那些不知道我在說什么的人來說,只需知道ChatGPT是一個人工智能聊天機器人,它可以幫助你做幾乎所有的事情。它可以編碼,可以寫文章,也可以幫助你裝飾你的家庭,甚至還可以制作食譜(如果你是意大利人,那么我不建議你這樣做),還有其他很多的事情讓它為你代勞。
我們可以說,這將會在未來引發(fā)倫理(而不僅僅是倫理)問題。我的母親是一名高中教師,她很害怕她的學(xué)生會使用ChatGPT在考試中作弊。當(dāng)然,這只是這項功能強大的技術(shù)“導(dǎo)致問題”的眾多例子之一。
但問題是使用,而不是產(chǎn)品。如果我們嚴格談?wù)摷夹g(shù)方面(坦率地說,也是我更感興趣的方面,因為我是一個經(jīng)“認證”的書呆子),那真是不可思議。
現(xiàn)在,許多開發(fā)人員已經(jīng)使用并測試過這款聊天機器人來嘗試開發(fā)他們的代碼和AI想法。當(dāng)然,這款聊天機器人的使用嚴格取決于你的背景。例如,如果你是一名Web開發(fā)人員,你會要求ChatGPT使用HTML構(gòu)建一個網(wǎng)站。如果您是一名測試人員,您可以請求ChatGPT幫助您查找特定系統(tǒng)中的錯誤。
就我個人來說,我是一名研究人員。特別是,我所做的工作是用人工智能建立一些替代模型。比如說,你想對“A”進行研究,但要實現(xiàn)“A”任務(wù)你需要大量的資金、人力和計算時間。這種替代模型背后的想法就是,借助人工智能的數(shù)據(jù)驅(qū)動方法來取代傳統(tǒng)的實現(xiàn)方案。
現(xiàn)在,讓我們暫時徹底改變這一話題。
假設(shè)我是一名企業(yè)家,我在美國各地擁有很多酒店。如果對某家酒店進行了一定的評論,我想知道該評論對該酒店來說是好還是壞。我該怎么做?我有三個選擇:
1. 我雇傭一個每天閱讀數(shù)百萬條評論并對其進行分類的人,那么我可能會被捕,因為這顯然是對人權(quán)的侵犯。
2. 我雇傭一個每天閱讀數(shù)百條評論并對其進行分類的人。幾個月后,我能夠用這些信息構(gòu)建一個數(shù)據(jù)集。然后,我從這個數(shù)據(jù)集中訓(xùn)練出一個機器學(xué)習(xí)模型。
3. 我會自動生成好的和壞的評論。然后,由我自己從中構(gòu)建了一個數(shù)據(jù)集,最后我從該數(shù)據(jù)集中訓(xùn)練出一個機器學(xué)習(xí)模型。
閑言少敘,讓我們跳過第一個選擇方案。
第二個選項是在ChatGPT誕生之前要做的事情。顯然,你不能提前知道評論是好是壞;所以,如果你想使用此信息建立一個數(shù)據(jù)集,那么你需要雇傭人員,等到數(shù)據(jù)集準(zhǔn)備好才能行動。
如今,我們有了ChatGPT,就可以簡單地要求它來為我們生成好的和壞的評論!這將需要幾分鐘(而不是幾個月)的時間,它將允許我們構(gòu)建機器學(xué)習(xí)算法來自動分類我們的客戶評論!
恭喜你,這是你的第一個代理模型。
請記住,我們不會訓(xùn)練ChatGPT或進行任何微調(diào)。對于這樣的任務(wù),此模型是例外的,在這種情況下不需要進行微調(diào)?,F(xiàn)在,ChatGPT模型的訓(xùn)練當(dāng)然不是開源的(就像模型本身一樣)。我們所知道的只是??OpenAI官方博客??中的簡短描述。他們解釋說,該模型是由人工智能訓(xùn)練師和強化學(xué)習(xí)監(jiān)督算法訓(xùn)練的。
僅OpenAI的ChatGPT不是開源的這一事實就引發(fā)了一些非常棘手和有趣的倫理問題。這樣一個強大的模型應(yīng)該是開源的——這樣每個人(包括壞人)都可以使用它,還是應(yīng)該不是開源的?所以,沒有人可以真正信任它?
現(xiàn)在,讓我概括一下上面的總體步驟:
你從上圖中看到的小腦殼就是代理模型。正如我們稍后將看到的,這將是一個隨機的森林。但我曾經(jīng)說過本文是一篇實戰(zhàn)性的文章,所以讓我們深入研究吧!(太激動了?。。。?/span>
對不起,我喜歡劇透。
一、生成數(shù)據(jù)集
第一步是使用OpenAI公司的Python API生成模擬。
為此,需要考慮的幾件事有:
1.OpenAI庫是天才為非天才用戶創(chuàng)造的。因此,如果要安裝它,只需執(zhí)行以下操作:
2.當(dāng)然,如果你想發(fā)送大量請求,你必須為優(yōu)質(zhì)服務(wù)提供支付。假設(shè)我們不想這樣做,我們只需要等待大約30分鐘就可以獲得虛擬評論信息的數(shù)據(jù)集。同樣,如果我們手動執(zhí)行此操作,那么這與等待數(shù)月的時間(和成本)相比微不足道。此外,您還必須登錄OpenAI官方網(wǎng)站并獲得OpenAI庫對應(yīng)的密鑰。
3.我們將自動輸入這是一個好的評價還是一個差的評價,以相同的句子開頭:“This hotel was terrible.”表示差評,“This hotel was great.”表示好評??傊?,ChatGPT將為我們完成審查工作。當(dāng)然,除了前四個單詞(無論如何我們都不會在評論中包含),其余的評論都會有所不同。
讓我舉一個差評的例子:
接下來,我再舉一個好評的例子:
現(xiàn)在,我們給出生成整個數(shù)據(jù)集所需的代碼。
然后,我們使用Pandas庫來把一切內(nèi)容存儲到一個數(shù)據(jù)框架DataFrame中。
為此,首先導(dǎo)入庫并構(gòu)建數(shù)據(jù)框架df:
接下來,填充數(shù)據(jù)框架結(jié)構(gòu)df:
最后,導(dǎo)出數(shù)據(jù)框架df:
二、開始進行機器學(xué)習(xí)
現(xiàn)在,我們需要建立和訓(xùn)練一種機器學(xué)習(xí)算法。
當(dāng)我們處理文本時,首先需要做的是使用矢量器(vectorizer)。矢量器負責(zé)實現(xiàn)將文本轉(zhuǎn)換為矢量的任務(wù)。
例如:
正如你所看到的,相似的文本對應(yīng)著相似的向量(我知道,“相似”是一個棘手的概念,但你知道我的意思就行)。并且,不同的文本具有不相似的向量。
矢量化步驟有很多種方法。有些方式比其他方式更復(fù)雜;有些方法比其他方法更有效;有些方法需要機器學(xué)習(xí),有些方法則不需要。
為了實現(xiàn)本文中這個項目的目的(因為我不是NLP機器學(xué)習(xí)工程師),我們將使用一個相當(dāng)簡單的叫做TfIDF矢量器的工具,該工具在??SkLearn框架??上可現(xiàn)成地使用。
讓我們從導(dǎo)入庫開始:
然后,導(dǎo)入我們剛剛使用ChatGPT生成的數(shù)據(jù)集,并進行一些預(yù)處理工作:
數(shù)據(jù)集頭部的數(shù)據(jù)如下:
好極了!現(xiàn)在,讓我們做一個矢量化的事情:
正如我之前介紹過的,我們將使用的機器學(xué)習(xí)模型稱為隨機森林。什么是隨機森林?簡言之,它是一個決策樹的集合。那么,什么是決策樹呢?
決策樹是一種機器學(xué)習(xí)算法,它能夠在給定具體的符合對應(yīng)理論條件的情況下,優(yōu)化數(shù)據(jù)集特征的所有可能分割的樹搜索,直到找到一種基于該分割來區(qū)分出什么是1和什么是0的方法為止。
很抱歉,這樣的解釋可能還太令人困惑;但是,僅用4行文字來給出通俗解釋的話,這的確是一項艱巨的任務(wù)。有??一篇文章??花了很多時間來解釋這個問題,而且做得相當(dāng)出色了。在此,我強烈推薦您看一看。
現(xiàn)在,讓我們繼續(xù)干活:
1. 定義我們的隨機森林:
2. 將我們的數(shù)據(jù)集拆分為訓(xùn)練和測試兩部分:
3. 開始訓(xùn)練模型:
訓(xùn)練輸出結(jié)果給人留下非常深刻的印象,特別是在沒有提供超參數(shù)微調(diào)的情況下。
三、情感分析
到目前為止,我們已經(jīng)有了一個經(jīng)過訓(xùn)練的模型;因此,可以在新的、未標(biāo)記的數(shù)據(jù)集上使用此模型了。為此,我使用了自己在網(wǎng)上找到的一組紐約市酒店評論來進行測試。當(dāng)然,你也可以使用自己的評論,甚至也可以編寫一份評論,看看這個模型是如何工作的。
本文中我提供的這個數(shù)據(jù)集是開源的(遵循CC0協(xié)議),非常?。?MB),可以在??Kaggle??上下載。
現(xiàn)在,讓我們對評論欄目(或文本)進行預(yù)處理:
然后,打印我們的預(yù)測結(jié)果:
正如我們所看到的,所有上面這5條被分類為1的隨機評論實際上也的確都很好!
現(xiàn)在,讓我們再展示一個更直觀的上述數(shù)據(jù)的統(tǒng)計計數(shù)結(jié)果示意圖:
四、其他一些問題
本文中,我們具體做了哪些工作?
首先,我們肯定ChatGPT是非常棒的。
然后,我們使用ChatGPT為代理模型構(gòu)建了一個數(shù)據(jù)集。更具體地說,我們使用ChatGPT來組建酒店的好評和差評數(shù)據(jù)。
接下來,我們使用我們構(gòu)建的標(biāo)記數(shù)據(jù)集來訓(xùn)練機器學(xué)習(xí)模型。本文示例中,我們所使用的模型是隨機森林分類器(Random Forest Classifier)。
最后,我們在一個新的數(shù)據(jù)集上測試了我們的訓(xùn)練模型,并得到了令人滿意的結(jié)果。
那么,上述案例中還有改進的余地嗎?當(dāng)然還有很多,例如:
1. 我們可以獲得OpenAI高級服務(wù),并生成超過1000條評論。
2. 我們可以通過提供不同的輸入來提高我們的查詢技能,也許還可以使用其他語言而不僅僅是英語。
3. 我們還可以通過進行一些超參數(shù)調(diào)整來進一步改進機器學(xué)習(xí)模型。
現(xiàn)在,我不由得想起了以下一些問題。
關(guān)于如何以及誰將使用OpenAI公司的ChatGPT呢?這方面自然存在很多擔(dān)憂。雖然我不是一名律師(更不用說是一名倫理學(xué)人工智能專家),但我可以想象這個工具在許多方面和許多不同層面上是多么危險。
我強烈反對那些對ChatGPT的性能印象不深刻的人,因為我覺得它非常令人驚訝,而且我很高興看到這項技術(shù)會如何發(fā)展。不過,我希望本文中介紹的這個玩具例子也能在我的讀者中引起一些共鳴。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標(biāo)題:??Hands-on Sentiment Analysis on Hotels Reviews Using Artificial Intelligence and Open AI’s ChatGPT, with Python??,作者:Piero Paialunga