偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT開發(fā)實戰(zhàn)——酒店評論情感分析

譯文 精選
開源
本文將探討如何基于OpenAI公司的ChatGPT機器學(xué)習(xí)技術(shù)并在Python語言環(huán)境下僅通過少量編碼來實現(xiàn)對顧客所住酒店的好評和差評的自動化分類。

譯者 | 朱先忠

審校 | 孫淑娟

OpenAI新推出的聊天GPT棒極了

我是一名研究人員,每天都使用人工智能技術(shù)工作??梢哉f,在我的位置上,每個人都像盯著冰淇淋筒的狗狗一樣興奮。

原因如下:

對于那些不知道我在說什么的人來說,只需知道ChatGPT是一個人工智能聊天機器人,它可以幫助你做幾乎所有的事情。它可以編碼,可以寫文章,也可以幫助你裝飾你的家庭,甚至還可以制作食譜(如果你是意大利人,那么我不建議你這樣做),還有其他很多的事情讓它為你代勞。

我們可以說,這將會在未來引發(fā)倫理(而不僅僅是倫理)問題。我的母親是一名高中教師,她很害怕她的學(xué)生會使用ChatGPT在考試中作弊。當(dāng)然,這只是這項功能強大的技術(shù)“導(dǎo)致問題”的眾多例子之一。

但問題是使用,而不是產(chǎn)品。如果我們嚴格談?wù)摷夹g(shù)方面(坦率地說,也是我更感興趣的方面,因為我是一個經(jīng)“認證”的書呆子),那真是不可思議。

現(xiàn)在,許多開發(fā)人員已經(jīng)使用并測試過這款聊天機器人來嘗試開發(fā)他們的代碼和AI想法。當(dāng)然,這款聊天機器人的使用嚴格取決于你的背景。例如,如果你是一名Web開發(fā)人員,你會要求ChatGPT使用HTML構(gòu)建一個網(wǎng)站。如果您是一名測試人員,您可以請求ChatGPT幫助您查找特定系統(tǒng)中的錯誤。

就我個人來說,我是一名研究人員。特別是,我所做的工作是用人工智能建立一些替代模型。比如說,你想對“A”進行研究,但要實現(xiàn)“A”任務(wù)你需要大量的資金、人力和計算時間。這種替代模型背后的想法就是,借助人工智能的數(shù)據(jù)驅(qū)動方法來取代傳統(tǒng)的實現(xiàn)方案。

現(xiàn)在,讓我們暫時徹底改變這一話題。

假設(shè)我是一名企業(yè)家,我在美國各地擁有很多酒店。如果對某家酒店進行了一定的評論,我想知道該評論對該酒店來說是好還是壞。我該怎么做?我有三個選擇:

1. 我雇傭一個每天閱讀數(shù)百萬條評論并對其進行分類的人,那么我可能會被捕,因為這顯然是對人權(quán)的侵犯。

2. 我雇傭一個每天閱讀數(shù)百條評論并對其進行分類的人。幾個月后,我能夠用這些信息構(gòu)建一個數(shù)據(jù)集。然后,我從這個數(shù)據(jù)集中訓(xùn)練出一個機器學(xué)習(xí)模型。

3. 我會自動生成好的和壞的評論。然后,由我自己從中構(gòu)建了一個數(shù)據(jù)集,最后我從該數(shù)據(jù)集中訓(xùn)練出一個機器學(xué)習(xí)模型。

閑言少敘,讓我們跳過第一個選擇方案。

第二個選項是在ChatGPT誕生之前要做的事情。顯然,你不能提前知道評論是好是壞;所以,如果你想使用此信息建立一個數(shù)據(jù)集,那么你需要雇傭人員,等到數(shù)據(jù)集準(zhǔn)備好才能行動。

如今,我們有了ChatGPT,就可以簡單地要求它來為我們生成好的和壞的評論!這將需要幾分鐘(而不是幾個月)的時間,它將允許我們構(gòu)建機器學(xué)習(xí)算法來自動分類我們的客戶評論!

恭喜你,這是你的第一個代理模型。

請記住,我們不會訓(xùn)練ChatGPT或進行任何微調(diào)。對于這樣的任務(wù),此模型是例外的,在這種情況下不需要進行微調(diào)?,F(xiàn)在,ChatGPT模型的訓(xùn)練當(dāng)然不是開源的(就像模型本身一樣)。我們所知道的只是??OpenAI官方博客??中的簡短描述。他們解釋說,該模型是由人工智能訓(xùn)練師和強化學(xué)習(xí)監(jiān)督算法訓(xùn)練的。

僅OpenAI的ChatGPT不是開源的這一事實就引發(fā)了一些非常棘手和有趣的倫理問題。這樣一個強大的模型應(yīng)該是開源的——這樣每個人(包括壞人)都可以使用它,還是應(yīng)該不是開源的?所以,沒有人可以真正信任它?

現(xiàn)在,讓我概括一下上面的總體步驟:

你從上圖中看到的小腦殼就是代理模型。正如我們稍后將看到的,這將是一個隨機的森林。但我曾經(jīng)說過本文是一篇實戰(zhàn)性的文章,所以讓我們深入研究吧!(太激動了?。。。?/span>

對不起,我喜歡劇透。

一、生成數(shù)據(jù)集

第一步是使用OpenAI公司的Python API生成模擬。

為此,需要考慮的幾件事有:

1.OpenAI庫是天才為非天才用戶創(chuàng)造的。因此,如果要安裝它,只需執(zhí)行以下操作:

pip install --upgrade openai

2.當(dāng)然,如果你想發(fā)送大量請求,你必須為優(yōu)質(zhì)服務(wù)提供支付。假設(shè)我們不想這樣做,我們只需要等待大約30分鐘就可以獲得虛擬評論信息的數(shù)據(jù)集。同樣,如果我們手動執(zhí)行此操作,那么這與等待數(shù)月的時間(和成本)相比微不足道。此外,您還必須登錄OpenAI官方網(wǎng)站并獲得OpenAI庫對應(yīng)的密鑰。

3.我們將自動輸入這是一個好的評價還是一個差的評價,以相同的句子開頭:“This hotel was terrible.”表示差評,“This hotel was great.”表示好評??傊?,ChatGPT將為我們完成審查工作。當(dāng)然,除了前四個單詞(無論如何我們都不會在評論中包含),其余的評論都會有所不同。

讓我舉一個差評的例子:

import openai
import time
openai.api_key = "your_key"

completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
print(completion.choices[0]['text'])

接下來,我再舉一個好評的例子:

completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
print(completion.choices[0]['text'])

現(xiàn)在,我們給出生成整個數(shù)據(jù)集所需的代碼。

good_reviews = []
bad_reviews = []
for i in range(0,500):
completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
good_reviews.append(completion.choices[0]['text'])
print('Generating good review number %i'%(i))
completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
bad_reviews.append(completion.choices[0]['text'])
print('Generating bad review number %i'%(i))
display = np.random.choice([0,1],p=[0.7,0.3])
time.sleep(3)
if display ==1:
display_good = np.random.choice([0,1],p=[0.5,0.5])
if display_good ==1:
print('Printing random good review')
print(good_reviews[-1])
if display_good ==0:
print('Printing random bad review')
print(bad_reviews[-1])

然后,我們使用Pandas庫來把一切內(nèi)容存儲到一個數(shù)據(jù)框架DataFrame中。

為此,首先導(dǎo)入庫并構(gòu)建數(shù)據(jù)框架df:

import pandas as pd
import numpy as np
df = pd.DataFrame(np.zeros((1000,2)))

接下來,填充數(shù)據(jù)框架結(jié)構(gòu)df:

df.columns = ['Reviews','Sentiment']
df['Sentiment'].loc[0:499] = 1

最后,導(dǎo)出數(shù)據(jù)框架df:

df.to_csv('generated_reviews.csv')

二、開始進行機器學(xué)習(xí)

現(xiàn)在,我們需要建立和訓(xùn)練一種機器學(xué)習(xí)算法。

當(dāng)我們處理文本時,首先需要做的是使用矢量器(vectorizer)。矢量器負責(zé)實現(xiàn)將文本轉(zhuǎn)換為矢量的任務(wù)。

例如:

正如你所看到的,相似的文本對應(yīng)著相似的向量(我知道,“相似”是一個棘手的概念,但你知道我的意思就行)。并且,不同的文本具有不相似的向量。

矢量化步驟有很多種方法。有些方式比其他方式更復(fù)雜;有些方法比其他方法更有效;有些方法需要機器學(xué)習(xí),有些方法則不需要。

為了實現(xiàn)本文中這個項目的目的(因為我不是NLP機器學(xué)習(xí)工程師),我們將使用一個相當(dāng)簡單的叫做TfIDF矢量器的工具,該工具在??SkLearn框架??上可現(xiàn)成地使用。

讓我們從導(dǎo)入庫開始:

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix,plot_confusion_matrix
from sklearn.feature_extraction.text import TfidfVectorizer

然后,導(dǎo)入我們剛剛使用ChatGPT生成的數(shù)據(jù)集,并進行一些預(yù)處理工作:

labeled_data = pd.read_csv('generated_reviews.csv').drop(columns=['Unnamed: 0'])
labeled_data.Sentiment = labeled_data.Sentiment.astype(int)
labeled_data = labeled_data.dropna().reset_index()

數(shù)據(jù)集頭部的數(shù)據(jù)如下:

好極了!現(xiàn)在,讓我們做一個矢量化的事情:

dataset = labeled_data

from transformers import AutoTokenizer

#tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
#tokenized_data = tokenizer(dataset["Reviews"].values.tolist(), return_tensors="np", padding=True)
vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)
tokenized_data = vectorizer.fit_transform(dataset['Reviews']).toarray()

labels = np.array(dataset["Sentiment"]) # Label is already an array of 0 and 1

正如我之前介紹過的,我們將使用的機器學(xué)習(xí)模型稱為隨機森林。什么是隨機森林?簡言之,它是一個決策樹的集合。那么,什么是決策樹呢?

決策樹是一種機器學(xué)習(xí)算法,它能夠在給定具體的符合對應(yīng)理論條件的情況下,優(yōu)化數(shù)據(jù)集特征的所有可能分割的樹搜索,直到找到一種基于該分割來區(qū)分出什么是1和什么是0的方法為止。

很抱歉,這樣的解釋可能還太令人困惑;但是,僅用4行文字來給出通俗解釋的話,這的確是一項艱巨的任務(wù)。有??一篇文章??花了很多時間來解釋這個問題,而且做得相當(dāng)出色了。在此,我強烈推薦您看一看。

現(xiàn)在,讓我們繼續(xù)干活:

1. 定義我們的隨機森林:

rf = RandomForestClassifier(n_estimators=100)

2. 將我們的數(shù)據(jù)集拆分為訓(xùn)練和測試兩部分:

X = tokenized_data
y = labels
X_train, X_test,y_train, y_test = train_test_split(X,y,test_size=0.2)

3. 開始訓(xùn)練模型:

rf.fit(X_train,y_train)

訓(xùn)練輸出結(jié)果給人留下非常深刻的印象,特別是在沒有提供超參數(shù)微調(diào)的情況下。

三、情感分析

到目前為止,我們已經(jīng)有了一個經(jīng)過訓(xùn)練的模型;因此,可以在新的、未標(biāo)記的數(shù)據(jù)集上使用此模型了。為此,我使用了自己在網(wǎng)上找到的一組紐約市酒店評論來進行測試。當(dāng)然,你也可以使用自己的評論,甚至也可以編寫一份評論,看看這個模型是如何工作的。

本文中我提供的這個數(shù)據(jù)集是開源的(遵循CC0協(xié)議),非常?。?MB),可以在??Kaggle??上下載。

現(xiàn)在,讓我們對評論欄目(或文本)進行預(yù)處理:

vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)
vectorizer.fit(dataset['Reviews'])
new_data_processed = vectorizer.transform(target_data['review']).toarray()
y_pred = rf.predict(new_data_processed)

然后,打印我們的預(yù)測結(jié)果:

J = np.random.choice(range(0,len(new_data_processed)),5)
for j in J:
print('Review number %i: \n'%(j))
print(target_data['review'].loc[j])
print('Classified as %i (1=good, 0=bad)' %(y_pred[j]))

正如我們所看到的,所有上面這5條被分類為1的隨機評論實際上也的確都很好!

現(xiàn)在,讓我們再展示一個更直觀的上述數(shù)據(jù)的統(tǒng)計計數(shù)結(jié)果示意圖:

四、其他一些問題

本文中,我們具體做了哪些工作?

首先,我們肯定ChatGPT是非常棒的。

然后,我們使用ChatGPT為代理模型構(gòu)建了一個數(shù)據(jù)集。更具體地說,我們使用ChatGPT來組建酒店的好評和差評數(shù)據(jù)。

接下來,我們使用我們構(gòu)建的標(biāo)記數(shù)據(jù)集來訓(xùn)練機器學(xué)習(xí)模型。本文示例中,我們所使用的模型是隨機森林分類器(Random Forest Classifier)。

最后,我們在一個新的數(shù)據(jù)集上測試了我們的訓(xùn)練模型,并得到了令人滿意的結(jié)果。

那么,上述案例中還有改進的余地嗎?當(dāng)然還有很多,例如:

1. 我們可以獲得OpenAI高級服務(wù),并生成超過1000條評論。

2. 我們可以通過提供不同的輸入來提高我們的查詢技能,也許還可以使用其他語言而不僅僅是英語。

3. 我們還可以通過進行一些超參數(shù)調(diào)整來進一步改進機器學(xué)習(xí)模型。

現(xiàn)在,我不由得想起了以下一些問題。

關(guān)于如何以及誰將使用OpenAI公司的ChatGPT呢?這方面自然存在很多擔(dān)憂。雖然我不是一名律師(更不用說是一名倫理學(xué)人工智能專家),但我可以想象這個工具在許多方面和許多不同層面上是多么危險。

我強烈反對那些對ChatGPT的性能印象不深刻的人,因為我覺得它非常令人驚訝,而且我很高興看到這項技術(shù)會如何發(fā)展。不過,我希望本文中介紹的這個玩具例子也能在我的讀者中引起一些共鳴。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標(biāo)題:??Hands-on Sentiment Analysis on Hotels Reviews Using Artificial Intelligence and Open AI’s ChatGPT, with Python??,作者:Piero Paialunga


責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2023-05-29 08:00:00

ChatGPT人工智能機器學(xué)習(xí)

2023-03-16 08:00:00

機器學(xué)習(xí)深度學(xué)習(xí)人工智能

2018-09-04 11:45:31

前端JavaScriptNodeJS

2017-10-10 13:13:48

2024-08-13 13:11:02

2017-03-21 10:55:22

大數(shù)據(jù)

2016-12-07 14:23:48

KNIME數(shù)據(jù)分析情感分析

2023-02-03 11:40:49

機器學(xué)習(xí)分析情感

2017-05-15 14:00:28

大數(shù)據(jù)Python情感極性分析

2018-06-19 08:35:51

情感分析數(shù)據(jù)集代碼

2018-09-02 15:15:30

Rpython租房

2012-04-26 14:03:24

SAP

2017-12-20 09:52:50

2016-12-07 14:56:51

KNIME數(shù)據(jù)分析

2017-10-10 15:42:56

Python鹿晗關(guān)曉彤

2016-12-07 14:45:25

KNIME情感分析數(shù)據(jù)分析

2023-12-12 09:00:00

2021-11-09 09:46:09

ScrapyPython爬蟲

2021-11-08 14:38:50

框架Scrapy 爬蟲

2017-07-12 10:44:31

CNNLSTMNLP
點贊
收藏

51CTO技術(shù)棧公眾號