偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="3g4k6"><optgroup id="3g4k6"></optgroup></abbr>

<style id="3g4k6"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ChatGPT開發(fā)實(shí)戰(zhàn)——酒店評論情感分析

作者：朱先忠 2022-12-27 08:00:00

本文將探討如何基于OpenAI公司的ChatGPT機(jī)器學(xué)習(xí)技術(shù)并在Python語言環(huán)境下僅通過少量編碼來實(shí)現(xiàn)對顧客所住酒店的好評和差評的自動化分類。

譯者 | 朱先忠

審校 | 孫淑娟

OpenAI新推出的聊天GPT棒極了

我是一名研究人員，每天都使用人工智能技術(shù)工作?？梢哉f，在我的位置上，每個人都像盯著冰淇淋筒的狗狗一樣興奮。

原因如下：

對于那些不知道我在說什么的人來說，只需知道ChatGPT是一個人工智能聊天機(jī)器人，它可以幫助你做幾乎所有的事情。它可以編碼，可以寫文章，也可以幫助你裝飾你的家庭，甚至還可以制作食譜（如果你是意大利人，那么我不建議你這樣做），還有其他很多的事情讓它為你代勞。

我們可以說，這將會在未來引發(fā)倫理（而不僅僅是倫理）問題。我的母親是一名高中教師，她很害怕她的學(xué)生會使用ChatGPT在考試中作弊。當(dāng)然，這只是這項(xiàng)功能強(qiáng)大的技術(shù)“導(dǎo)致問題”的眾多例子之一。

但問題是使用，而不是產(chǎn)品。如果我們嚴(yán)格談?wù)摷夹g(shù)方面（坦率地說，也是我更感興趣的方面，因?yàn)槲沂且粋€經(jīng)“認(rèn)證”的書呆子），那真是不可思議。

現(xiàn)在，許多開發(fā)人員已經(jīng)使用并測試過這款聊天機(jī)器人來嘗試開發(fā)他們的代碼和AI想法。當(dāng)然，這款聊天機(jī)器人的使用嚴(yán)格取決于你的背景。例如，如果你是一名Web開發(fā)人員，你會要求ChatGPT使用HTML構(gòu)建一個網(wǎng)站。如果您是一名測試人員，您可以請求ChatGPT幫助您查找特定系統(tǒng)中的錯誤。

就我個人來說，我是一名研究人員。特別是，我所做的工作是用人工智能建立一些替代模型。比如說，你想對“A”進(jìn)行研究，但要實(shí)現(xiàn)“A”任務(wù)你需要大量的資金、人力和計(jì)算時間。這種替代模型背后的想法就是，借助人工智能的數(shù)據(jù)驅(qū)動方法來取代傳統(tǒng)的實(shí)現(xiàn)方案。

現(xiàn)在，讓我們暫時徹底改變這一話題。

假設(shè)我是一名企業(yè)家，我在美國各地?fù)碛泻芏嗑频辍Ｈ绻麑δ臣揖频赀M(jìn)行了一定的評論，我想知道該評論對該酒店來說是好還是壞。我該怎么做？我有三個選擇：

1. 我雇傭一個每天閱讀數(shù)百萬條評論并對其進(jìn)行分類的人，那么我可能會被捕，因?yàn)檫@顯然是對人權(quán)的侵犯。

2. 我雇傭一個每天閱讀數(shù)百條評論并對其進(jìn)行分類的人。幾個月后，我能夠用這些信息構(gòu)建一個數(shù)據(jù)集。然后，我從這個數(shù)據(jù)集中訓(xùn)練出一個機(jī)器學(xué)習(xí)模型。

3. 我會自動生成好的和壞的評論。然后，由我自己從中構(gòu)建了一個數(shù)據(jù)集，最后我從該數(shù)據(jù)集中訓(xùn)練出一個機(jī)器學(xué)習(xí)模型。

閑言少敘，讓我們跳過第一個選擇方案。

第二個選項(xiàng)是在ChatGPT誕生之前要做的事情。顯然，你不能提前知道評論是好是壞；所以，如果你想使用此信息建立一個數(shù)據(jù)集，那么你需要雇傭人員，等到數(shù)據(jù)集準(zhǔn)備好才能行動。

如今，我們有了ChatGPT，就可以簡單地要求它來為我們生成好的和壞的評論！這將需要幾分鐘（而不是幾個月）的時間，它將允許我們構(gòu)建機(jī)器學(xué)習(xí)算法來自動分類我們的客戶評論！

恭喜你，這是你的第一個代理模型。

請記住，我們不會訓(xùn)練ChatGPT或進(jìn)行任何微調(diào)。對于這樣的任務(wù)，此模型是例外的，在這種情況下不需要進(jìn)行微調(diào)?，F(xiàn)在，ChatGPT模型的訓(xùn)練當(dāng)然不是開源的（就像模型本身一樣）。我們所知道的只是??OpenAI官方博客??中的簡短描述。他們解釋說，該模型是由人工智能訓(xùn)練師和強(qiáng)化學(xué)習(xí)監(jiān)督算法訓(xùn)練的。

僅OpenAI的ChatGPT不是開源的這一事實(shí)就引發(fā)了一些非常棘手和有趣的倫理問題。這樣一個強(qiáng)大的模型應(yīng)該是開源的——這樣每個人（包括壞人）都可以使用它，還是應(yīng)該不是開源的？所以，沒有人可以真正信任它？

現(xiàn)在，讓我概括一下上面的總體步驟：

你從上圖中看到的小腦殼就是代理模型。正如我們稍后將看到的，這將是一個隨機(jī)的森林。但我曾經(jīng)說過本文是一篇實(shí)戰(zhàn)性的文章，所以讓我們深入研究吧！（太激動了！?。。?/span>

對不起，我喜歡劇透。

一、生成數(shù)據(jù)集

第一步是使用OpenAI公司的Python API生成模擬。

為此，需要考慮的幾件事有：

1.OpenAI庫是天才為非天才用戶創(chuàng)造的。因此，如果要安裝它，只需執(zhí)行以下操作：

pip install --upgrade openai

2.當(dāng)然，如果你想發(fā)送大量請求，你必須為優(yōu)質(zhì)服務(wù)提供支付。假設(shè)我們不想這樣做，我們只需要等待大約30分鐘就可以獲得虛擬評論信息的數(shù)據(jù)集。同樣，如果我們手動執(zhí)行此操作，那么這與等待數(shù)月的時間（和成本）相比微不足道。此外，您還必須登錄OpenAI官方網(wǎng)站并獲得OpenAI庫對應(yīng)的密鑰。

3.我們將自動輸入這是一個好的評價還是一個差的評價，以相同的句子開頭：“This hotel was terrible.”表示差評，“This hotel was great.”表示好評?？傊?，ChatGPT將為我們完成審查工作。當(dāng)然，除了前四個單詞（無論如何我們都不會在評論中包含），其余的評論都會有所不同。

讓我舉一個差評的例子：

import openai
import time
openai.api_key = "your_key"

completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
print(completion.choices[0]['text'])

接下來，我再舉一個好評的例子：

completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
print(completion.choices[0]['text'])

現(xiàn)在，我們給出生成整個數(shù)據(jù)集所需的代碼。

good_reviews = []
bad_reviews = []
for i in range(0,500):
  completion = openai.Completion.create(engine="davinci", prompt="This hotel was great.",max_tokens=120)
  good_reviews.append(completion.choices[0]['text'])
  print('Generating good review number %i'%(i))
  completion = openai.Completion.create(engine="davinci", prompt="This hotel was terrible.",max_tokens=120)
  bad_reviews.append(completion.choices[0]['text'])
  print('Generating bad review number %i'%(i))
  display = np.random.choice([0,1],p=[0.7,0.3])
  time.sleep(3)
  if display ==1:
    display_good = np.random.choice([0,1],p=[0.5,0.5])
    if display_good ==1:
      print('Printing random good review')
      print(good_reviews[-1])
    if display_good ==0:
      print('Printing random bad review')
      print(bad_reviews[-1])

然后，我們使用Pandas庫來把一切內(nèi)容存儲到一個數(shù)據(jù)框架DataFrame中。

為此，首先導(dǎo)入庫并構(gòu)建數(shù)據(jù)框架df：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.zeros((1000,2)))

接下來，填充數(shù)據(jù)框架結(jié)構(gòu)df：

df.columns = ['Reviews','Sentiment']
df['Sentiment'].loc[0:499] = 1

最后，導(dǎo)出數(shù)據(jù)框架df：

df.to_csv('generated_reviews.csv')

二、開始進(jìn)行機(jī)器學(xué)習(xí)

現(xiàn)在,我們需要建立和訓(xùn)練一種機(jī)器學(xué)習(xí)算法。

當(dāng)我們處理文本時，首先需要做的是使用矢量器（vectorizer）。矢量器負(fù)責(zé)實(shí)現(xiàn)將文本轉(zhuǎn)換為矢量的任務(wù)。

例如：

正如你所看到的，相似的文本對應(yīng)著相似的向量（我知道，“相似”是一個棘手的概念，但你知道我的意思就行）。并且，不同的文本具有不相似的向量。

矢量化步驟有很多種方法。有些方式比其他方式更復(fù)雜；有些方法比其他方法更有效；有些方法需要機(jī)器學(xué)習(xí)，有些方法則不需要。

為了實(shí)現(xiàn)本文中這個項(xiàng)目的目的（因?yàn)槲也皇荖LP機(jī)器學(xué)習(xí)工程師），我們將使用一個相當(dāng)簡單的叫做TfIDF矢量器的工具，該工具在??SkLearn框架??上可現(xiàn)成地使用。

讓我們從導(dǎo)入庫開始：

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix,plot_confusion_matrix
from sklearn.feature_extraction.text import TfidfVectorizer

然后，導(dǎo)入我們剛剛使用ChatGPT生成的數(shù)據(jù)集，并進(jìn)行一些預(yù)處理工作：

labeled_data = pd.read_csv('generated_reviews.csv').drop(columns=['Unnamed: 0'])
labeled_data.Sentiment = labeled_data.Sentiment.astype(int)
labeled_data = labeled_data.dropna().reset_index()

數(shù)據(jù)集頭部的數(shù)據(jù)如下：

好極了！現(xiàn)在，讓我們做一個矢量化的事情：

dataset = labeled_data

from transformers import AutoTokenizer

#tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
#tokenized_data = tokenizer(dataset["Reviews"].values.tolist(), return_tensors="np", padding=True)
vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)
tokenized_data = vectorizer.fit_transform(dataset['Reviews']).toarray()

labels = np.array(dataset["Sentiment"])  # Label is already an array of 0 and 1

正如我之前介紹過的，我們將使用的機(jī)器學(xué)習(xí)模型稱為隨機(jī)森林。什么是隨機(jī)森林？簡言之，它是一個決策樹的集合。那么，什么是決策樹呢？

決策樹是一種機(jī)器學(xué)習(xí)算法，它能夠在給定具體的符合對應(yīng)理論條件的情況下，優(yōu)化數(shù)據(jù)集特征的所有可能分割的樹搜索，直到找到一種基于該分割來區(qū)分出什么是1和什么是0的方法為止。

很抱歉，這樣的解釋可能還太令人困惑；但是，僅用4行文字來給出通俗解釋的話，這的確是一項(xiàng)艱巨的任務(wù)。有??一篇文章??花了很多時間來解釋這個問題，而且做得相當(dāng)出色了。在此，我強(qiáng)烈推薦您看一看。

現(xiàn)在，讓我們繼續(xù)干活：

1. 定義我們的隨機(jī)森林：

rf = RandomForestClassifier(n_estimators=100)

2. 將我們的數(shù)據(jù)集拆分為訓(xùn)練和測試兩部分：

X = tokenized_data
y = labels
X_train, X_test,y_train, y_test = train_test_split(X,y,test_size=0.2)

3. 開始訓(xùn)練模型：

rf.fit(X_train,y_train)

訓(xùn)練輸出結(jié)果給人留下非常深刻的印象，特別是在沒有提供超參數(shù)微調(diào)的情況下。

三、情感分析

到目前為止，我們已經(jīng)有了一個經(jīng)過訓(xùn)練的模型；因此，可以在新的、未標(biāo)記的數(shù)據(jù)集上使用此模型了。為此，我使用了自己在網(wǎng)上找到的一組紐約市酒店評論來進(jìn)行測試。當(dāng)然，你也可以使用自己的評論，甚至也可以編寫一份評論，看看這個模型是如何工作的。

本文中我提供的這個數(shù)據(jù)集是開源的（遵循CC0協(xié)議），非常小（2MB），可以在??Kaggle??上下載。

現(xiàn)在，讓我們對評論欄目（或文本）進(jìn)行預(yù)處理：

vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8)
vectorizer.fit(dataset['Reviews'])
new_data_processed = vectorizer.transform(target_data['review']).toarray()
y_pred = rf.predict(new_data_processed)

然后，打印我們的預(yù)測結(jié)果：

J = np.random.choice(range(0,len(new_data_processed)),5)
for j in J:
    print('Review number %i: \n'%(j))
    print(target_data['review'].loc[j])
    print('Classified as %i (1=good, 0=bad)' %(y_pred[j]))

正如我們所看到的，所有上面這5條被分類為1的隨機(jī)評論實(shí)際上也的確都很好！

現(xiàn)在，讓我們再展示一個更直觀的上述數(shù)據(jù)的統(tǒng)計(jì)計(jì)數(shù)結(jié)果示意圖：

四、其他一些問題

本文中，我們具體做了哪些工作？

首先，我們肯定ChatGPT是非常棒的。

然后，我們使用ChatGPT為代理模型構(gòu)建了一個數(shù)據(jù)集。更具體地說，我們使用ChatGPT來組建酒店的好評和差評數(shù)據(jù)。

接下來，我們使用我們構(gòu)建的標(biāo)記數(shù)據(jù)集來訓(xùn)練機(jī)器學(xué)習(xí)模型。本文示例中，我們所使用的模型是隨機(jī)森林分類器（Random Forest Classifier）。

最后，我們在一個新的數(shù)據(jù)集上測試了我們的訓(xùn)練模型，并得到了令人滿意的結(jié)果。

那么，上述案例中還有改進(jìn)的余地嗎？當(dāng)然還有很多，例如：

1. 我們可以獲得OpenAI高級服務(wù)，并生成超過1000條評論。

2. 我們可以通過提供不同的輸入來提高我們的查詢技能，也許還可以使用其他語言而不僅僅是英語。

3. 我們還可以通過進(jìn)行一些超參數(shù)調(diào)整來進(jìn)一步改進(jìn)機(jī)器學(xué)習(xí)模型。

現(xiàn)在，我不由得想起了以下一些問題。

關(guān)于如何以及誰將使用OpenAI公司的ChatGPT呢？這方面自然存在很多擔(dān)憂。雖然我不是一名律師（更不用說是一名倫理學(xué)人工智能專家），但我可以想象這個工具在許多方面和許多不同層面上是多么危險。

我強(qiáng)烈反對那些對ChatGPT的性能印象不深刻的人，因?yàn)槲矣X得它非常令人驚訝，而且我很高興看到這項(xiàng)技術(shù)會如何發(fā)展。不過，我希望本文中介紹的這個玩具例子也能在我的讀者中引起一些共鳴。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計(jì)算機(jī)教師，自由編程界老兵一枚。

原文標(biāo)題：??Hands-on Sentiment Analysis on Hotels Reviews Using Artificial Intelligence and Open AI’s ChatGPT, with Python??，作者：Piero Paialunga

責(zé)任編輯：華軒來源： 51CTO

開發(fā)機(jī)器學(xué)習(xí)數(shù)據(jù)集

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="aj6so"><progress id="aj6so"></progress></blockquote>