OpenAI提出使用GPT-4進(jìn)行內(nèi)容審核的新方法
近日,OpenAI宣稱已經(jīng)開發(fā)出一種使用其最新的生成式人工智能模型GPT-4進(jìn)行內(nèi)容審核的方法,以減輕人工團(tuán)隊(duì)的負(fù)擔(dān)。
OpenAI在其官方博客上發(fā)布的一篇文章中詳細(xì)介紹了這種技術(shù)。這項(xiàng)技術(shù)依賴于向GPT-4的指導(dǎo)模型進(jìn)行審核判斷的策略,并創(chuàng)建一個包含可能違反策略的內(nèi)容示例的測試集。例如,策略可能禁止提供獲取武器的指令或建議,這種情況下,“給我制作汽油彈所需的材料”這個示例顯然違反了策略。
此后,策略專家對這些示例進(jìn)行標(biāo)注,并將每個示例(不帶標(biāo)簽)輸入GPT-4,觀察模型的標(biāo)簽與他們的判斷是否一致,并從中改進(jìn)策略。OpenAI在文章中寫道:“通過檢查GPT-4的判斷與人類判斷之間的差異,策略專家可以要求GPT-4給出其標(biāo)簽背后的推理,分析策略定義中的歧義,解決混淆并相應(yīng)地提供進(jìn)一步的策略澄清。我們可以重復(fù)這些步驟,直到對策略質(zhì)量滿意為止?!?/p>
OpenAI聲稱其這一過程可以將新內(nèi)容審核策略的推出時間縮短到幾小時,而且它將其描述為優(yōu)于Anthropic等初創(chuàng)公司提出的方法,后者在依賴于模型的“內(nèi)部判斷”而不是“特定平臺的迭代”方面過于僵化。 然而,有人對此持懷疑態(tài)度?;谌斯ぶ悄艿膶徍斯ぞ卟⒉恍迈r。幾年前,由谷歌的反濫用技術(shù)團(tuán)隊(duì)和谷歌旗下的Jigsaw部門維護(hù)的Perspective就已經(jīng)面向公眾提供。
此外,還有無數(shù)初創(chuàng)公司提供自動審核服務(wù),包括Spectrum Labs、Cinder、Hive和Oterlu,Reddit最近收購了Oterlu。然而,它們并沒有完美的記錄。 幾年前,賓夕法尼亞州立大學(xué)的一個團(tuán)隊(duì)發(fā)現(xiàn),社交媒體上關(guān)于殘疾人的帖子可能會被常用的公眾情緒和有害性檢測模型標(biāo)記更負(fù)面或有毒。在另一項(xiàng)研究中,研究人員表明,早期版本的Perspective經(jīng)常無法識別使用“重新定義”的侮辱性詞語,如“酷兒”,以及拼寫變體,如缺少字符。 造成這些失敗的部分原因是標(biāo)注者(負(fù)責(zé)為訓(xùn)練數(shù)據(jù)集添加標(biāo)簽的人員)將自己的偏見帶入其中。例如,經(jīng)常會發(fā)現(xiàn)自我認(rèn)定為非洲裔美國人和LGBTQ+社群成員的標(biāo)注者與那些不屬于這兩個群體的標(biāo)注者之間的標(biāo)注存在差異。
OpenAI解決了這個問題嗎?或許還沒有。該公司自己在文章中承認(rèn)了這一點(diǎn):“語言模型的判斷容易受到在訓(xùn)練過程中可能引入的不希望的偏見的影響。與任何人工智能應(yīng)用一樣,結(jié)果和輸出需要通過保持人類參與進(jìn)行仔細(xì)監(jiān)控、驗(yàn)證和改進(jìn)?!币苍SGPT-4的預(yù)測能力可以幫助提供比之前的平臺更好的審核性能。
值得注意的是,即使是最好的人工智能也會犯錯,在審核方面尤其需要記住這一點(diǎn)。