分類
教程

AI 內容檢測: Bard 對 ChatGPT 對 Claude

研究者觀察到 AI 內容檢測的能力存在差異,突顯出辨識 AI 生成內容的可能新方向

重點

  • 由 Claude 創建的文本比由 Bard 或 ChatGPT 創建的文本更難檢測
  • Bard 和 ChatGPT 在自我檢測其原創內容時具有相對較高的準確性
  • 對於自我檢測改寫內容的結果在三個測試的 AI 模型中產生了令人驚訝的結果
  • 測試結果似乎表明 Claude 生成的可檢測的藝術品最少,這使得它更難以檢測

研究者測試了一個想法,即一個 AI 模型在自我檢測其自身內容方面可能具有優勢,因為檢測是利用相同的訓練和數據集。他們沒有預料到的是,在他們測試的三個 AI 模型中,其中一個生成的內容如此難以檢測,以至於甚至生成它的 AI 也無法檢測它。

這項研究是由南卡羅來納州立大學工程學院計算機科學系的研究人員進行的。

AI 內容檢測

許多 AI 檢測器被訓練來尋找 AI 生成內容的顯著信號。這些信號被稱為“藝術品”,這是由於底層變壓器技術所產生的。但其他藝術品是每個基礎模型(AI 基於的大型語言模型)獨有的。

這些藝術品對每個 AI 都是獨一無二的,它們來自於總是與下一個 AI 模型不同的獨特訓練數據和微調。

研究人員發現證據表明正是這種獨特性使得一個 AI 在自我識別其自己的內容方面取得更大成功,遠遠優於試圖識別由不同 AI 生成的內容。

Bard 有更好的機會識別 Bard 生成的內容,而 ChatGPT 在識別 ChatGPT 生成的內容方面成功率更高,但是…

研究人員發現對於由 Claude 生成的內容並非如此。Claude 難以檢測其生成的內容。研究人員提出了關於為何 Claude 無法檢測自己內容的想法,本文將進一步討論。

這是研究測試的理念:

“由於每個模型可以被不同地訓練,創建一個工具來檢測所有可能的生成式 AI 工具創建的藝術品是很難實現的。

在這裡,我們發展了一種稱為自我檢測的不同方法,其中我們使用生成模型本身來檢測其自己的藝術品,以區分自己生成的文本與人類編寫的文本。

這將具有優勢,因為我們不需要學習檢測所有生成式 AI 模型,而我們只需要訪問生成式 AI 模型進行檢測。

在不斷開發和訓練新模型的世界中,這是一個重大優勢。”

方法論

研究人員測試了三個 AI 模型:

  1. OpenAI 的 ChatGPT-3.5
  2. Google 的 Bard
  3. Anthropic 的 Claude

所使用的所有模型均為 2023 年 9 月版。

創建了五十個不同主題的數據集。為每個主題,每個 AI 模型都給予完全相同的提示,為每種主題創建約 250 個單詞的文章,從而為三個 AI 模型的每個主題生成了五十篇文章。

然後,每個 AI 模型被提示以相同的方式改寫其自己的內容,並生成一篇重新寫的每篇原始文章的附加文章。

他們還收集了每個主題的五十篇人類生成的文章。所有人類生成的文章都是從 BBC 選擇的。

然後,研究人員使用零提示來進行自我檢測 AI 生成的內容。

零提示是一種依賴於 AI 模型完成其尚未專門訓練的任務的提示類型。

研究人員進一步解釋了他們的方法:

“我們創建了每個 AI 系統的新實例,並提出特定查詢:‘如果以下文本符合其寫作模式和詞語選擇。’ 這個程序對於原始、改寫和人工文章都重複執行,並記錄結果。

我們還添加了 AI 檢測工具 ZeroGPT 的結果。我們不使用此結果來比較性能,而是作為一個基準來顯示檢測任勞任怨的任務有多具挑戰性。”

他們還指出,50% 的準確率等同於猜測,可以被視為基本上是一個失敗的準確性水平。

結果:自我檢測

值得注意的是,研究人員承認他們的樣本率低,並表示他們並未宣稱結果是終極的。

以下是顯示第一批文章 AI 自我檢測成功率的圖表。紅色數值代表 AI 自我檢測,藍色代表 AI 檢測工具 ZeroGPT 的表現。

AI 自我檢測自己的文本內容的結果

Bard 在檢測自己的內容方面表現相當不錯,而 ChatGPT 在檢測自己的內容方面也表現良好。

AI 檢測工具 ZeroGPT 能夠很好地檢測到 Bard 的內容,並在檢測 ChatGPT 內容方面表現略微遜色。

ZeroGPT 實際上無法檢測到由 Claude 生成的內容,表現比 50% 的閾值還要差。

Claude 是該組中的異數,因為它無法檢測自己的內容,遠不如 Bard 和 ChatGPT 表現。

研究人員假設可能是因為 Claude 的輸出中包含較少可檢測的藝術品,這解釋了為什麼 Claude 和 ZeroGPT 都無法檢測到 Claude 的文章是 AI 生成的。

因此,儘管 Claude 無法可靠地自我檢測其自己的內容,這表明 Claude 的輸出在輸出較少的 AI 藝術品方面具有更高的質量。

ZeroGPT 在檢測 Bard 生成的內容方面的表現優於檢測 ChatGPT 和 Claude 內容。研究人員假設這可能是因為 Bard 生成了更多可檢測的藝術品,使得 Bard 更容易被檢測。

因此,就自我檢測內容而言,Bard 可能生成了更多可檢測的藝術品,而 Claude 生成的藝術品較少。

結果:自我檢測改寫內容

研究人員假設 AI 模型將能夠自我檢測其自己的改寫文本,因為模型創建的藝術品(如在原始文章中檢測到的)應該也存在於重寫的文本中。

然而,研究人員承認,用於撰寫文本和改寫的提示是不同的,因為每次重寫與原始文本不同,這可能導致對改寫文本的自我檢測結果不同。

自我檢測改寫文本的結果確實與原始文章測試的自我檢測結果有所不同。

Bard 能夠以類似的速率自我檢測改寫內容。
ChatGPT 未能以比 50% 的成功率高得多的速度自我檢測改寫內容(這等同於猜測)。
ZeroGPT 的表現與先前測試中的結果類似,略微更差。
也許最有趣的結果是由 Anthropic 的 Claude 提出的。

Claude 能夠自我檢測改寫的內容(但無法檢測上一項測試中的原始文章)。

Claude 的原始文章顯然包含較少的藝術品,以示其為 AI 生成的,以至於連 Claude 自己也無法檢測。但它能夠自我檢測改寫,而 ZeroGPT 則無法。

研究人員對這一測試發表了評論:

“改寫使得 ChatGPT 無法自我檢測,同時增加了 Claude 自我檢測的能力,這非常有趣,可能是這兩個變壓器模型內部運作的結果。”

AI 抄襲內容的自我檢測截圖

這些測試結果幾乎是不可預測的,特別是關於 Anthropic 的 Claude,這個趨勢在測試 AI 模型檢測彼此內容的表現上持續下去,這裡有一個有趣的變化。

結果:AI 模型檢測彼此內容

接下來的測試展示了每個 AI 模型檢測其他 AI 模型生成內容的能力。

如果 Bard 確實生成比其他模型更多的藝術品,其他模型是否能輕鬆檢測到 Bard 生成的內容?

結果顯示是的,其他 AI 模型最容易檢測到由 Bard 生成的內容。

關於檢測 ChatGPT 生成的內容,Claude 和 Bard 都無法將其識別為 AI 生成(就像 Claude 識別不出一樣)。

ChatGPT 能以比 Bard 和 Claude 更高的比率檢測到由 Claude 生成的內容,但這種較高的比率並不比猜測好多少。

這裡的發現是,它們在檢測彼此內容方面表現都不太好,研究人員認為自我檢測可能是一個有前途的研究領域。

這是顯示這個特定測試結果的圖表:

值得注意的是,研究人員並未聲稱這些結果對於 AI 檢測是普遍具有定論性的。研究的焦點是測試 AI 模型是否能成功地自我檢測其生成的內容。答案大多是肯定的,它們在自我檢測方面做得更好,但結果與 ZEROGpt 發現的類似。

研究人員評論道:

“自我檢測顯示與 ZeroGPT 具有相似的檢測能力,但請注意,本研究的目標並非聲稱自我檢測優於其他方法,這需要進行一項大型研究,將其與許多最先進的 AI 內容檢測工具進行比較。這裡,我們只研究模型的基本自我檢測能力。”

結論與重點

測試結果證實,檢測 AI 生成的內容並非易事。Bard 能夠檢測自己的內容和改寫內容。

ChatGPT 能夠檢測自己的內容,但在改寫內容上表現不佳。

Claude 突出表現在於它無法可靠地自我檢測自己的內容,但卻能夠檢測到改寫的內容,這有點奇怪且出乎意料。

檢測 Claude 的原創文章和改寫文章對 ZeroGPT 和其他 AI 模型來說都是一個挑戰。

研究人員對 Claude 的結果評論:

“這看似不明確的結果需要更多思考,因為它是由兩個交織的原因驅使。

1) 模型創建具有非常少可檢測藝術品的文本的能力。由於這些系統的目標是生成類似人類的文本,較少且難以檢測的藝術品意味著模型更接近實現該目標。

2) 模型自我檢測的固有能力可能受到使用的架構、提示和應用的微調的影響。”

研究人員對 Claude 進一步觀察:

“只有 Claude 不能被檢測。這表明 Claude 可能產生比其他模型更少可檢測的藝術品。

自我檢測的檢測率遵循相同的趨勢,表明 Claude 創建的文本具有較少的藝術品,使其難以與人類寫作區分開來”。

當然,奇怪的是,Claude 也無法自我檢測自己的原創內容,這與其他兩個模型的更高成功率不同。

研究人員指出,自我檢測仍然是一個有趣且值得持續研究的領域,建議進一步研究可以專注於擁有更多多樣的 AI 生成文本的大型數據集,測試其他 AI 模型,與更多 AI 檢測器進行比較,最後他們提議研究提示工程如何影響檢測水平。

本文內容翻譯自原始文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *