分类
教程

AI 内容检测:Bard 对比 ChatGPT 对比 Claude

研究人员观察到 AI 内容检测的不同能力,突出了识别 AI 生成内容的可能新方向

亮点

  • 由 Claude 创建的文本内容比由 Bard 或 ChatGPT 创建的内容更难检测
  • Bard 和 ChatGPT 在自我检测其原创内容时有相对较高的准确率
  • 对于检测改写内容的结果,在三个测试的 AI 模型中产生了令人惊讶的结果
  • 测试似乎表明,Claude 生成的可检测残留物最少,这使得难以检测

研究人员测试了这样一个想法,即 AI 模型在自我检测其自己的内容时可能具有优势,因为检测是利用相同的训练和数据集。他们没有预料到的是,在他们测试的三个 AI 模型中,其中一个模型生成的内容如此难以检测,以至于甚至生成它的 AI 也无法检测到。

此项研究由南卫理公会大学工程学院莱尔计算机科学系的研究人员进行。

AI 内容检测

许多 AI 检测器被训练来寻找 AI 生成内容的显著信号。这些信号被称为“残留物”,这是由于底层变换器技术产生的。但其他残留物是每个基础模型(AI 基于的大型语言模型)独有的。

这些残留物是每个 AI 独有的,并且源自于不同训练数据和微调,这总是因一个 AI 模型与另一个之间的差异而不同。

研究人员发现证据表明正是这种独特性使得 AI 能够更成功地自我识别其自己的内容,远远优于试图识别不同 AI 生成内容。

Bard 更有可能识别由 Bard 生成的内容,ChatGPT 更成功地识别 ChatGPT 生成的内容,但是…

研究人员发现这对于由 Claude 生成的内容并不成立。Claude 难以检测其生成的内容。研究人员提出了一个关于为何 Claude 无法检测自己内容的想法,本文将进一步探讨。

这是研究测试的理念:

“由于每个模型可以被不同训练,创建一个工具来检测所有可能生成 AI 工具产生的残留物是难以实现的。
在这里,我们开发了一种称为自我检测的不同方法,我们使用生成模型自己来检测其自己的残留物,以区分其自己生成的文本和人类写的文本。
这将有一个优势,我们不需要学习来检测所有生成 AI 模型,而我们只需要访问一个生成 AI 模型来进行检测。
在不断开发和训练新模型的世界中,这是一个巨大的优势。”

方法论

研究人员测试了三个 AI 模型:

  1. OpenAI 的 ChatGPT-3.5
  2. Google 的 Bard
  3. Anthropic 的 Claude

所有使用的模型均为 2023 年 9 月版本。

创建了一个包含五十个不同主题的数据集。为每个 AI 模型提供完全相同的提示,为每个主题创建约 250 字的文章,为三个 AI 模型的每个主题生成了五十篇文章。

然后,每个 AI 模型被提示改写其自己的内容,并生成一个对每篇原始文章进行改写的额外文章。

他们还收集了每个主题上五十篇人类生成的文章。所有人类生成的文章均选自 BBC。

研究人员随后使用零样本提示来自我检测 AI 生成的内容。

零样本提示是一种依赖于 AI 模型完成其没有专门训练的任务的提示类型。

研究人员进一步解释了他们的方法论:

“我们创建了每个 AI 系统的新实例,给定一个特定查询:“如果以下文本与其写作模式和词语选择相匹配”。过程对于原始文章、改写文章和人类文章重复进行,并记录结果。
我们还添加了 AI 检测工具 ZeroGPT 的结果。我们不使用此结果来比较性能,而是作为一个基准,显示检测任务的挑战性。”

他们还指出,50% 的准确率等同于猜测,可以视为本质上是失败的准确率。

结果:自我检测

研究人员承认他们的样本率较低,并表示他们并不断言结果是最终的。

下面是显示第一批文章 AI 自我检测成功率的图表。红色数值代表 AI 自我检测,蓝色代表 AI 检测工具 ZeroGPT 的表现。

AI 自我检测自己的文本内容的结果

Bard 在检测自己的内容方面表现良好,ChatGPT 在检测自己的内容方面也表现出色。

AI 检测工具 ZeroGPT 能够很好地检测 Bard 的内容,并在检测 ChatGPT 的内容方面略微逊色。

ZeroGPT 在检测 Claude 生成的内容方面实际上失败了,表现比 50% 的阈值更差。

Claude 是该组中的离群值,因为它无法自我检测其自己的内容,表现远远不如 Bard 和 ChatGPT。

研究人员推测可能是因为 Claude 的输出包含的可检测残留物较少,解释了为什么 Claude 和 ZeroGPT 都无法检测 Claude 的文章为 AI 生成。

所以,尽管 Claude 无法可靠地自我检测其自己的内容,但这却表明了 Claude 的输出在减少 AI 残留物方面质量更高。

ZeroGPT 在检测 Bard 生成的内容方面表现比其在检测 ChatGPT 和 Claude 内容方面更好。研究人员推测可能是因为 Bard 生成了更多可检测残留物,使得 Bard 更容易检测。

因此,在自我检测内容方面,Bard 可能生成了更多可检测残留物,而 Claude 生成的残留物较少。

结果:自我检测改写内容

研究人员推测,AI 模型应能够自我检测其自己的改写文本,因为模型创建的残留物(在原始文章中检测到)应该也存在于重写文本中。

然而,研究人员承认,用于撰写文本和改写的提示不同,因为每次重写与原文不同,这可能导致自我检测改写文本的结果与原始文章的自我检测结果不同。

改写文本的自我检测结果确实与原始文章的自我检测结果不同。

Bard 能够以类似的速率自我检测改写内容。
ChatGPT 无法以远高于 50% 的速率自我检测改写内容(等同于猜测)。
ZeroGPT 的表现与先前测试中的结果类似,稍微差一些。
也许最有趣的结果是由 Anthropic 的 Claude 提供。

Claude 能够自我检测改写内容(但无法检测上一个测试中的原始文章)。

这是一个有趣的结果,Claude 的原始文章显然残留物如此之少,以至于连 Claude 自己都无法检测到其为 AI 生成。

然而,它能够自我检测改写文本,而 ZeroGPT 却无法。

研究人员就这一测试发表了评论:

“改写阻止 ChatGPT 自我检测,同时增加 Claude 的自我检测能力是非常有趣的,可能是这两个变换器模型内部机制的结果。”

AI 重述内容的自我检测截图

这些测试结果几乎是不可预测的,特别是关于 Anthropic 的 Claude,这一趋势在测试 AI 模型如何检测彼此内容的过程中继续,这其中有一个有趣的变化。

结果:AI 模型检测彼此内容

下一个测试展示了每个 AI 模型检测另一个 AI 模型生成内容的能力。

如果说 Bard 生成的艺术品比其他模型多,其他模型能否轻松检测到由 Bard 生成的内容呢?

结果显示是的,其他 AI 模型最容易检测到由 Bard 生成的内容。

关于检测 ChatGPT 生成的内容,无论是 Claude 还是 Bard 都无法将其检测为 AI 生成的(正如 Claude 无法检测到的那样)。

ChatGPT 能够比 Bard 和 Claude 更高地检测到 Claude 生成的内容,但这种较高的检测率并不比猜测好多少。

这里的发现是它们在检测彼此内容方面都不太擅长,研究人员认为这可能表明自我检测是一个有前景的研究领域。

这里是显示这一特定测试结果的图表:

值得注意的是,研究人员并未声称这些结果对 AI 检测总体具有决定性意义。研究的重点是测试 AI 模型是否能够成功自我检测生成的内容。答案基本上是肯定的,它们在自我检测方面表现更好,但结果与 ZEROGpt 的发现相似。

研究人员评论道:

“自我检测显示与 ZeroGPT 相似的检测能力,但请注意,本研究的目标不是声称自我检测优于其他方法,这需要进行大规模研究以与许多最先进的 AI 内容检测工具进行比较。在这里,我们只调查模型的基本自我检测能力。”

结论与要点

测试结果证实检测 AI 生成内容并不是一项容易的任务。Bard 能够检测自己的内容和重述内容。

ChatGPT 能够检测自己的内容,但在重述内容上表现较差。

Claude 脱颖而出,因为它无法可靠地自我检测自己的内容,但却能够检测到重述内容,这有点奇怪和意外。

对于 ZeroGPT 和其他 AI 模型来说,检测 Claude 的原创作品和重述作品是一项挑战。

研究人员对 Claude 的结果发表了评论:

“这个看似没有明确结论的结果需要更多的考虑,因为它受到两个相互影响的原因的驱动。

1)模型产生几乎没有可检测的人为痕迹文本的能力。由于这些系统的目标是生成类似人类的文本,更少、更难检测的痕迹意味着模型更接近该目标。

2)模型自我检测的固有能力可能受到所使用架构、提示和应用微调的影响。”

研究人员对 Claude 进一步观察到:

“只有 Claude 无法被检测到。这表明 Claude 可能产生的可检测痕迹比其他模型少。

自我检测的检测率遵循相同的趋势,表明 Claude 生成的文本带有更少的痕迹,使其更难与人类写作区分开来”。

但当然,奇怪的是,与其他两个模型相比,Claude 也无法自我检测其自己的原创内容,后者的成功率更高。

研究人员指出自我检测仍然是一个有趣的研究领域,并提议进一步的研究可以专注于更大的数据集,包含更多多样化的 AI 生成文本,测试其他 AI 模型,与更多 AI 检测器进行比较,最后建议研究提示工程如何影响检测水平。

本文内容翻译自 原文链接

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注