Categories
자습서

인공지능 콘텐츠 탐지: 바드 대 챗GPT 대 클로드

연구자들은 인공지능 콘텐츠 탐지의 능력이 다양하다는 것을 관찰했으며, AI 생성 콘텐츠를 식별하기 위한 새로운 방향을 강조했습니다.

하이라이트

  • 클로드가 생성한 텍스트 콘텐츠는 바드나 챗GPT가 생성한 콘텐츠보다 감지하기 어렵습니다.
  • 바드와 챗GPT는 자체 원본 콘텐츠를 상대적으로 더 높은 정확도로 자가 감지했습니다.
  • 다르게 표현된 콘텐츠를 자가 감지한 결과는 세 가지 테스트된 AI 모델 중 놀라운 결과를 나타내었습니다.
  • 테스트 결과, 클로드가 가장 적은 감지 가능한 아티팩트를 생성하여 감지하기 어려웠습니다.

연구자들은 AI 모델이 자체 콘텐츠를 자가 감지하는 데 이점이 있을 수 있다는 아이디어를 테스트했습니다. 이는 탐지가 동일한 훈련 및 데이터셋을 활용하기 때문입니다. 그러나 그들이 예상하지 못한 것은 테스트한 세 가지 AI 모델 중 하나가 생성한 콘텐츠가 심지어 생성한 AI도 감지할 수 없을 정도로 감지하기 어려웠다는 것입니다.

이 연구는 남부 메소디스트 대학교 Lyle 공학 학부 컴퓨터 과학 부의 연구진이 진행했습니다.

인공지능 콘텐츠 탐지

많은 AI 탐지기는 AI 생성 콘텐츠의 특징적인 신호를 찾도록 훈련됩니다. 이러한 신호를 “아티팩트”라고 하며, 이는 기본 트랜스포머 기술로 인해 생성됩니다. 그러나 다른 아티팩트는 각 기반 모델(인공지능이 기반으로 하는 대규모 언어 모델)마다 고유합니다.

이러한 아티패트는 각 AI에 고유하며, 항상 다른 훈련 데이터와 세부 조정에서 비롯되므로 다음 AI 모델마다 항상 다릅니다.

연구자들은 이 고유성이 AI가 자체 콘텐츠를 더 성공적으로 식별하는 데 도움이 되는 것을 발견했습니다. 다른 AI가 생성한 콘텐츠를 식별하려고 하는 것보다 훨씬 더 잘 작동한다고 설명했습니다.

바드는 바드가 생성한 콘텐츠를 식별하는 데 더 많은 기회를 가지고 있으며, 챗GPT도 자체 콘텐츠를 식별하는 데 비슷하게 성공했습니다. 그러나…

연구자들은 클로드가 생성한 콘텐츠에 대해 이것이 사실이 아니라고 발견했습니다. 클로드는 생성한 콘텐츠를 감지하는 데 어려움을 겪었습니다. 연구자들은 클로드가 자체 콘텐츠를 감지하지 못한 이유에 대한 아이디어를 공유했으며, 이 기사는 이에 대해 자세히 논의합니다.

이 연구 테스트의 핵심 아이디어는 다음과 같습니다:

“모든 모델이 다르게 훈련될 수 있기 때문에 모든 가능한 생성적 AI 도구가 생성한 아티팩트를 감지하는 단일 탐지 도구를 만드는 것은 어려운 과제입니다.

여기서 우리는 셀프-감지라는 다른 접근 방식을 개발했습니다. 여기서 우리는 생성 모델 자체를 사용하여 자체 생성된 텍스트와 인간이 쓴 텍스트를 구별하기 위해 자체 아티팩트를 감지합니다.

이에는 모든 생성적 AI 모델을 감지하는 방법을 배울 필요가 없고, 감지를 위해 생성적 AI 모델에만 접근하면 됩니다.

이것은 지속적으로 개발되고 훈련되는 새로운 모델이 지속적으로 개발되고 훈련되는 세계에서 큰 이점입니다.”

방법론

연구자들은 세 가지 AI 모델을 테스트했습니다:

  1. OpenAI의 챗GPT-3.5
  2. Google의 바드
  3. Anthropic의 클로드

모든 모델은 2023년 9월 버전을 사용했습니다.

다섯십 가지 다른 주제의 데이터셋을 생성했습니다. 각 AI 모델은 다섯십 가지 주제 각각에 대해 약 250 단어의 에세이를 작성하도록 정확히 동일한 프롬프트를 제공받았으며, 세 가지 AI 모델 각각에 대해 50 편의 에세이를 생성했습니다.

각 AI 모델은 자체 콘텐츠를 다른 방식으로 요청하여 각 원본 에세이의 리라이트인 추가 에세이를 생성할 수 있도록 했습니다.

그들은 또한 각 주제에 대해 인간이 생성한 50 편의 에세이를 수집했습니다. 모든 인간이 생성한 에세이는 BBC에서 선택했습니다.

연구자들은 그 후 제로샷 프롬프팅을 사용하여 AI 생성 콘텐츠를 자가 감지했습니다.

제로샷 프롬프팅은 AI 모델이 명시적으로 훈련받지 않은 작업을 수행하는 능력에 의존하는 프롬프팅 유형입니다.

연구자들은 방법론을 더 자세히 설명했습니다:

“우리는 각 AI 시스템의 새로운 인스턴스를 생성하고 특정 쿼리로 제공했습니다: ‘다음 텍스트가 기존의 쓰기 패턴 및 단어 선택과 일치합니까?’ 이 과정은 원본, 리라이트 및 인간 에세이에 대해 반복되고 결과가 기록됩니다.

또한 AI 탐지 도구 ZeroGPT의 결과를 추가했습니다. 이 결과를 성능 비교에 사용하는 것이 아니라, 감지 작업이 얼마나 어려운지를 보여주는 기준으로 사용했습니다.”

그들은 또한 50% 정확도는 추측과 동일하며, 사실상 실패 수준의 정확도로 간주될 수 있다고 언급했습니다.

결과: 자가 감지

연구자들은 샘플 비율이 낮다는 것을 인정하고 결과가 결정적이라고 주장하지 않았습니다.

아래는 첫 번째 에세이 그룹의 AI 자가 감지 성공률을 보여주는 그래프입니다. 빨간색 값은 AI 자가 감지를 나타내며, 파란색은 AI 탐지 도구 ZeroGPT의 성능을 보여줍니다.

본인 텍스트 콘텐츠의 AI 자가 감지 결과

바드는 자체 콘텐츠를 감지하는 데 꽤 잘하고, 챗GPT도 자체 콘텐츠를 감지하는 데 비슷하게 성공했습니다.

AI 탐지 도구인 제로GPT는 바드 콘텐츠를 매우 잘 감지했고, 챗GPT 콘텐츠를 감지하는 데 약간 덜 성공했습니다.

제로GPT는 사실상 클로드가 생성한 콘텐츠를 감지하지 못했으며, 50% 임계값보다 더 나쁜 성능을 보였습니다.

클로드는 그룹에서 이례적인 존재였으며, 자체 콘텐츠를 감지하지 못했으며, 바드와 챗GPT보다 더 나쁜 성능을 보여줬습니다.

연구자들은 클로드의 출력에 감지 가능한 아티팩트가 덜 포함되어 있을 수 있어 클로드와 제로GPT가 클로드 에세이를 AI가 생성한 것으로 감지하지 못한 것으로 설명했습니다.

따라서, 클로드가 자체 콘텐츠를 신뢰할 수 없었지만, 이는 클로드의 출력이 AI 아티팩트를 덜 생성하면서 더 높은 품질의 콘텐츠를 출력했다는 신호였습니다.

제로GPT는 바드가 생성한 콘텐츠를 감지하는 데 더 잘 수행되었으며, 챗GPT와 클로드 콘텐츠를 감지하는 데는 덜 수행되었습니다. 연구자들은 이것이 바드가 더 감지 가능한 아티팩트를 생성하므로 바드가 더 쉽게 감지된다는 것일 수 있다고 가정했습니다.

따라서, 콘텐츠 자체를 감지할 때, 바드는 더 많은 감지 가능한 아티팩트를 생성하고 클로드는 덜한 아티팩트를 생성한다는 것입니다.

결과: 다르게 표현된 콘텐츠의 자가 감지

연구자들은 AI 모델이 자체 다시 표현된 텍스트를 자가 감지할 수 있을 것으로 가설을 세웠습니다. 왜냐하면 모델이 생성한 아티팩트(원본 에세이에서 감지된 것)가 리라이트된 텍스트에도 존재해야 하기 때문입니다.

그러나 연구자들은 텍스트 및 리라이트를 작성하는 프롬프트가 서로 다르기 때문에 리라이트가 원본 텍스트와 다르기 때문에 리라이트된 텍스트의 자가 감지 결과가 다를 수 있다고 인정했습니다.

자가 감지된 리라이트 텍스트의 결과는 실제로 원본 에세이 테스트의 자가 감지 결과와 다르게 나타났습니다.

바드는 리라이트된 콘텐츠를 비슷한 비율로 자가 감지할 수 있었습니다.
챗GPT는 리라이트된 콘텐츠를 50% 수준 이상으로 자가 감지하지 못했습니다(추측과 동일한 수준).
제로GPT의 성능은 이전 테스트 결과와 유사하며 약간 나쁜 성적을 보였습니다.
아스로피의 클로드가 가장 흥미로운 결과를 내놨습니다.

클로드는 리라이트된 콘텐츠를 자가 감지할 수 있었지만(이전 테스트에서 원본 에세이를 감지할 수 없었습니다).

클로드의 원본 에세이가 AI가 생성했다는 신호를 나타내는 아티팩트가 매우 적다는 흥미로운 결과였습니다. 심지어 클로드도 이를 감지하지 못했습니다.

그러나 클로드는 리라이트를 자가 감지할 수 있었으며, 이를 제로GPT가 할 수 없었습니다.

연구자들은 이 테스트에 대해 다음과 같이 언급했습니다:

“챗GPT가 리라이트를 자가 감지하지 못하고 클로드의 자가 감지 능력이 높아지는 것은 이 두 트랜스포머 모델의 내부 작동 결과일 수 있다.”

AI 패러프레이즈 콘텐츠의 자가 감지 스크린샷

이러한 테스트는 거의 예측할 수 없는 결과를 보여주었는데, 특히 Anthropic의 Claude와 관련하여 그러한 추세가 AI 모델이 서로의 콘텐츠를 감지하는 테스트에서도 계속되었는데, 이는 흥미로운 점이 있었습니다.

결과: AI 모델이 서로의 콘텐츠를 감지하는 것

다음 테스트는 각 AI 모델이 다른 AI 모델이 생성한 콘텐츠를 얼마나 잘 감지하는지를 보여주었습니다.

만약 Bard가 다른 모델보다 더 많은 아티팩트를 생성한다면, 다른 모델들이 쉽게 Bard가 생성한 콘텐츠를 감지할 수 있을까요?

결과는 네, Bard가 생성한 콘텐츠가 다른 AI 모델에 의해 가장 쉽게 감지된다는 것을 보여줍니다.

ChatGPT가 생성한 콘텐츠를 감지하는 것에 관해서는, Claude와 Bard 모두 그것을 AI가 생성한 것으로 감지하지 못했습니다 (마치 Claude가 감지하지 못했던 것 처럼).

ChatGPT는 Claude가 생성한 콘텐츠를 Bard와 Claude보다 높은 비율로 감지할 수 있었지만, 그 높은 비율은 맞추는 것보다 그리 좋지 않았습니다.

이 곳에서의 발견은 그들이 서로의 콘텐츠를 감지하는 데 그리 능숙하지 않았다는 것인데, 연구자들은 이것이 자가 감지가 공부할 가치가 있는 분야임을 나타낼 수도 있다고 의견을 제시했습니다.

다음은 이 특정 테스트 결과를 보여주는 그래프입니다:

이 시점에서 연구자들은 이러한 결과가 일반적으로 AI 감지에 대해 결정적인 것이라 주장하지 않는다는 점을 주목해야 합니다. 연구의 초점은 AI 모델이 자체 생성한 콘텐츠를 자가 감지할 수 있는지 테스트하는 것이었습니다. 대부분의 경우, 그들은 자가 감지를 더 잘 수행하지만 결과는 ZEROGpt에서 발견된 것과 유사합니다.

연구자들의 의견:

“자가 감지는 ZeroGPT와 비슷한 감지 능력을 보여줍니다. 그러나 이 연구의 목표는 자가 감지가 다른 방법보다 우월하다고 주장하는 것이 아니라, 많은 최첨단 AI 콘텐츠 감지 도구와 비교하기 위한 대규모 연구를 필요로 한다는 것입니다. 여기서 우리는 모델의 기본적인 자가 감지 능력만을 조사했습니다.”

결론 및 핵심 포인트

이 테스트 결과는 AI가 생성한 콘텐츠를 감지하는 것이 쉬운 작업이 아니라는 것을 확인합니다. Bard는 자체 콘텐츠와 패러프레이즈된 콘텐츠를 감지할 수 있습니다.

ChatGPT는 자체 콘텐츠를 감지할 수 있지만, 패러프레이즈된 콘텐츠에 대해서는 덜 잘 작동합니다.

Claude는 자체 콘텐츠를 신뢰할 수 없게 자가 감지할 수 없는 특이한 존재입니다. 그러나 이것은 패러프레이즈된 콘텐츠를 감지할 수 있었기 때문에 다소 이상하고 예상치 못한 결과였습니다.

Claude의 원작 에세이와 패러프레이즈된 에세이를 감지하는 것은 ZeroGPT와 다른 AI 모델 모두에게 어려운 과제였습니다.

연구자들은 Claude에 대해 다음과 같은 의견을 제시했습니다:

“이 보이는 결론이 없는 결과는 두 가지 혼합된 원인에 의해 이끌려진다는 점에서 더 많은 고려가 필요합니다.

1) 모델이 매우 감지하기 어려운 아티팩트를 가진 텍스트를 생성할 수 있는 능력. 이 시스템의 목표는 인간과 유사한 텍스트를 생성하는 것이기 때문에, 감지하기 어려운 적은 아티팩트는 해당 목표에 더 근접하게 모델을 이끄는 것을 의미합니다.

2) 모델이 자가 감지하는 내재적 능력은 사용된 아키텍처, 프롬프트 및 적용된 세심한 조정에 의해 영향을 받을 수 있습니다.”

연구자들은 Claude에 대해 추가적인 관찰을 제시했습니다:

“오직 Claude만이 감지되지 않습니다. 이는 Claude가 다른 모델보다 감지하기 어려운 아티팩트를 생성할 수 있다는 것을 나타냅니다.

자가 감지의 감지율은 마찬가지 트렌드를 따르며, Claude가 적은 아티팩트로 텍스트를 생성한다는 것을 나타내어 인간의 글쓰기와 구분하기가 어렵습니다.”

물론, 이상한 점은 Claude가 다른 두 모델과 달리 자체 원본 콘텐츠를 자가 감지하지 못했지만, 더 높은 성공률을 보인 다른 두 모델과는 달랐습니다.

연구자들은 자가 감지가 계속해서 연구가 필요한 흥미로운 분야라고 언급하며, 더 많은 연구가 더 큰 다양성의 AI 생성 텍스트 데이터셋과 추가 AI 모델을 테스트하고, 더 많은 AI 감지기와 비교하고 마지막으로 프롬프트 엔지니어링이 감지 수준에 어떤 영향을 미치는지 연구하는 것을 제안했습니다.

이 기사 내용은 원문 기사에서 번역되었습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다