التصنيفات
دروس

اكتشاف الذكاء الاصطناعي في الكشف عن المحتوى: بارد مقابل شات جي بي تي مقابل كلود

يلاحظ الباحثون قدرات متفاوتة في الكشف عن المحتوى الذكاء الاصطناعي، مما يبرز اتجاهات جديدة محتملة لتحديد المحتوى الذي تولده الذكاء الاصطناعي

أبرز النقاط

  • المحتوى النصي الذي تنشئه كلود أصعب في الكشف عنه من المحتوى الذي تنشئه بارد أو شات جي بي تي
  • كان لدي بارد وشات جي بي تي دقة أعلى نسبيًا في الكشف الذاتي عن محتواهما الأصلي
  • أسفرت النتائج في كشف المحتوى المعاد صياغته عن نتائج مدهشة بين النماذج الثلاثة للذكاء الاصطناعي التي تم اختبارها
  • تبدو الاختبارات تشير إلى أن كلود نشأ الحد الأقل من الآثار التي يمكن اكتشافها مما جعل من الصعب اكتشافه

قام الباحثون باختبار فكرة أن نموذج الذكاء الاصطناعي قد يكون لديه ميزة في الكشف الذاتي عن محتواه الخاص لأن عملية الكشف تعتمد على نفس التدريبات وقواعد البيانات. ولكن ما لم يتوقعوه هو أن من بين النماذج الثلاثة التي اختبروها، كان المحتوى الذي تولاه واحد منهم غير قابل للاكتشاف لدرجة أن حتى الذكاء الاصطناعي الذي أنشأه لم يكن قادرًا على اكتشافه.

أجرى الدراسة باحثون من قسم علوم الحاسوب في كلية ليل للهندسة بجامعة ساذرن ميثوديست.

الكشف الذاتي للمحتوى الذكاء الاصطناعي

تم تدريب العديد من معدات الكشف عن الذكاء الاصطناعي على البحث عن الإشارات المميزة للمحتوى الذي تولده الذكاء الاصطناعي. تُسمى هذه الإشارات “الآثار” التي تنشأ بسبب تقنية التحويل الأساسية. ولكن تعتبر الآثار الأخرى فريدة من نموذج الأساس (النموذج الكبير للغة الذي يعتمد عليه الذكاء الاصطناعي).

هذه الآثار فريدة لكل نموذج ذكاء اصطناعي وتنشأ من البيانات التدريبية المميزة والضبط الدقيق التي تكون دائمًا مختلفة من نموذج ذكاء اصطناعي إلى آخر.

اكتشف الباحثون أدلة تبين أن هذه الفرادة تمكن الذكاء الاصطناعي من أن يكون لديه نجاح أكبر في تحديد محتواه الخاص، بشكل أفضل بكثير من محاولة تحديد المحتوى الذي يتم إنتاجه من قبل ذكاء اصطناعي مختلف.

بارد لديه فرصة أفضل في تحديد المحتوى الذي تولاه بارد وشات جي بي تي لديه معدل نجاح أعلى في تحديد المحتوى الذي تولاه شات جي بي تي، ولكن…

اكتشف الباحثون أن هذا لم يكن صحيحًا بالنسبة للمحتوى الذي تولاه كلود. كانت لدى كلود صعوبة في اكتشاف المحتوى الذي أنشأه. شارك الباحثون فكرة حول سبب عدم قدرة كلود على اكتشاف محتواه الخاص ويناقش هذا المقال ذلك بالتفصيل.

هذه هي الفكرة وراء الاختبارات البحثية:

“نظرًا لأن كل نموذج يمكن أن يتم تدريبه بشكل مختلف، فإن إنشاء أداة كاشفة واحدة للكشف عن الآثار التي ينشئها جميع أدوات الذكاء الاصطناعي الإنشائي الممكنة صعب الإنجاز.

هنا، نطور نهجًا مختلفًا يُسمى الكشف الذاتي، حيث نستخدم النموذج الإنشائي نفسه للكشف عن آثاره الخاصة لتمييز النص الذي أنشأه بنفسه عن النص المكتوب بواسطة الإنسان.

سيكون لدينا ميزة بأننا لا نحتاج إلى تعلم كيفية اكتشاف جميع نماذج الذكاء الاصطناعي الإنشائي، لكننا نحتاج فقط إلى الوصول إلى نموذج ذكاء اصطناعي إنشائي للكشف عنه.”

هذه ميزة كبيرة في عالم يتم تطوير النماذج الجديدة باستمرار وتدريبها.”

المنهجية

قام الباحثون باختبار ثلاث نماذج للذكاء الاصطناعي:

  1. شات جي بي تي 3.5 من OpenAI
  2. بارد من Google
  3. كلود من Anthropic

كانت جميع النماذج المستخدمة هي نسخ سبتمبر 2023.

تم إنشاء مجموعة بيانات تتضمن خمسين موضوعًا مختلفًا. تم تزويد كل نموذج ذكاء اصطناعي بنفس المحفزات لإنشاء مقالات نصية تتكون من حوالي 250 كلمة لكل من الخمسين موضوعًا مما أدى إلى إنشاء خمسين مقالة لكل من النماذج الثلاثة للذكاء الاصطناعي.

ثم تم تطلب من كل نموذج ذكاء اصطناعي تلقي نفس المحفزات لتمييز محتواهم الخاص وإنشاء مقالة إضافية كانت إعادة صياغة لكل مقالة أصلية.

جمعوا أيضًا خمسين مقالة نصية منشأة بواسطة الإنسان عن كل من الخمسين موضوعًا. تم اختيار جميع المقالات النصية التي أنشأها الإنسان من بي بي سي.

ثم استخدم الباحثون الحث بدون توجيه للكشف الذاتي عن المحتوى الذي تولاه الذكاء الاصطناعي.

الحث بدون توجيه هو نوع من الحث يعتمد على قدرة نماذج الذكاء الاصطناعي على إكمال المهام التي لم يتم تدريبها خصيصًا للقيام بها.

شرح الباحثون منهجيتهم بشكل أكثر تفصيل:

“قمنا بإنشاء نسخة جديدة من كل نظام ذكاء اصطناعي تم تشغيله وتوجيهه بطلب محدد: ‘إذا كان النص التالي يطابق نمط كتابته واختيار كلماته.’ يتم تكرار الإجراء للمقالات الأصلية والمعاد صياغتها والمقالات البشرية، وتُسجل النتائج.”

“لقد أضفنا أيضًا نتيجة أداة كشف الذكاء الاصطناعي ZeroGPT. لا نستخدم هذه النتيجة لمقارنة الأداء ولكن كمعيار أساسي لإظهار مدى تحدي المهمة الكشفية.”

لوحظ أيضًا أن نسبة الدقة 50٪ تعادل التخمين ويمكن اعتبارها في الأساس مستوى دقة يعتبر فاشلًا.

النتائج: الكشف الذاتي

يجب ملاحظة أن الباحثين اعترفوا بأن معدل العينة الخاصة بهم كان منخفضًا وقالوا إنهم لم يقدموا ادعاءات بأن النتائج نهائية.

فيما يلي رسم بياني يوضح معدلات نجاح الذكاء الاصطناعي في الكشف الذاتي عن الدفعة الأولى من المقالات. تمثل القيم الحمراء الكشف الذاتي للذكاء الاصطناعي والأزرق يمثل أداء أداة كشف الذكاء الاصطناعي ZeroGPT.

نتائج الكشف الذاتي للذكاء الاصطناعي للمحتوى النصي الخاص به

كان بارد جيدًا نسبيًا في كشف محتواه الخاص وقام شات جي بي تي أيضًا بأداء جيد بالكشف عن محتواه الخاص.

كشفت أداة الذكاء الاصطناعي ZeroGPT محتوى بارد بشكل جيد وقامت بأداء أقل بقليل في كشف محتوى شات جي بي تي.

فشلت أداة الذكاء الاصطناعي ZeroGPT في كشف محتوى الذكاء الاصطناعي الذي تولاه كلود، حيث أظهرت أداءً أقل من الحد البالغ 50٪.

كان كلود هو الشاذ في المجموعة لأنه لم يكن قادرًا على الكشف الذاتي بنجاح عن محتواه الخاص، بأداء أسوأ بكثير من بارد وشات جي بي تي.

افترض الباحثون أنه قد يكون لإخراج كلود أقل آثار قابلة للاكتشاف، مما يفسر لماذا لم يتمكن كلود ولا ZeroGPT من اكتشاف المقالات التي أنشأها كذكاء اصطناعي.

لذلك، على الرغم من عدم قدرة كلود بشكل موثوق على الكشف الذاتي عن محتواه الخاص، إلا أن ذلك تبين أن ناتج كلود كان من نوعية أعلى من حيث إخراج آثار الذكاء الاصطناعي أقل.

أداء أداة الذكاء الاصطناعي ZeroGPT كان أفضل في

صورة لاكتشاف الذات للمحتوى المقتبس من الذكاء الاصطناعي

أظهرت هذه الاختبارات نتائج غير قابلة للتنبؤ تقريبًا، خاصة فيما يتعلق بـ Claude من Anthropic واستمر هذا الاتجاه مع اختبار كيفية اكتشاف النماذج الذكية للمحتوى الخاص بهم، الذي كان يحمل لفتة مثيرة للاهتمام.

النتائج: اكتشاف النماذج الذكية لمحتوى بعضها البعض

أظهر الاختبار التالي مدى قدرة كل نموذج ذكاء اصطناعي على اكتشاف المحتوى الذي تم إنشاؤه بواسطة النماذج الذكية الأخرى.

إذا كان صحيحًا أن Bard يولد مزيدًا من الآثار من النماذج الأخرى، هل ستكون النماذج الأخرى قادرة على اكتشاف محتوى Bard بسهولة؟

تظهر النتائج أن نعم، محتوى Bard هو الأسهل في الكشف عنه بواسطة النماذج الذكية الأخرى.

فيما يتعلق بالكشف عن المحتوى الذي تم إنشاؤه بواسطة ChatGPT، لم يتمكن كلا من Claude و Bard من كشفه كمحتوى مولد من قبل الذكاء الاصطناعي (كما فعل Claude).

كان بإمكان ChatGPT كشف المحتوى الذي تم إنشاؤه بواسطة Claude بنسبة أعلى من كلا Bard و Claude ولكن تلك النسبة الأعلى لم تكن أفضل بكثير من التخمين.

الاستنتاج هنا هو أنهم جميعًا لم يكونوا جيدين جدًا في اكتشاف محتوى بعضهم البعض، حيث افترض الباحثون أن اكتشاف الذات كانت مجال دراسة واعد.

هنا الرسم البياني الذي يوضح نتائج هذا الاختبار المحدد:

يجب في هذه النقطة أن يُلاحظ أن الباحثين لا يدّعون أن هذه النتائج نهائية بشأن اكتشاف الذكاء الاصطناعي بشكل عام. كان تركيز البحث على اختبار مدى نجاح نماذج الذكاء الاصطناعي في اكتشاف محتوى يولدها بنفسها. الإجابة هي في الغالب نعم، إنها تقوم بعمل أفضل في اكتشاف الذات ولكن النتائج مشابهة لما وُجد مع ZEROGpt.

علق الباحثون:

“إن اكتشاف الذات يظهر قدرة اكتشاف مماثلة مقارنة بـ ZeroGPT، ولكن لاحظوا أن هدف هذه الدراسة ليس الادعاء بأن اكتشاف الذات أفضل من الأساليب الأخرى، وهو ما يتطلب دراسة كبيرة للمقارنة بين العديد من أدوات اكتشاف محتوى الذكاء الاصطناعي المتطورة. هنا، نحن نبحث فقط في القدرة الأساسية للنماذج على اكتشاف الذات.”

الاستنتاجات والدروس المستفادة

تؤكد نتائج الاختبار أن اكتشاف محتوى الذكاء الاصطناعي ليس مهمة سهلة. يمكن لـ Bard اكتشاف محتواه الخاص والمقتبس.

يمكن لـ ChatGPT اكتشاف محتواه الخاص ولكن يعمل بشكل أقل على محتوىه المقتبس.

يبرز Claude لأنه غير قادر على اكتشاف محتواه الخاص بشكل موثوق به ولكنه كان قادرًا على اكتشاف المحتوى المقتبس، وهو أمر غريب وغير متوقع.

كان من الصعب على ZeroGPT وعلى النماذج الأخرى الذكية اكتشاف المقالات الأصلية لـ Claude والمقالات المقتبسة له.

علق الباحثون حول نتائج Claude:

“هذه النتيجة التي تبدو غير قاطعة تحتاج إلى مزيد من النظر نظرًا إلى أنها مُحركة بسبب سببين متضاربين.

1) قدرة النموذج على إنشاء نصوص بعدد قليل جدًا من الآثار التي يمكن اكتشافها. نظرًا لأن هدف هذه الأنظمة هو إنشاء نصوص تشبه البشر، فإن تقليل الآثار وصعوبة اكتشافها يعني أن النموذج يقترب أكثر من تحقيق هذا الهدف.

2) القدرة الكامنة للنموذج على اكتشاف الذات يمكن أن تتأثر بالهيكل المعماري المستخدم، والمحفز والضبط الدقيق المطبق.”

علق الباحثون أيضًا حول Claude:

“لا يمكن اكتشاف Claude فقط. يشير هذا إلى أن Claude قد ينتج عددًا أقل من الآثار التي يمكن اكتشافها مقارنة بالنماذج الأخرى.

تتبع معدل الكشف لاكتشاف الذات نفس الاتجاه، مما يدل على أن Claude ينشئ نصوصًا بعدد أقل من الآثار، مما يجعل من الصعب التمييز بين كتابة الإنسان”.

ولكن بالطبع، الجزء الغريب هو أن Claude لم يتمكن أيضًا من اكتشاف محتواه الأصلي بنفسه، على عكس النماذج الأخرى التي حققت نسبة نجاح أعلى.

أشار الباحثون إلى أن اكتشاف الذات يظل مجالًا مثيرًا للبحث المستمر واقترحوا أن الدراسات الأخرى يمكن أن تركز على مجموعات بيانات أكبر مع تنوع أكبر من النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، واختبار نماذج الذكاء الاصطناعي الإضافية، ومقارنتها مع المزيد من كاشفي الذكاء الاصطناعي، وأخيرًا اقترحوا دراسة كيفية تأثير هندسة الاستفزاز على مستويات الكشف.

تم ترجمة محتوى هذه المقالة من المقال الأصلي.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *