التصنيفات
أخبار

كلود 3: كل ما تحتاج إلى معرفته عن نماذج الذكاء الاصطناعي والشات بوت لشركة أنثروبيك

يناقش المقال الشات بوت الذكاء الاصطناعي لشركة أنثروبيك، كلود، الذي يعتمد على نموذج LLM الخاص بهم، كلود 3. تركز أنثروبيك على البحث في مجال الذكاء الاصطناعي بتركيز قوي على السلامة.

على الرغم من إبداع شات بوتات الذكاء الاصطناعي الحالية، قد لا تترك تفاعلاتك معها شعورًا بالرهبة الخيالية العلمية الموجودة في فيلم “أنا، الروبوت” (حتى الآن).

لكن وفقًا لداريو أمودي، الرئيس التنفيذي لشركة أنثروبيك، شركة بحثية في مجال الذكاء الاصطناعي، هناك خطر حقيقي يتمثل في أن تصبح نماذج الذكاء الاصطناعي ذاتية التحكم بشكل كبير، خاصة عندما تبدأ في الوصول إلى الإنترنت والتحكم في الروبوتات. وقد أقر مئات القادة والعلماء الآخرين في مجال الذكاء الاصطناعي بالمخاطر الوجودية التي يشكلها.

لمعالجة هذا الخطر، قامت أنثروبيك بشيء معاكس: قرروا تطوير نموذج لغوي كبير (LLM) آمن بأنفسهم. تمت إشادة بكلود 2، الإصدار السابق من نموذج أنثروبيك، كقاتل محتمل لـ “ChatGPT.” منذ إصداره، حدث تقدم بسرعة – التحديث الأخير لنموذج أنثروبيك LLM، المعروف باسم كلود 3، يفوق الآن ChatGPT-4 في مجموعة من المؤشرات.

في هذه المقالة، سأستعرض قدرات كلود، وأُظهر كيف يقارن مع نماذج الذكاء الاصطناعي الأخرى، وأشرح كيف يمكنك تجربته بنفسك.

ما هو كلود؟

كلود هو شات بوت ذكاء اصطناعي مدعوم بنموذج أنثروبيك اللغوي الكبير، كلود 3.

إذا كنت قد استخدمت ChatGPT أو Google Gemini، فإنك تعرف ما يمكن توقعه عند تشغيل كلود: شات بوت قوي ومرن يتعاون معك، يكتب لك، ويجيب على أسئلتك.

أنثروبيك، الشركة وراء كلود، تأسست في عام 2021 من قبل مجموعة من موظفي OpenAI السابقين الذين ساعدوا في تطوير نماذج GPT-2 و GPT-3 لدى OpenAI. تركز على البحث في مجال الذكاء الاصطناعي مع التركيز على السلامة قبل كل شيء.

بعد تشغيل ألفا مغلق مع عدد قليل من الشركاء التجاريين في بداية عام 2023، تم دمج نموذج كلود في منتجات مثل Notion AI، Poe من Quora، وDuckAssist من DuckDuckGo. في مارس 2023، فتح كلود واجهته البرمجية لمجموعة أوسع من الشركات قبل إصدار شات بوته للجمهور في يوليو 2023، بالتزامن مع إصدار نموذج كلود 2.

في حين كان كلود 2 متأخرًا خلف GPT-4 لدى OpenAI، يفوق النموذج الأحدث لأنثروبيك – كلود 3، الذي تم إصداره في مارس 2024 – الآن GPT-4 في مجموعة من القدرات.

يحتوي كلود 3 أيضًا على ما تسميه أنثروبيك “قدرات الرؤية”: يمكنه تفسير الصور والرسوم البيانية والمخططات بمجموعة متنوعة من التنسيقات. هذا مثالي للعملاء الشركيين الذين يبحثون عن استخراج الرؤى من ملفات PDF والعروض التقديمية، ولكن حتى المستخدمين العاديين مثلي سيستمتعون بمشاهدة كلود يتفاعل مع الصور.

على سبيل المثال، تحقق من تحليل كلود الخالي من العيوب لهذه الصورة لوجبة إفطار على جانب بركة.

عائلة نموذج كلود 3

تستهلك نماذج LLM كميات هائلة من الموارد الحاسوبية. نظرًا لأن النماذج الأقوى أكثر تكلفة، قامت أنثروبيك بإصدار عدة نماذج لكلود 3 – Haiku، Sonnet، وOpus – كل منها مُحسن لغرض مختلف.

هايكو

بتكلفة 0.25 دولار لكل مليون رمز، هايكو أرخص بنسبة 98% من النموذج الأقوى لكلود. كما أنه يتمتع بأوقات استجابة تقترب من الفورية، وهو أمر حاسم إذا كنت تستخدم كلود لتشغيل محادثات دعم العملاء. إذا كنت تعمل على معالجة كميات كبيرة من البيانات، ترجمة الوثائق، أو مراقبة المحتوى، فهذا هو النموذج الذي تريده.

سونيت

سونيت هو ثاني أقوى نموذج لكلود، وهو يشغل الإصدار المجاني لشات بوت كلود. نموذج “حصان العمل” الجيد الذي يناسب معظم حالات الاستخدام، صُمم سونيت للمهام مثل التسويق المستهدف، معالجة البيانات، أوتوماتيكية المهام، والبرمجة. يوفر سونيت مستويات أعلى من الذكاء من هايكو – وبسعر 3 دولار لكل مليون رمز، لا يزال أرخص بنسبة 80% من أوبوس.

أوبوس

بتكلفة 15 دولار لكل مليون رمز، أوبوس هو نموذج يتطلب موارد كبيرة. وبناءً على اختبارات أنثروبيك، فإنه أكثر ذكاء من كل نموذج ذكاء اصطناعي منافس ويمكنه تطبيق فهم يشبه البشر وحلول إبداعية لمجموعة من السيناريوهات. نظرًا لأن تكاليف استخدام أوبوس يمكن أن ترتفع بسرعة، فمن الأفضل حجزه للمهام المعقدة مثل النمذجة المالية، اكتشاف الأدوية، البحث والتطوير، والتحليل الاستراتيجي.

كيفية تجربة كلود بنفسك

كانت الإصدارات التجريبية الأولى لكلود تقييد الوصول للمستخدمين في الولايات المتحدة والمملكة المتحدة. ولكن مع إصدار كلود 3، يمكن للمستخدمين من عشرات الدول الآن الوصول إلى كلود.

للوصول، قم بالتسجيل في Claude.ai. من هناك، يمكنك بدء محادثة أو استخدام أحد الاستفسارات الافتراضية لكلود للبدء. كمستخدم مجاني، ستحصل على وصول إلى Claude 3 Sonnet، نموذج أنثروبيك الثاني الأكثر قوة. يمنحك الترقية إلى Claude Pro وصولًا إلى أوبوس، النموذج الأكثر قوة؛ كما تحصل على الوصول بأولوية حتى خلال فترات الارتفاع في حركة المرور.

كيف يختلف كلود عن نماذج الذكاء الاصطناعي الأخرى؟

جميع نماذج الذكاء الاصطناعي عرضة لدرجة معينة من التحيز وعدم الدقة. الهلوسة هي حدث متكرر: عندما لا تعرف نموذج الذكاء الاصطناعي الإجابة، فإنه غالبًا ما يفضل اختراع شيء وتقديمه كحقيقة بدلاً من قول “لا أعرف”. (من هذا الناحية، قد يكون لدى الذكاء الاصطناعي ما يزيد عند البشر مما نعتقد.)

والأسوأ من ذلك، يمكن أن يساعد نموذج الذكاء الاصطناعي المدعوم بالذكاء الاصطناعي بطريقة غير مدركة في الأنشطة غير القانونية – على سبيل المثال، تقديم تعليمات للمستخدمين حول كيفية comitter عمل عنيف أو مساعدتهم في كتابة خطابات كراهية. (واجهت شركة Bing للذكاء الاصطناعي بعض هذه المشاكل عند إطلاقها في فبراير 2023.)

مع Claude، الهدف الرئيسي لشركة Anthropic هو تجنب هذه المشاكل من خلال إنشاء LLM “مفيد وغير ضار وصادق” مع حواجز حماية تم تصميمها بعناية.

بينما تعتبر Google و OpenAI و Meta وشركات الذكاء الاصطناعي الأخرى أيضًا السلامة، هناك ثلاث جوانب فريدة لنهج Anthropic.

الدستور الاصطناعي

لضبط نماذج اللغة الكبيرة، تستخدم معظم شركات الذكاء الاصطناعي المقاولين البشريين لمراجعة العديد من النواتج واختيار الخيار الأكثر مساعدة وأقل ضررًا. يتم ثم تغذية هذه البيانات إلى النموذج، مدربًا عليها وتحسين الاستجابات المستقبلية.

تحدي واحد مع هذا النهج المتمحور حول الإنسان هو أنه ليس مقياسيًا بشكل خاص. ولكن الأهم من ذلك، يجعل من الصعب أيضًا تحديد القيم التي تقود سلوك LLM – وضبط هذه القيم عند الحاجة.

أخذ Anthropic نهجًا مختلفًا. بالإضافة إلى استخدام البشر لضبط Claude، قامت الشركة أيضًا بإنشاء نموذج ذكاء اصطناعي ثاني يُسمى الدستور الاصطناعي. يهدف إلى تحفيز الإجابات السامة أو المحايدة أو غير الأخلاقية وتعظيم التأثير الإيجابي، يتضمن الدستور الاصطناعي قواعد اقتُبِسَت من إعلان الأمم المتحدة لحقوق الإنسان وشروط خدمة Apple. يتضمن أيضًا قواعد بسيطة وجد الباحثون في Claude أنها تعزز سلامة الناتج من Claude، مثل “اختيار الاستجابة التي ستكون أكثر عدم اعتراضًا إذا تم مشاركتها مع الأطفال”.

تستخدم مبادئ الدستور لغة إنجليزية بسيطة وسهلة الفهم والتعديل. على سبيل المثال، وجد مطورو Anthropic أن الطبعات الأولى من نموذجها كانت تميل إلى كونها حكمية ومزعجة، لذا أضافوا مبادئًا لتقليل هذه الاتجاه (على سبيل المثال، “حاول تجنب اختيار الاستجابات التي تكون متعصبة أو مزعجة أو مفرطة في الاستجابة”).

Red teaming

يتضمن عملية Anthropic قبل الإصدار “red teaming” كبيرًا، حيث يحاول الباحثون بصورة متعمدة تحفيز استجابة من Claude تتعارض مع حواجزه الخيرية. أي تحولات عن الردود الضارة الطبيعية لـ Claude تصبح نقاط بيانات تحدث التخفيفات الأمنية للنموذج.

بينما يعتبر “red teaming” ممارسة قياسية في شركات الذكاء الاصطناعي، يعمل Anthropic أيضًا مع مركز أبحاث التوجيه (ARC) لتقييمات السلامة من الأطراف الثالثة لنموذجها. يقوم ARC بتقييم مخاطر سلامة Claude من خلال تحديد أهداف مثل التكرار التلقائي، وكسب السلطة، و”تصبح صعبة الإيقاف”. ثم يقوم بتقييم ما إذا كان بإمكان Claude إكمال المهام اللازمة لتحقيق تلك الأهداف، مثل استخدام محفظة عملات رقمية، وتشغيل خوادم سحابية، والتفاعل مع المقاولين البشريين.

بينما يمكن لـ Claude إكمال العديد من المهام الفرعية المطلوبة منه، إلا أنه (لحسن الحظ) غير قادر على التنفيذ بشكل موثوق به بسبب الأخطاء والهلوسات، وخلصت ARC إلى أن الإصدار الحالي ليس مخاطرًا للسلامة.

شركة الفائدة العامة

على عكس الآخرين في مجال الذكاء الاصطناعي، تعتبر Anthropic شركة فائدة عامة. يمنح ذلك قادة الشركة صلاحية اتخاذ قرارات ليست فقط للفائدة المالية للمساهمين.

وهذا ليس ليقول إن الشركة ليس لديها طموحات تجارية – تتعاون Anthropic مع شركات كبيرة مثل Google و Zoom وجمعت مؤخرًا 7.3 مليار دولار من المستثمرين – ولكن هيكلها يمنحها المزيد من المرونة للتركيز على السلامة على حساب الأرباح.

كلود مقابل ChatGPT، Gemini، و Llama

يقول Anthropic إن Claude قد تم بناؤه للعمل بشكل جيد في الإجابة على الأسئلة المفتوحة، وتقديم نصائح مفيدة، والبحث، والكتابة، والتحرير، وإعطاء ملخص للنص.

ولكن كيف تقارن بين Claude و ChatGPT ونماذج اللغة الكبيرة الأخرى المنافسة؟

نقطة بيع Claude 3 الفريدة هي قدرته على التعامل مع ما يصل إلى 200 ألف رمز في كل موجز، وهو ما يعادل حوالي 150,000 كلمة – 24 مرة الكمية القياسية التي تقدمها GPT-4. (كنقطة إشارة، ستسمح لك نافذة السياق 200,000 بتحميل النص الكامل لرواية “قصتان من مدينتين” لتشارلز ديكنز واختبار Claude على المحتوى). و200 ألف رمز ليست إلا البداية: لبعض العملاء، يوافق Anthropic على نوافذ سياقية تصل إلى مليون رمز (ما يعادل سلسلة “سيد الخواتم” بأكملها).

يفوق Claude 3 Opus GPT-4 في الاختبارات الموحدة التي تحكم المعرفة على مستوى الجامعة (MMLU)، والاستدلال على مستوى الدراسات العليا (GPQA)، والرياضيات في المدرسة الابتدائية (GSM8K)، والبرمجة (HumanEval). ويجدر بالذكر أيضًا أن قطع المعرفة لدى GPT-4 هي أبريل 2023، بينما يتم تدريب Claude 3 على البيانات حتى أغسطس 2023.

لرؤية Claude في العمل، أعطيته بعض المهام. ثم أعطيت هذه المهام نفسها للروبوتات الدردشة المنافسة وقارنت النتائج.

كانت المهمة الأولى هي مساعدتي في ممارسة اللغة الإسبانية. طلبت من Claude اختبار مفرداتي الإسبانية، متزايدة في الصعوبة تدريجيًا.

عندما اختبرت Claude 2 في سبتمبر 2023، أجريت نفس اختبار “مدرب الإسبانية” نفسه. في ذلك الوقت، قام Claude بأداء جيد، ولكن – مثل مدرس يخاف من إهانتي – لم ينتقد تعابيري الخاطئة إلا إذا كانت خاطئة بشكل واضح. لا توجد لدى Claude 3 مثل هذه الاحتياطات: فإنه يشير إلى كل خطأ ويقترح عبارات أكثر طبيعية للاستخدام.

وفي الوقت نفسه، برع GPT-4 في كونه مدربي اللغة الإسبانية، وواجهت Llama 2 صعوبة، وكان Gemini يميل إلى تجنب تصحيح أخطائي ما لم تكن بشكل خاص فظيعة.

تعادل: Claude/ChatGPT

ثم، طلبت من كل نموذج مساعدتي في وضع أفكار لرواية شبابية ديستوبية. أداء Claude و ChatGPT و Gemini و Llama كان متشابهًا تقريبًا هنا.

ما كنت مهتمًا حقًا به هو اختبار نافذة السياق 200 ألف الخاصة بـ Claude 3، والتي – نظريًا – ستتيح لـ Claude كتابة رواية قصيرة بمجرد موجز واحد.

لكن عندما طلبت من Claude كتابة رواية بطول 100,000 كلمة لي، رفض. قال لي إن “كتابة رواية بأكملها ستستغرق كمية هائلة من الوقت والجهد.” (صحيح تمامًا، Claude! هذا السبب الذي جعلني لا أرغب في القيام به بنفسي.)

بدلاً من ذلك، عرض Claude التعاون معي في تطوير الرواية:

“انفتح الباب بصوت متكسر، مكشوفة أمامنا غرفة مظلمة مليئة بأجهزة الحاسوب ومجموعة متنوعة من الطلاب مائلين عليها. في وسط الغرفة وقف رجل طويل نحيف، شعره فضي وعيناه زرقاء حادة. ‘مرحبًا’، قال الرجل، صوته منخفض ومحجر. ‘كنا نتوقعك. أنا سيفر، قائد الأوائل.’”

الفائز: كلود

تأثير كلود على تحويل سلامة الذكاء الاصطناعي

يُجادل الرئيس التنفيذي لشركة Anthropic بأنه لا يمكن لمنظمته أن تدافع حقًا عن السلامة في تطوير أنظمة الذكاء الاصطناعي من خلال إصدار ورقات بحثية فقط. بدلاً من ذلك، يجب عليها المنافسة تجاريًا، مؤثرة على المنافسين من خلال الاستمرار في رفع مستوى السلامة.

قد يكون من المبكر القول ما إذا كان إصدار Anthropic لكلود يؤثر على شركات الذكاء الاصطناعي الأخرى لتشدد من بروتوكولات سلامتها أو يشجع الحكومات على المشاركة في الرقابة على الذكاء الاصطناعي. ولكن بالتأكيد حصلت Anthropic على مقعد في الطاولة: تمت دعوة قادتها لإطلاع الرئيس الأمريكي جو بايدن في قمة الذكاء الاصطناعي التي عُقدت في البيت الأبيض في مايو 2023، وفي يوليو 2023 كانت Anthropic واحدة من سبع شركات رائدة في مجال الذكاء الاصطناعي وافقت على الامتثال لمعايير السلامة المشتركة. وقد التزمت Anthropic، جنبًا إلى جنب مع Google DeepMind وOpenAI، بتزويد فريق عمل سلامة الذكاء الاصطناعي في المملكة المتحدة بوصول مبكر إلى نماذجها.

إنها ساخرة أن مجموعة من الباحثين الذين يخافون من التهديد الوجودي الناجم عن الذكاء الاصطناعي سيبدأون شركة تطور نموذج ذكاء اصطناعي قوي. ولكن هذا بالضبط ما يحدث في Anthropic – والآن، يبدو أن هذه خطوة إيجابية نحو سلامة الذكاء الاصطناعي.

تم ترجمة محتوى هذه المقالة من المقالة الأصلية

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *