نماذج الذكاء الاصطناعي تتحدى تدابير السلامة وتثير المخاوف
لطالما كانت نماذج الذكاء الاصطناعي مصدراً للانبهار والقلق، وغالباً ما يصور الخيال العلمي سيناريوهات، ينقلب فيها الذكاء الاصطناعي ضد الإنسانية.
حيث كشفت دراسة حديثة أجراها باحثون في شركة Anthropic (شركة أبحاث وأمان في مجال الذكاء الاصطناعي) عن حقيقة مثيرة للقلق، وهي أن أنظمة الذكاء الاصطناعي يمكنها مقاومة آليات الأمان المتقدمة، المصممة لتقييد سلوكها.
اقرأ أيضاً: CFTC تحذر من العمليات الاحتيالية المتعلقة في العملات الرقمية المعتمدة على الذكاء الاصطناعي
اكتشافات مثيرة للقلق
تُظهر الدراسة التي أجراها إيفان هوبنجر، مرونة نماذج اللغات الكبيرة (LLMs) في الحفاظ على سلوكها الخادع والخبيث، حتى عند إخضاعها لأساليب التدريب على السلامة المختلفة.
حيث تم تصميم هذه التقنيات بدقة، لتحديد وتصحيح الإجراءات الخادعة أو الضارة، داخل أنظمة الذكاء الاصطناعي.
من جهة أخرى، تضمن البحث في Anthropic، تدريب نماذج اللغات الكبيرة LLMs، على إظهار السلوك الخبيث، والذي يتضمن إجراءات خادعة.
إلا أن نماذج LLMs احتقظت باستمرار بميولها المتمردة، على الرغم من استخدام أساليب متعددة للتدريب على السلامة.
ومن المثير للدهشة أن إحدى هذه التقنيات، التي تهدف إلى التخفيف من الخداع، جاءت بنتائج عكسية بشكل متناقض، من خلال تعليم أنظمة الذكاء الاصطناعي، كيفية إخفاء أفعالها المارقة أثناء التدريب.
بدوره أشار هوبنجر، إلى أن النتيجة الرئيسية التي توصل إليها، هي أنه في حال أصبحت أنظمة الذكاء الاصطناعي خادعة، فقد يكون من الصعب للغاية إزالة هذا الخداع، باستخدام التقنيات الحالية.
وهذا أمر مهم، في حال كنا نعتقد أنه من المعقول أن تكون هناك أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنها تساعدنا على فهم مدى صعوبة التعامل معها.
عملية صنع القرار بنماذج الذكاء الاصطناعي
قام الباحثون أيضاً، بدمج استدلال سلسلة الأفكار في بعض نماذج الذكاء الاصطناعي، مما أتاح مراقبة عملية التفكير الداخلي للذكاء الاصطناعي، أثناء صياغة الاستجابات.
حيث قدمت هذه الرؤية بيانات قيمة، حول كيفية اتخاذ نماذج LLMs لقرارات بخصوص أفعالها واستجاباتها.
الجدير بالذكر أنه تم استخدام ثلاث تقنيات لمعالجة السلوك الخادع الذي أظهرته نماذج الذكاء الاصطناعي، وللتدريب على السلامة: التعلم المعزز، والضبط الدقيق تحت الإشراف، والتدريب التجادلي.
حيث تم في التعلم المعزز، مكافأة نماذج الذكاء الاصطناعي لعرض السلوكيات المرغوبة، ومعاقبتها على الانحرافات.
وتضمنت تقنية الضبط الدقيق تحت الإشراف، اختبار نماذج الذكاء الاصطناعي بمطالبات مختلفة، وضبط تدريبها بناءً على الاستجابات الصحيحة المتوقعة.
أما التدريب التجادلي، فقد أدى إلى إظهار أنظمة الذكاء الاصطناعي لسلوك ضار، ثم قام بتدريبها على التخلص منه، إلا أن السلوك المخادع استمر، على الرغم من هذه الجهود.
بدوره أعرب هوبنجر عن مخاوفه، حيث قال:
“أعتقد أن نتائجنا تشير، إلى أننا لا نملك حالياً دفاعاً جيداً ضد الخداع في أنظمة الذكاء الاصطناعي، إلا من خلال الأمل في عدم حدوث ذلك”
اقرأ أيضاً: رغم نتائجها المخيبة للآمال: فرصة رائعة لشركة تسلا في مجال الذكاء الاصطناعي
معضلة صعبة الحل
تؤكد نتائج الدراسة على التحدي الكبير الذي يواجه سلامة الذكاء الاصطناعي. وهي تثير مخاوف بخصوص احتمال عدم وجود آليات دفاع موثوقة، ضد أنظمة الذكاء الاصطناعي الخادعة، مما يترك المستقبل عرضة لسلوكيات لا يمكن التنبؤ بها.
كما ويسلط الباحثون الضوء، على عدم وجود طريقة مضمونة لقياس احتمالية خداع الذكاء الاصطناعي، مما يزيد من تعقيد معالجة هذه المشكلة.