جي بي تي 4 يفشل في اجتياز اختبار عمره أكثر من 70 عام.. كيف حدث ذلك؟

14.11.2023آخر تحديث: 14.11.2023

0 532 3 دقائق

على الرغم من أن “شات جي بي تي” يبدي ذكاءً واضحًا في المحادثات ويبدو مشابهًا للإنسان من خلال استخدام الفكاهة وتقليد عبارات المراهقين وحتى اجتياز بعض امتحانات الكليات، إلا أنه في بعض الأحيان يظهر تصرفات غير منطقية، مما يجعله يبدو وكأنه يهلوس.

وبسبب هذا السلوك، أصبح الناس يعتقدون أن الآلة، مهما تقدمت تكنولوجيا الذكاء الاصطناعي، لا يمكن أن تكون مثل الإنسان.

لتقييم “شات جي بي تي” بشكل علمي وحاسم، ولمعرفة ما إذا كان يمكنه الوصول إلى النقطة التي يمكنها خداع الأشخاص ليعتقدوا أنها إنسان، قام الباحثان المتخصصان في اللغة وعلم الدلالة والتعلم الآلي، كاميرون جونز وبنجامين بيرغن، بإجراء اختبار تورينغ على الإصدار الأحدث من “جي بي تي”، والمعروف باسم “جي بي تي 4”.

يُعزى اختبار تورينغ إلى العالم البريطاني آلان تورينغ الذي اقترحه في عام 1950، وهو يعتبر طريقة تجريبية للإجابة على السؤال: “هل يمكن للآلات التفكير؟” وأشار إلى أنه إذا كان الإنسان غير قادر على تحديد ما إذا كان يتحدث مع آلة ذكاء اصطناعي أو إنسان آخر بعد خمس دقائق من الاستجواب، فإن ذلك يكون دليلاً على أن الذكاء الاصطناعي يمتلك ذكاءً يشبه الإنسان.

وعلى الرغم من أن أنظمة الذكاء الاصطناعي لم تتمكن في حياة تورينغ نفسه (الذي توفي في عام 1954) من اجتياز اختبار تورينغ، إلا أنه توقع أنها ستنجح في المستقبل.

واليوم، بعد مرور أكثر من 70 عامًا على وضع هذا الاختبار، تؤكد دراسة جديدة للباحثين في جامعة كاليفورنيا، التي تم نشرها على موقع “أرخايف” للأبحاث قبل الطباعة، أن النسخة الأحدث من روبوت الدردشة الآلية “جي بي تي 4” لم تتمكن من اجتياز الاختبار بنجاح.

حيث تم تقديم اختبار تورينغ، المعروف أيضًا بـ”لعبة التقليد”، في عام 1950 من قبل آلان تورينغ في بحثه حول “آلات الحوسبة والذكاء”.

صُمم الاختبار لقياس قدرة الآلة على تظاهر سلوك ذكي يشبه سلوك الإنسان بحيث يكون من الصعب تمييزه عن الإنسان.

يتضمن الاختبار تقييم محادثات لغوية تجري بين الإنسان والآلة، حيث يتم توليد استجابات تشبه استجابات الإنسان من قبل الآلة.

ويتم إبلاغ الشخص المقيّم بأن أحد الشركاء في المحادثة هو آلة، ولكنه لا يعرف أي شخص هو الآلة.

إذا فشل الشخص في التفريق بين الآلة والإنسان بشكل موثوق، فإن الآلة تعتبر قد اجتازت الاختبار.

وتعتمد نتائج الاختبار على قدرة الآلة على تقليد الإنسان في توليد الاستجابات، بدلاً من قدرتها على تقديم إجابات صحيحة للأسئلة.

ويشير الباحث كاميرون جونز إلى أن الآلة يجب أن تكون قادرة على تقليد جوانب متعددة من الإنسان في المحادثة، بما في ذلك المعرفة والتفكير والشخصية والدعابة.

تم تنفيذ اختبار تورينغ لتقييم قدرة نموذج GPT-4 على التظاهر بالذكاء البشري، وأظهرت النتائج نجاحًا محدودًا للنموذج. شمل الاختبار تفاعل 650 مشاركًا مع 1400 محادثة قصيرة دون معرفة طرف الاتصال، وطُلب منهم تحديد ما إذا كانوا يتحدثون مع إنسان أو آلة. وبلغت نسبة خداع النموذج للمشاركين 41%، وهو أعلى معدل تم تحقيقه في اختبار تورينغ حتى الآن.

ومع ذلك، يجب ألا يُعتبر هذا النجاح بمثابة تجاوز لاختبار تورينغ. حيث أشار الباحثون إلى أن الاختبار لا يزال ذو قيمة كأداة لقياس فعالية الحوار الآلي، وعلى الرغم من التقدم التكنولوجي، فإنه لا يزال يمكنه تقييم فهم الآلة للغة وتفاعلها الاجتماعي مع البشر.

تساهم الاستراتيجية المستخدمة من قبل نموذج GPT-4 في نجاحه في الاختبار في استخدام نمط اللغة واستخدام الكلمات التي تميل إليها في الإجابات، بدلاً من حفظ عبارات لحالات محددة. ومع ذلك، لا يزال هناك بعض القيود في قدرة النموذج، مثل عدم القدرة على الوصول إلى الأحداث الحالية ونقص الشخصية البشرية والأسلوب اللغوي الرسمي الزائد أو غير الرسمي جدًا.

بشكل عام، يشير نجاح نموذج GPT-4 في اختبار تورينغ إلى إمكانية تطوير أنظمة ذكاء اصطناعي مستقبلية قادرة على تجاوز الاختبار إذا تم التعامل مع الاختلافات المحددة التي تم تحديدها في الدراسة. ومع ذلك، يجب أن نأخذ في الاعتبار الفروق الأخرى بين البشر والنماذج الذكاء الاصطناعي عند معالجة تلك المشكلات المحددة.

نتائج رائعة ولكن!

اختبار تورينغ يعد إنجازًا رائعًا، ولكن هناك عدة عوامل تقيِّده في تقييم قرب الذكاء الاصطناعي من البشرية، حسب ما يشير إليه مصطفى العطار، مدير برنامج الذكاء الاصطناعي بجامعة النيل الأهلية في مصر.

أولاً، يُشير العطار إلى أن النماذج اللغوية الكبيرة تصمم بوضوح لتظهر غير بشرية، مما يُمكن المشاركين في الاختبار من التفريق بسهولة بين التفاعل مع آلة أو إنسان.

ثانيًا، يُلاحظ العطار أن بعض النماذج اللغوية قد يركز على اللغة بدلاً من الدقة الفعلية للمعلومات المقدمة، مما يُؤدي في بعض الأحيان إلى توليد إجابات جمالية لغويًا ولكنها غير صحيحة.

وهذا يعني أن المشاركين في اختبار تورينغ قد يكون لديهم تحيز نحو الإجابات التي تبدو جمالية لغويًا ولكنها في الواقع تعتمد على “هلوسة” النموذج اللغوي.

ثالثًا، يُشير العطار إلى أن اختبار تورينغ لا يقيس جوانب مهمة من الذكاء البشري، مثل الجوانب التخليقية والعاطفية والفلسفية في التفكير، وهذه الجوانب قد تؤدي إلى نتائج مضللة بشأن قرب الذكاء الاصطناعي من الذكاء البشري.

رابعًا، يُشير العطار إلى أن الاختبار لا يقيس الوعي بالبيئة المحيطة، حيث يمكن للبشر استخدام ذاكرتهم الطويلة المدى لبناء قراراتهم بناءً على تجاربهم ومعرفتهم على مر السنين، بينما يكون للذكاء الاصطناعي ذاكرة قصيرة المدى.

أخيرًا، يُلاحظ العطار أن الاختبار لا يقيس قدرات الذاكرة البشرية طويلة المدى، وهذا يعني أنه في كثير من الحالات يمكن للبشر الاستفادة من ذاكرتهم الطويلة المدى في بناء قراراتهم اليومية، بينما يكون للذكاء الاصطناعي ذاكرة قصيرة المدى.

بناءً على ذلك، يُرى من وجهة نظر العطار أن اختبار تورينغ مفيد، ولكنه لا يمكنه تقييم الذكاء الاصطناعي بشكل كامل.

[adsforwp id="60211"]

المصدر

الوسوم