ما هي تقنية نموذج اللغة الكبيرة (LLM) الخوارزمية المستخدمة في روبوتات الذكاء الاصطناعي؟

07.11.2023آخر تحديث: 07.11.2023

0 627 5 دقائق

نموذج اللغة الكبيرة (LLM) هي خوارزمية تم تدريبها على كميات هائلة من البيانات النصية المأخوذة من الإنترنت وأي مصادر أخرى يتم “تغذيتها”. يمكن لخوارزمية LLM تحليل البيانات وسياق الكلمات المرتبطة ببعضها البعض، وإنشاء نص بناءً على الموجه.

ترتبط هذه التكنولوجيا بمليارات – بل تريليونات – من المعلمات التي يمكن أن تجعلها غير دقيقة وغير مخصصة للاستخدام في الصناعة الرأسية.

وهو عبارة عن خوارزمية كمبيوتر تعالج مدخلات اللغة الطبيعية وتتنبأ بالكلمة التالية بناءً على ما تمت رؤيته بالفعل. ثم يتنبأ بالكلمة التالية، والكلمة التالية، وهكذا حتى تكتمل إجابته.

تكتسب شهادات LLM مفتوحة المصدر، على وجه الخصوص، المزيد من الاهتمام، مما يمكن كادرًا من المطورين من إنشاء المزيد من النماذج القابلة للتخصيص بتكلفة أقل. أدى إطلاق Meta في شهر فبراير لـ LLaMA (نموذج اللغة الكبير Meta AI) إلى حدوث انفجار بين المطورين الذين يتطلعون إلى البناء على أعلى LLMs مفتوحة المصدر.

LLMs هي نوع من الذكاء الاصطناعي الذي يتم تدريبه حاليًا على مجموعة هائلة من المقالات وإدخالات ويكيبيديا والكتب والموارد المستندة إلى الإنترنت وغيرها من المدخلات لإنتاج استجابات شبيهة بالاستجابات البشرية لاستفسارات اللغة الطبيعية. هذه كمية هائلة من البيانات. لكن ماجستير إدارة الأعمال على وشك الانكماش، وليس النمو، حيث يسعى البائعون إلى تخصيصها لاستخدامات محددة لا تحتاج إلى مجموعات البيانات الضخمة التي تستخدمها النماذج الأكثر شعبية اليوم.

LLM عبارة عن شبكة عصبية للتعلم الآلي يتم تدريبها من خلال مجموعات إدخال / إخراج البيانات؛ في كثير من الأحيان، يكون النص غير مسمى أو غير مصنف، ويستخدم النموذج منهجية التعلم الخاضعة للإشراف الذاتي أو شبه الخاضعة للإشراف. يتم استيعاب المعلومات، أو إدخال المحتوى، في LLM، ويكون الإخراج هو ما تتوقعه تلك الخوارزمية من الكلمة التالية. يمكن أن تكون المدخلات عبارة عن بيانات خاصة بالشركة، أو، كما في حالة ChatGPT، أي بيانات يتم تغذيتها واستخراجها مباشرة من الإنترنت.

يتطلب تدريب حاملي شهادة الماجستير في القانون على استخدام البيانات الصحيحة استخدام مزارع خوادم ضخمة ومكلفة تعمل بمثابة أجهزة كمبيوتر عملاقة.

يتم التحكم في LLMs بواسطة المعلمات، كما هو الحال في الملايين والمليارات وحتى تريليونات منها. (فكر في المعلمة كشيء يساعد ماجستير في القانون على الاختيار بين خيارات الإجابة المختلفة.) يحتوي برنامج GPT-3 LLM الخاص بشركة OpenAI على 175 مليار معلم، ومن المفترض أن يحتوي أحدث طراز للشركة – GPT-4 – على تريليون معلم.

على سبيل المثال، يمكنك الكتابة في نافذة مطالبة LLM “تناولت طعام الغداء اليوم…”. يمكن أن يعود LLM بـ “الحبوب” أو “الأرز” أو “رز شرائح اللحم”. لا توجد إجابة صحيحة بنسبة 100%، ولكن هناك احتمالية تعتمد على البيانات التي تم استيعابها بالفعل في النموذج. قد تكون الإجابة “الحبوب” هي الإجابة الأكثر احتمالاً بناءً على البيانات الموجودة، لذلك يمكن لـ LLM إكمال الجملة بهذه الكلمة. ولكن، نظرًا لأن LLM هو محرك احتمالي، فإنه يعين نسبة مئوية لكل إجابة محتملة. قد تظهر الحبوب في 50% من الحالات، وقد يكون “الأرز” هو الجواب في 20% من الحالات، ورز شرائح اللحم بنسبة 0.005% من الحالات.

ما هي الهندسة السريعة؟

LLM

في حين أن معظم شهادات LLM، مثل OpenAI’s GPT-4، مملوءة مسبقًا بكميات هائلة من المعلومات، فإن الهندسة السريعة من قبل المستخدمين يمكنها أيضًا تدريب النموذج على صناعة معينة أو حتى للاستخدام التنظيمي.

وقال كيم من معهد ماساتشوستس للتكنولوجيا: “الهندسة السريعة تدور حول تحديد ما نغذيه بهذه الخوارزمية حتى تقول ما نريدها”. “إن LLM عبارة عن نظام يثرثر دون أي سياق نصي. بمعنى ما، يعتبر برنامج LLM بمثابة برنامج دردشة آلي بالفعل.

الهندسة السريعة هي عملية صياغة وتحسين المطالبات النصية للحصول على LLM لتحقيق النتائج المرجوة. ربما تكون الهندسة السريعة على نفس القدر من الأهمية للمستخدمين، ومن المتوقع أن تصبح مهارة حيوية لمحترفي تكنولوجيا المعلومات والأعمال.

نظرًا لأن الهندسة السريعة هي نظام ناشئ وناشئ، تعتمد المؤسسات على الكتيبات والأدلة السريعة كوسيلة لضمان الاستجابات المثلى من تطبيقات الذكاء الاصطناعي الخاصة بها. حتى أن هناك أسواقًا ناشئة للمطالبات، مثل أفضل 100 مطالبة لـ ChatGPT.

ربما لا تقل أهمية عن ذلك بالنسبة للمستخدمين، من المتوقع أن تصبح الهندسة السريعة مهارة حيوية لمحترفي تكنولوجيا المعلومات والأعمال، وفقًا لإينو رييس، مهندس التعلم الآلي لدى Hugging Face، وهي منصة مجتمعية تعمل على إنشاء واستضافة ماجستير إدارة الأعمال. سيكون المهندسون الفوريون مسؤولين عن إنشاء LLMs مخصصة للاستخدام التجاري.

كيف ستصبح LLMs أسرع وأرخص؟

اليوم، يتم استخدام برامج الدردشة الآلية المستندة إلى LLMs بشكل شائع “خارج الصندوق” كواجهة دردشة عبر الإنترنت تعتمد على النص. يتم استخدامها في محركات البحث مثل Bard من Google وBing من Microsoft (استنادًا إلى ChatGPT) ولمساعدة العملاء الآلية عبر الإنترنت. يمكن للشركات استيعاب مجموعات البيانات الخاصة بها لجعل روبوتات الدردشة أكثر تخصيصًا لأعمالها الخاصة، ولكن يمكن أن تتأثر الدقة بسبب الكم الهائل من البيانات التي تم استيعابها بالفعل.

يمكن أن تتكلف دورات LLM ما بين مليوني دولار إلى 10 ملايين دولار للتدريب على حالات استخدام محددة، اعتمادًا على حجمها والغرض منها.

عندما يركز حاملو شهادات الماجستير في الذكاء الاصطناعي وقوتهم الحسابية على مجموعات بيانات أصغر، فإن أداءهم يكون جيدًا أو أفضل من درجات ماجستير القانون الهائلة التي تعتمد على مجموعات بيانات ضخمة غير متبلورة. ويمكن أيضًا أن يكونوا أكثر دقة في إنشاء المحتوى الذي يبحث عنه المستخدمون، كما أن تدريبهم أقل تكلفة بكثير.

تحدث إريك بويد، نائب رئيس منصات الذكاء الاصطناعي في مايكروسوفت، مؤخرًا في مؤتمر MIT EmTech، وقال عندما بدأت شركته العمل لأول مرة على نماذج صور الذكاء الاصطناعي مع OpenAI قبل أربع سنوات، كان الأداء سيستقر مع نمو حجم مجموعات البيانات. ومع ذلك، تتمتع النماذج اللغوية بقدرة أكبر بكثير على استيعاب البيانات دون تباطؤ الأداء.

استثمرت مايكروسوفت، وهي أكبر داعم مالي لـ OpenAI وChatGPT، في البنية التحتية لبناء LLMs أكبر. وقال بويد: “لذلك، نحن نكتشف الآن كيفية الحصول على أداء مماثل دون الحاجة إلى امتلاك مثل هذا النموذج الضخم”. “نظرًا لمزيد من البيانات والحوسبة ووقت التدريب، لا يزال بإمكانك العثور على المزيد من الأداء، ولكن هناك أيضًا الكثير من التقنيات التي نتعلمها الآن لكي لا نضطر إلى جعلها كبيرة جدًا وقادرة على إدارتها لهم بكفاءة أكبر.

على سبيل المثال، عندما يرسل مستخدم مطالبة إلى GPT-3، يجب عليه الوصول إلى جميع معلماته البالغ عددها 175 مليارًا لتقديم إجابة. وقال إن إحدى طرق إنشاء ماجستير إدارة الأعمال الأصغر حجمًا، والمعروفة باسم نماذج الخبراء المتفرقة، من المتوقع أن تقلل من تكاليف التدريب والحسابات لخريجي ماجستير إدارة الأعمال، “مما يؤدي إلى نماذج ضخمة ذات دقة أفضل من نظيراتها الكثيفة”.

يعتقد الباحثون من Meta Platforms (فيسبوك سابقًا) أن النماذج المتفرقة يمكنها تحقيق أداء مشابه لأداء ChatGPT وغيره من برامج LLM الضخمة باستخدام “جزء صغير من الحساب”.

وقالت ميتا في ورقة بحثية صدرت في أكتوبر 2022: “بالنسبة للنماذج ذات ميزانيات الحوسبة المتواضعة نسبيًا، يمكن للنموذج المتناثر أن يؤدي أداءً متساويًا مع النموذج الكثيف الذي يتطلب ما يقرب من أربعة أضعاف الحوسبة”.

يتم بالفعل إطلاق نماذج أصغر من قبل شركات مثل Aleph Alpha، وDatabricks، وFixie، وLightOn، وStability AI، وحتى Open AI. تمتلك LLMs الأكثر مرونة ما بين بضعة مليارات إلى 100 مليار معلمة.

وأخيراً، في حين أن العديد من المستخدمين يتعجبون من القدرات الرائعة لروبوتات الدردشة المستندة إلى LLM، لا يمكن للحكومات والمستهلكين غض الطرف عن مشكلات الخصوصية المحتملة الكامنة فيها، وفقًا لغابرييل كافيكيتي، مستشار الخصوصية في شركة الأمن السيبراني Surfshark.

[adsforwp id="60211"]

الوسوم