في مفارقة تثير الدهشة والقلق في آن واحد، كشفت أحدث إبداعات OpenAI في عالم الذكاء الاصطناعي، النموذجان "o3" و "o4-mini"، عن قفزة نوعية في القدرات من جوانب عديدة، إلا أنهما في الوقت ذاته يُظهران ميلًا ملحوظًا لـ "الهلوسة" أو اختلاق المعلومات بشكل غير دقيق، بل وبمعدلات تفوق حتى العديد من النماذج الأقدم التي طورتها الشركة نفسها.
لقد أثبتت "الهلوسة" أنها واحدة من أكبر وأعقد التحديات التي تواجه مسيرة تطور الذكاء الاصطناعي، حيث لا يزال هذا العائق يؤثر سلبًا حتى على الأنظمة التي تُعتبر في طليعة الأداء حاليًا.
وعلى مدار مسيرة التطور، كان يُلاحظ تحسن تدريجي في كل نموذج جديد، حيث كانت نسبة الهلوسة فيه أقل مقارنة بسابقه. لكن يبدو أن هذا الاتجاه التصاعدي قد توقف مؤقتًا مع وصول النموذجين "o3" و "o4-mini"، وذلك وفقًا لتحليل نشره موقع "TechCrunch".
فبناءً على الاختبارات الداخلية التي أجرتها OpenAI نفسها، فإن النموذجين الجديدين، اللذين ينتميان إلى فئة ما يُعرف بـ "نماذج التفكير"، يُظهران ميلًا أكبر لإنتاج معلومات غير صحيحة أو مختلقة مقارنة بنماذج التفكير السابقة للشركة - "o1" و "o1-mini" و "o3-mini" - بالإضافة إلى نماذج OpenAI التقليدية التي لا تعتمد بشكل أساسي على آليات التفكير، مثل نموذج "GPT-4o".
ولعل الأمر الأكثر إثارة للقلق هو اعتراف OpenAI، مطورة روبوت الدردشة الشهير شات جي بي تي، بأنها لا تزال تجهل السبب الحقيقي وراء هذا التراجع في دقة المعلومات.
ففي تقريرها الفني المفصل عن النموذجين "o3" و "o4-mini"، ذكرت OpenAI بوضوح أن "هناك حاجة إلى مزيد من البحث المعمق" لفهم الأسباب الكامنة وراء تفاقم مشكلة الهلوسة مع التوسع في حجم نماذج التفكير وزيادة تعقيدها.
صحيح أن النموذجين الجديدين "o3" و "o4-mini" يُظهران أداءً مُحسنًا في بعض المجالات المتخصصة، بما في ذلك المهام المتعلقة بالبرمجة والرياضيات، إلا أنه نظرًا لأنهما "يقدمان ادعاءات أكثر عمومية وشاملة"، فإنهما غالبًا ما يُدفعان إلى تقديم "ادعاءات أكثر دقة، بالإضافة إلى المزيد من الادعاءات غير الدقيقة أو المهلوسة"، وذلك وفقًا لما جاء في التقرير الفني.
وقد توصلت OpenAI من خلال اختباراتها إلى أن نموذج "o3" هلوس في إجابات 33% من الأسئلة المطروحة في اختبار "PersonQA"، وهو المعيار الداخلي الذي تعتمده الشركة لقياس دقة معرفة النموذج بالشخصيات والمعلومات المتعلقة بها. ويُمثل هذا المعدل تقريبًا ضعف معدل الهلوسة في نماذج التفكير السابقة من OpenAI، وهما النموذجان "o1" و "o3-mini"، اللذان سجلا معدلات هلوسة بلغت 16% و 14.8% على التوالي.
وكان أداء نموذج "o4-mini" أسوأ في اختبار "PersonQA"، حيث هلوس في 48% من الإجابات.
ولم تقتصر الأدلة على هذا التوجه المقلق على اختبارات OpenAI الداخلية، بل أظهرت اختبارات خارجية مستقلة أجرتها "Transluce"، وهي مؤسسة غير ربحية متخصصة في أبحاث الذكاء الاصطناعي، أدلة واضحة على ميل نموذج "o3" إلى اختلاق خطوات أو تفاصيل غير موجودة في عملية التوصل إلى إجابات.
وإذا استمر توسيع حجم نماذج التفكير في مفاقمة مشكلة الهلوسة بدلاً من حلها، فإن هذا الأمر سيجعل البحث عن حلول فعالة لهذه المشكلة أكثر إلحاحًا وأهمية من أي وقت مضى.
يُذكر أن قطاع الذكاء الاصطناعي بشكل عام قد تحول في العام الماضي إلى التركيز بشكل متزايد على نماذج التفكير، وذلك بعد أن بدأت التقنيات التقليدية لتحسين أداء نماذج الذكاء الاصطناعي تُظهر عوائد متناقصة. ويُعتبر "التفكير" آلية واعدة لتحسين أداء النماذج في مجموعة متنوعة من المهام دون الحاجة إلى كميات هائلة من الموارد الحاسوبية والبيانات أثناء عملية التدريب. ومع ذلك، يبدو أن هذه الآلية تحمل في طياتها أيضًا تحديًا كبيرًا يتمثل في زيادة ميل النماذج إلى الهلوسة، وهو ما يستدعي تركيزًا مكثفًا على إيجاد حلول لهذه المعضلة.
تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، أو أضف tech1new.com إلى موجز أخبار Google الخاص بك للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية
ليست هناك تعليقات:
إرسال تعليق