اختبار يكشف تراجع أداء نموذج OpenAI o3.. هل خففت الشركة من قدراته النهائية؟

في تطور لافت يطرح علامات استفهام حول مدى نزاهة الإعلانات التقنية، كشفت اختبارات مستقلة عن تباين ملحوظ في أداء نموذج الذكاء الاصطناعي o3 من OpenAI، ليظهر بصورة أقل إبهارًا بكثير مما روّجت له الشركة سابقًا.

ففي ديسمبر الماضي، استعرضت OpenAI بكل فخر قدرات نموذجها الجديد، مشيرة إلى تفوقه اللافت بقدرته على حل ما يزيد عن ربع أسئلة اختبار "FrontierMath" المعقد – وهو مقياس صعب للمسائل الرياضية المتقدمة – تاركًا النماذج المنافسة بعيدة في الخلف بنسبة دقة لم تتجاوز 2%.

وخلال بث مباشر، أشار مارك تشين، كبير الباحثين في OpenAI، إلى أن النموذج حقق نسبة تجاوزت 25% في الاختبارات الداخلية التي أجريت باستخدام بنية حوسبية متطورة، كما أفاد موقع "تك كرانش".

إلا أن هذه النتيجة الباهرة تبدو الآن وكأنها تمثل ذروة أداء النموذج في ظروف مثالية، إذ تبيّن لاحقًا أنها استندت إلى نسخة أولية أكثر قوة من تلك التي أتاحتها الشركة للاستخدام العام.

وفي تقرير حديث الصادر عن معهد "Epoch AI" – الجهة المطورة لمعيار "FrontierMath" نفسه – كشفت الاختبارات التي أجراها المعهد على النسخة المتاحة للجمهور من o3 عن أداء متواضع بشكل كبير، حيث لم يتمكن النموذج من تجاوز حاجز 10% من الإجابات الصحيحة.

ورغم أن هذه النتائج لا تجزم بتضليل OpenAI للمعلومات، إلا أنها تثير تساؤلات مشروعة حول الطريقة التي تختارها الشركة لعرض إمكانات نماذجها الذكية.

وأوضح معهد Epoch أن هذا التباين في الأداء قد يكون ناتجًا عن اختلافات في الإعدادات الحوسبية المستخدمة في الاختبارين، أو حتى في عدد المسائل التي شملها كل اختبار على حدة.

وفي منشور لها على منصة إكس، أكدت مؤسسة "ARC Prize" أنها اختبرت نسخة مختلفة من النموذج قبل إطلاقه الرسمي، مشيرة إلى أن القدرات الحوسبية المتاحة للعامة أقل قوة من تلك المستخدمة في النسخ التجريبية الأولية.

من جانبها، أوضحت ويندا تشو، العضو في الفريق التقني لـ OpenAI، أن النسخة الحالية من o3 صُممت خصيصًا لتكون أكثر كفاءة وسرعة في الاستخدامات اليومية، وهو ما قد يفسر هذا التفاوت في نتائج الأداء المعيارية.

تُضاف هذه الواقعة إلى سجل متزايد من الانتقادات التي تُوجه إلى قطاع الذكاء الاصطناعي بشأن افتقاره للشفافية في عرض نتائج الاختبارات والمعايير المستخدمة لتقييم النماذج.

فقد سبق أن وُجهت اتهامات مماثلة لشركتي ميتا و xAI التابعة لإيلون ماسك، تتعلق بنشر نتائج اختبار قد تكون غير دقيقة أو لم تُجرَ على النماذج الفعلية المتاحة للمستخدمين.

وبينما تستعد OpenAI لإطلاق نسخة أكثر قوة من النموذج تحت اسم "o3-pro"، يبقى الدرس المستفاد هو ضرورة التعامل بحذر عند تقييم قدرات نماذج الذكاء الاصطناعي، خاصة عندما يكون مصدر النتائج طرفًا ذا مصلحة تجارية واضحة.

تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، أو أضف tech1new.com إلى موجز أخبار Google الخاص بك للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية