دراسة لآبل تشكك في قدرات "الاستدلال" لنماذج الذكاء الاصطناعي الحالية قبيل مؤتمر المطورين 2025

قبل أيام قليلة من انطلاق مؤتمر المطورين العالمي (WWDC) لعام 2025، نشرت شركة آبل دراسة جديدة في مجال الذكاء الاصطناعي قد تمثل نقطة تحول لمستقبل هذا المجال مع اقترابنا من تحقيق الذكاء الاصطناعي العام (AGI).

ابتكرت آبل اختبارات تكشف أن نماذج الذكاء الاصطناعي المتاحة للجمهور والتي يُفترض أنها "تستنتج" لا تقوم بذلك فعليًا. فهذه النماذج تحقق نتائج مبهرة في حل المسائل الرياضية والمهام الأخرى لأنها تعرضت لأنواع مشابهة من الاختبارات أثناء تدريبها، حيث حفظت الخطوات اللازمة لحل المشكلات أو إكمال المهام المختلفة التي قد يطرحها المستخدمون على روبوتات الدردشة.

لكن اختبارات آبل الخاصة أظهرت أن هذه النماذج غير قادرة على التكيف مع المشكلات غير المألوفة وإيجاد حلول لها. والأسوأ من ذلك، يميل الذكاء الاصطناعي إلى الاستسلام إذا فشل في حل مهمة ما. حتى عندما قدمت آبل الخوارزميات ضمن التلقينات (prompts)، لم تتمكن روبوتات الدردشة من اجتياز الاختبارات.

لم يستخدم باحثو آبل المسائل الرياضية لتقييم قدرة نماذج الذكاء الاصطناعي الرائدة على الاستدلال، بل لجأوا بدلاً من ذلك إلى الألغاز لاختبار قدرات الاستدلال لدى مختلف النماذج.

شملت الاختبارات ألغازًا مثل برج هانوي، وقفز الداما، وعبور النهر، وعالم المكعبات. وقامت آبل بتقييم كل من النماذج اللغوية الكبيرة (LLMs) ونماذج الاستدلال الكبيرة (LRMs) باستخدام هذه الألغاز، مع تعديل مستويات الصعوبة.

اختبرت آبل نماذج لغوية كبيرة مثل ChatGPT GPT-4، و Claude 3.7 Sonnet، و DeepSeek V3. أما بالنسبة لنماذج الاستدلال الكبيرة، فقد اختبرت ChatGPT o1، و ChatGPT o3-mini، و Gemini، و Claude 3.7 Sonnet Thinking، و DeepSeek R1.

وجد العلماء أن أداء النماذج اللغوية الكبيرة كان أفضل من نماذج الاستدلال عندما كان مستوى الصعوبة سهلاً، بينما كان أداء نماذج الاستدلال الكبيرة أفضل في مستوى الصعوبة المتوسط. وبمجرد وصول المهام إلى المستوى الصعب، فشلت جميع النماذج في إكمالها.

لاحظت آبل أن نماذج الذكاء الاصطناعي استسلمت ببساطة عن حل الألغاز في المستويات الأصعب؛ فالدقة لم تنخفض تدريجيًا فحسب، بل انهارت تمامًا.

تشير الدراسة إلى أنه حتى أفضل نماذج الذكاء الاصطناعي المصممة للاستدلال لا تستدل فعليًا عند مواجهة ألغاز غير مألوفة. إن فكرة "الاستدلال" في هذا السياق مضللة، حيث أن هذه النماذج لا تفكر حقًا.

وأضاف باحثو آبل أن تجارب كهذه يمكن أن تؤدي إلى مزيد من الأبحاث التي تهدف إلى تطوير نماذج ذكاء اصطناعي ذات قدرات استدلال أفضل في المستقبل.

ومع ذلك، كان الكثير منا يشك بالفعل في أن نماذج الذكاء الاصطناعي الاستدلالية لا تفكر حقًا. فالذكاء الاصطناعي العام (AGI) هو ذلك النوع من الذكاء الاصطناعي القادر على فهم الأمور بنفسه عند مواجهة تحديات جديدة.

سأشير أيضًا إلى زاوية "العنب الحصرم" الواضحة هنا. قد تكون دراسة آبل اختراقًا، بالتأكيد، لكنها تأتي في وقت لا يعتبر فيه ذكاء آبل (Apple Intelligence) منافسًا حقيقيًا لـ ChatGPT و Gemini ونماذج الذكاء الاصطناعي الرائدة الأخرى. دعك من الاستدلال – فسيري (Siri) لا يستطيع حتى إخبارك ما هو الشهر الحالي. سأختار ChatGPT o3 على سيري في أي يوم.

توقيت نشر الدراسة مثير للتساؤل أيضًا. تستعد آبل لاستضافة مؤتمرها السنوي للمطورين WWDC 2025، ولن يكون الذكاء الاصطناعي هو محور التركيز الرئيسي. لا تزال آبل متأخرة عن OpenAI وجوجل وشركات الذكاء الاصطناعي الأخرى التي أصدرت نماذج استدلال تجارية. هذا ليس بالضرورة أمرًا سيئًا، خاصة وأن آبل تواصل نشر الدراسات التي تعرض أبحاثها وأفكارها الخاصة في هذا المجال.

ومع ذلك، تقول آبل بشكل أساسي إن نماذج الذكاء الاصطناعي الاستدلالية ليست قادرة كما يعتقد الناس، وذلك قبل أيام فقط من حدث لن تعلن فيه عن أي تطورات كبيرة في مجال الذكاء الاصطناعي. هذا جيد أيضًا. أقول هذا كمستخدم قديم للآيفون ما زال يعتقد أن لدى ذكاء آبل القدرة على اللحاق بالركب.

نتائج الدراسة مهمة، وأنا متأكد من أن آخرين سيحاولون التحقق منها أو الطعن فيها. قد يستخدم البعض هذه الأفكار لتحسين نماذج الاستدلال الخاصة بهم. ومع ذلك، يبدو من الغريب رؤية آبل تقلل من شأن نماذج الذكاء الاصطناعي الاستدلالية قبل مؤتمر WWDC مباشرة.

سأقول هذا أيضًا: كمستخدم لـ ChatGPT o3، لن أتخلى عن نماذج الاستدلال حتى لو لم تكن قادرة على التفكير حقًا. إن o3 هو الذكاء الاصطناعي المفضل لدي حاليًا، وأنا أحب ردوده أكثر من خيارات ChatGPT الأخرى. إنه يرتكب أخطاء ويهلوس، لكن "استدلاله" لا يزال يبدو أقوى مما يمكن أن تفعله النماذج اللغوية الكبيرة الأساسية.

تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، أو أضف tech1new.com إلى موجز أخبار Google الخاص بك للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية