في خطوة تمثل قفزة نوعية في عالم الذكاء الاصطناعي المفتوح المصدر، أعلنت جوجل عن إطلاق Gemma 3n، الجيل الجديد من نماذجها المفتوحة، والذي يأتي بتحسينات جوهرية تفوق ما رأيناه في الإصدارات السابقة. وبعد الكشف الأولي عنه في مؤتمر Google I/O الشهر الماضي، أصبح الإصدار الكامل متاحًا الآن وجاهزًا للتشغيل مباشرة على أجهزة المطورين.
وللتوضيح، تنتمي Gemma إلى عائلة نماذج الذكاء الاصطناعي المفتوحة التي تتيح للمطورين تنزيلها وتعديلها بحرية، وهي تختلف بذلك عن نموذج Gemini، الذي يُعد النموذج المغلق والمملوك للشركة.
يستطيع النموذج الجديد الآن معالجة المدخلات المتعددة مثل الصور والصوت والفيديو بشكل أصلي لإنتاج مخرجات نصية، وهو ما يمثل نقلة هائلة عن كونه نموذجًا نصيًا فقط. كما يمكن تشغيله على أجهزة بذاكرة لا تتجاوز 2 جيجابايت، مع أداء متفوق في مهام مثل البرمجة والاستدلال المنطقي.
وقد لخصت جوجل أبرز التحسينات في النقاط التالية:
* متعدد الوسائط بطبيعته: يدعم Gemma 3n أصلاً مدخلات الصور والصوت والفيديو والنصوص، مع قدرته على توليد مخرجات نصية.
* مُحسَّن للتشغيل على الأجهزة: تم تصميمه مع التركيز على الكفاءة، ويتوفر بحجمين (E2B و E4B) يعتمدان على 5 و 8 مليارات مُعامل على التوالي. لكن بفضل الابتكارات الهندسية، تعمل هذه النماذج ببصمة ذاكرة تماثل نماذج 2 و 4 مليارات مُعامل التقليدية، حيث تتطلب ذاكرة 2 جيجابايت (لنموذج E2B) و 3 جيجابايت (لنموذج E4B) فقط.
* بنية هندسية مبتكرة: في جوهره، يعتمد Gemma 3n على مكونات جديدة مثل بنية MatFormer التي تمنح مرونة في الحوسبة، وتقنية Per Layer Embeddings (PLE) لكفاءة الذاكرة، بالإضافة إلى مُشفِّرات جديدة للصوت والرؤية (مبنية على MobileNet-v5) تم تحسينها خصيصًا للاستخدام على الأجهزة.
* جودة معززة: يقدم Gemma 3n تحسينات نوعية في فهم اللغات المتعددة (يدعم 140 لغة للنصوص و 35 لغة للفهم متعدد الوسائط)، بالإضافة إلى قدرات متفوقة في الرياضيات والبرمجة والاستدلال.
يكمن سر هذه الكفاءة في بنية جديدة أطلقت عليها جوجل اسم MatFormer. وتصف جوجل هذه البنية مجازًا بدمية "الماتريوشكا" الروسية، حيث يحتوي النموذج الأكبر على نسخة أصغر منه تعمل بكامل طاقتها، مما يسمح للنموذج الواحد بالعمل بأحجام مختلفة لتناسب مهام متنوعة. وعلى صعيد الأداء، يُعد نموذج E4B الأكبر هو أول نموذج بأقل من 10 مليارات مُعامل يتجاوز حاجز 1300 نقطة في اختبار الأداء القياسي LMArena.
كما تدعم قدرات النموذج الصوتية الآن تحويل الكلام إلى نص والترجمة الفورية على الجهاز مباشرة، باستخدام مُشفِّر قادر على معالجة الكلام بتفاصيل دقيقة. أما جانب الرؤية، فيعتمد على مُشفِّر جديد يُدعى MobileNet-V5، وهو أسرع وأكثر كفاءة من سابقه، ويمكنه معالجة الفيديو بمعدل يصل إلى 60 إطارًا في الثانية على هاتف Google Pixel.
يمكن للمطورين والمهتمين البدء في تجربة النموذج على الفور، حيث إنه متاح عبر المنصات الشهيرة مثل Hugging Face و Kaggle، مع إمكانية تجربته مباشرة في Google AI Studio. ولمزيد من التفاصيل، يمكن الاطلاع على الإعلان الرسمي من جوجل.
تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، أو أضف tech1new.com إلى موجز أخبار Google الخاص بك للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية
ليست هناك تعليقات:
إرسال تعليق