في إنجاز علمي قد يغير من طبيعة تفاعلنا مع الذكاء الاصطناعي الصوتي، طوّرت باحثة من كوريا الجنوبية نموذجًا لغويًا صوتيًا جديدًا يُعرف باسم "SpeechSSM"، قادر على توليد كلام اصطناعي يبدو طبيعيًا ومتماسكًا سرديًا دون التقيد بحدود زمنية، مما يمهد الطريق لجيل جديد من المساعدات الصوتية والكتب المسموعة وروبوتات المحادثة التي تعمل على مدار الساعة.
ويُعد هذا النموذج خطوة رائدة تتغلب على واحدة من أصعب العقبات التي واجهت نماذج الذكاء الاصطناعي الصوتية السابقة، وهي القدرة على إنتاج محتوى صوتي طويل ومترابط، وهو مطلب أساسي لتطبيقات مثل البودكاست، والكتب المسموعة، والتطبيقات التفاعلية المتقدمة.
وقد تم الكشف عن هذا الابتكار، الذي طورته طالبة الدكتوراه سي جين بارك، ضمن ورقة بحثية نُشرت على منصة arXive العلمية، ومن المقرر تقديمها رسميًا في المؤتمر الدولي المرموق لتعلم الآلة (ICML) لعام 2025.
تجاوز حدود الذاكرة: سر بنية SpeechSSM الهجينة
تُصنّف النماذج اللغوية الصوتية (SLMs) باعتبارها الجيل القادم من تقنيات معالجة اللغة، لقدرتها على التعلم المباشر من الكلام البشري دون الحاجة إلى تحويله إلى نص، مما يسمح لها بالتقاط الفروق الدقيقة في النبرة والعاطفة. لكن هذا العمق في التحليل كان يمثل تحديًا، حيث يتطلب استهلاكًا هائلاً للذاكرة والموارد الحاسوبية عند محاولة توليد كلام طويل، مما يؤدي غالبًا إلى فقدان السياق أو تكرار المحتوى بشكل غير طبيعي.
ولحل هذه المعضلة، يعتمد نموذج "SpeechSSM" على هيكل "هجيني" فريد يجمع بين نوعين من الطبقات العصبونية: طبقات "الانتباه" (Attention) التي تركز على المعلومات الحديثة في المحادثة (الذاكرة قصيرة المدى)، وطبقات "تكرارية" (Recurrent) تمتلك القدرة على تذكر السياق الكامل للنص والمحادثة (الذاكرة طويلة المدى). هذا التصميم المزدوج يسمح للنموذج بتوليد كلام يمتد لفترات طويلة مع الحفاظ على تماسك المعنى وسلاسة السرد، دون أن يفقد خيط القصة أو ينحرف عن الموضوع. والأهم من ذلك، أن هذا الهيكل الذكي لا يزيد من العبء الحسابي مع زيادة طول المدخلات، مما يجعل النموذج أكثر كفاءة واستقرارًا.
من الثواني إلى الدقائق: إنجاز في التوليد الصوتي
لتحقيق سرعة غير مسبوقة في توليد الصوت، يستعين "SpeechSSM" بنموذج تركيبي يُعرف باسم "SoundStorm". وعلى عكس النماذج التقليدية التي تبني الصوت كلمة بكلمة، فإن هذا النموذج غير التسلسلي (Non-Autoregressive) يتيح إنتاج مقاطع صوتية متعددة في آن واحد، مما يسرّع عملية التوليد بشكل كبير دون التضحية بالجودة.
ولإثبات قدرات النموذج، أنشأت الباحثة مجموعة بيانات جديدة تحت اسم "LibriSpeech-Long"، والتي مكّنتها من اختبار قدرة النموذج على توليد كلام متواصل يصل إلى 16 دقيقة، وهو إنجاز هائل مقارنة بالنماذج السابقة التي كانت تقتصر على مقاطع لا تتجاوز 10 ثوانٍ.
ابتكار أدوات تقييم جديدة لقياس التماسك
لم يقتصر الابتكار على النموذج نفسه، بل قدمت الباحثة أيضًا أدوات تقييم جديدة تعالج قصور المقاييس التقليدية. فبدلاً من الاعتماد على مقياس "الحيرة" (Perplexity) الذي يقيس الصحة اللغوية فقط، تم تطوير مقاييس جديدة مثل "SC-L" لقياس الاتساق الدلالي مع مرور الوقت، ومقياس "N-MOS-T" لتقييم مدى طبيعية الصوت على مدى زمني طويل.
وقد أظهرت هذه التقييمات المتقدمة أن الكلام الذي يولده "SpeechSSM" يحافظ على الشخصيات والأحداث المذكورة في بداية المحتوى، ويضيف معلومات جديدة بطريقة طبيعية ومنطقية، حتى بعد مرور عدة دقائق من الكلام المتواصل.
وفي تعليقها على هذا الإنجاز، قالت الباحثة سي جين بارك: "كانت النماذج اللغوية الصوتية التقليدية محدودة في قدراتها على توليد محتوى طويل المدى، وكان هدفنا تطوير نموذج يمكنه دعم الاستخدام البشري الحقيقي عبر توليد كلام طويل ومتسق". وأضافت: "نعتقد أن هذا الإنجاز سيسهم في تطوير مجالات المحتوى الصوتي وتطبيقات الذكاء الاصطناعي، من خلال تحسين الاتساق في المحتوى وقدرة النماذج على التفاعل بكفاءة وسرعة في الزمن الحقيقي".
تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية.

ليست هناك تعليقات:
إرسال تعليق