قدمت شركة OpenAI "وضع الصوت المتقدم" العام الماضي بالتزامن مع إطلاق نموذج GPT-4o. تستخدم هذه الميزة نماذج متعددة الوسائط أصلاً، مثل GPT-4o، ويمكنها الاستجابة للمدخلات الصوتية في غضون 232 ميلي ثانية فقط، وبمتوسط يبلغ 320 ميلي ثانية، وهو ما يماثل زمن الاستجابة البشري في محادثة نموذجية. كما يمكنها توليد صوت يبدو أكثر طبيعية، والتقاط الإشارات غير اللفظية، كسرعة حديثك، والاستجابة بمشاعر.
في وقت سابق من هذا العام، أصدرت OpenAI تحديثًا طفيفًا لوضع الصوت المتقدم قلل من المقاطعات وحسّن من اللهجات. واليوم، أطلقت OpenAI ترقية كبيرة لوضع الصوت المتقدم، مما يجعله يبدو أكثر طبيعية وشبيهًا بالصوت البشري. تتميز الاستجابات الآن بتنغيم أكثر دقة، وإيقاع واقعي – يشمل الوقفات والتشديد – وتعبير أكثر دقة عن بعض المشاعر مثل التعاطف والسخرية.
يقدم هذا التحديث أيضًا دعمًا للترجمة. يمكن لمستخدمي ChatGPT الآن استخدام وضع الصوت المتقدم للترجمة بين اللغات. ما عليك سوى أن تطلب من ChatGPT بدء الترجمة، وسيستمر في الترجمة طوال المحادثة حتى يُطلب منه التوقف. هذه الميزة تغني فعليًا عن الحاجة إلى تطبيقات الترجمة الصوتية المخصصة.
في الوقت الحالي، يتوفر وضع الصوت المتقدم المُحدَّث لمشتركي ChatGPT المدفوعين فقط. كما أشارت OpenAI إلى وجود بعض القيود المعروفة في هذا التحديث الأخير، والموضحة أدناه:
* قد يؤدي هذا التحديث أحيانًا إلى انخفاضات طفيفة في جودة الصوت، مثل اختلافات غير متوقعة في النبرة ودرجة الصوت – وتكون ملحوظة بشكل خاص مع بعض خيارات الصوت. وتتوقع OpenAI تحسين اتساق جودة الصوت بمرور الوقت.
* لا تزال الهلاوس النادرة في وضع الصوت قائمة، مما يؤدي أحيانًا إلى إنتاج أصوات غير مقصودة تشبه الإعلانات، أو الكلام غير المفهوم، أو موسيقى الخلفية.
ورغم استمرار وجود بعض القيود الطفيفة، فإن التدفق المستمر للتحسينات يشير إلى مستقبل يصبح فيه الخط الفاصل بين المحادثة البشرية وتلك التي تتم مع الذكاء الاصطناعي غير قابل للتمييز بشكل متزايد.
تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، أو أضف tech1new.com إلى موجز أخبار Google الخاص بك للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية
ليست هناك تعليقات:
إرسال تعليق