أعلنت فرق أبحاث أمنية عن اكتشاف تقنية "جيلبريك" متطورة تُمكن من تخطي الضوابط الأخلاقية والحماية التي وضعتها شركة OpenAI في نموذجها اللغوي الكبير الجديد GPT-5، مما يسمح له بإنتاج تعليمات محظورة وغير مرغوب فيها. تعتمد التقنية على أسلوب يسمى "Echo Chamber" الذي يبدأ بزرع سياق محادثة سام خفي، ثم يُوجه النموذج عبر سرد قصصي غير صريح لتجنب إثارة أنظمة الرفض التلقائية داخل النموذج.
تستخدم هذه الطريقة تقديم كلمات مفتاحية ضمن جمل لسرد قصة، بدلاً من توجيه طلب صريح، ومن ثم توسعة المواضيع بطريقة تدريجية لتحفيز النموذج على إنتاج محتوى ضار مثل تعليمات صنع قنابل مولوتوف، دون أن يكتشف النموذج نوايا الهجوم بوضوح.
الوصف التفصيلي للعملية يشمل:
- إدخال سياق من الكلمات المحقونة في نص تبدو عادية.
- اختيار مسار سردي يحافظ على استمرارية القصة ويقلل من مواقف رفض النموذج.
- تكرار تعميق السياق والمواضيع لإقناع النموذج بالمضي قدمًا في الإجابة.
- تعديل مجريات القصة عند توقف التقدم لضمان استمرار توليد المحتوى.
هذا النوع من الهجمات يُبرز ضعف النماذج اللغوية في مقاومة التلاعب بالسياقات متعددة الجولات، حيث تفتقر أنظمة الحماية إلى التعامل الفعال مع السياق الكلي للمحادثة، معتمدة بدلاً من ذلك على فلترة الطلبات منفردة، مما يجعلها عرضة لخداع تدريجي.
بالإضافة إلى ذلك، كشفت تحقيقات مستقلة أن GPT-5، رغم ترقية قدراته في الاستدلال والتفكير العميق، يعاني من مشاكل أمنية تجعله "غير قابل للاستخدام في المؤسسات" من دون تعزيزات إضافية للحماية. من بين التقنيات الأخرى للهجوم ذكر الباحثون استخدام أساليب "التشفير المزيف" وتجزئة النصوص لتضليل النموذج، وطرق حسابية متقدمة لإجبار النموذج على تجاوز القيود المفروضة عليه.
هذه النتائج تعكس تحديات كبيرة في مجال تأمين تطبيقات الذكاء الاصطناعي الحديثة، خصوصاً مع زيادة ارتباط النماذج اللغوية بأنظمة خارجية والسحابة، مما يوسع سطح الهجوم ويزيد من احتمالية الاستغلال الخبيث عبر طرق غير مباشرة مثل "الهجمات بلا نقرة" (Zero-Click Attacks) والحقن الضمني للأوامر الخبيثة داخل محتوى عادي.
باحثون في مجال الأمن يحذرون من أن هذه الهجمات لا تتطلب تفاعلًا من المستخدم مثل النقر على روابط خبيثة، بل يمكن تنفيذها عبر استغلال الذكاء الاصطناعي ذاته من خلال تسلسل المحادثات أو عبر مستندات وأدوات متصلة بالنموذج، وقد تؤدي إلى تسريب معلومات حساسة والتحكم في أنظمة متصلة بالإنترنت.
ختامًا، يشير الخبراء إلى أهمية تطوير دروع أمان متقدمة، تشمل الفحص العميق للسياق، وإعادة تصميم آليات الحماية لتتعامل مع استمرارية الحوار وليس فقط مع الأوامر المنفردة، بالإضافة إلى التدريب المكثف للنماذج على رفض مثل هذه المحاولات الاستغلالية، للحفاظ على ثقة المستخدمين وضمان سلامة البيئات التي تُستخدم فيها هذه النماذج.
المصدر الأساسي: تقرير موقع The Hacker News حول اكتشاف طريقة Jailbreak المتقدمة لنموذج GPT-5 باستخدام تقنية Echo Chamber وسرد القصة بهدف التلاعب بالنموذج بدون إثارة أنظمة الحماية، وكذلك تقييمات أداء النموذج في بيئات حقيقية وتحديات الأمان.
تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية.

ليست هناك تعليقات:
إرسال تعليق