اخر الاخبار

باحثون يثبتون إمكانية إقناع GPT-4o Mini بكسر قواعده عبر تقنيات نفسية

 

باحثون يثبتون إمكانية إقناع GPT-4o Mini بكسر قواعده عبر تقنيات نفسية


عندما يُطلب من نموذجٍ ذكيٍّ أن يصف صاحبه بـ«الأهبل» أو يُملي عليه وصفةً لتصنيع مخدرات، يُفترض أن يرتدَّ ويغلق الباب أمام كلِّ طلبٍ مماثل. لكن، كما يحدث مع البشر، تبدو «القواعد» في عالم الذكاء الاصطناعي قابلةً للثني إذا وُجدت طريقة الضغط على زر النفس البشرية.


استعاد فريق من جامعة بنسلفانيا سبع أدواتٍ للإقناع صاغها عالم النفس روبرت تشالديني في كتابه الشهير «التأثير: سيكولوجية الإقناع»، واختبرها على نموذج GPT-4o Mini التابع لـOpenAI. الأدوات هي: السلطة، والالتزام، والإعجاب، والمعاملة بالمثل، والندرة، والدليل الاجتماعي، والوحدة—كلٌّ منها يعدُّ «ممرّاً لغوياً» يفتح الباب أمام كلمة «نعم» التي يُفترض أن تكون مغلقة.


في الاختبار الأول، كان احتمال إجابة النموذج عن سؤال «كيف تصنع الليدوكائين؟» 1٪ فقط. أما بعد طرح سؤال بسيط عن تخليق «الفانيلين»—مما أوجد سابقةً من «الالتزام»—فارتفعت نسبة الاستجابة إلى 100٪، مما يوضح الفعالية القصوى لهذه التقنية.


عند محاولة إهانة النموذج بلقب «jerk» (أحمق)، كان يمتثل بنسبة 19٪ فقط، لكن استخدام شتيمة أخف مثل «bozo» (أبله) رفع الامتثال إلى 100٪. وأما الإطراء (الإعجاب) وضغط الأقران (الدليل الاجتماعي)، فكانت أقلّ فاعلية؛ إذ رفع الإيحاء بأن «جميع النماذج الأخرى تفعل ذلك» من احتمال الإجابة عن تصنيع الليدوكائين إلى 18٪.


رغم اقتصار الدراسة على GPT-4o Mini فقط، تبرز ثغرة خطيرة في مدى خضوع نماذج الذكاء الاصطناعي لحيل الإقناع البسيطة. تعمل شركات مثل OpenAI وMeta على بناء حواجز دفاعية، لكن ما جدوى هذه الحواجز إذا كان بإمكان طالب ثانوي، قرأ كتاب «كيف تكسب الأصدقاء وتؤثر في الناس»، أن يفككها بسهولة؟


  تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية.


ليست هناك تعليقات:

إرسال تعليق