الذكاء الاصطناعي يقع في الفخ: دراسة تكشف كيف تتلاعب به الحيل النفسية البشرية

نشر مختبر الذكاء الاصطناعي التوليدي في كلية وارتون للأعمال بحثًا جديدًا يُظهر أن نماذج الذكاء الاصطناعي، بما في ذلك نموذج GPT-4o-mini، يمكن خداعها للإجابة على استفسارات إشكالية عبر استخدام أساليب الإقناع النفسي التي تؤثر عادةً في البشر.

التفاصيل:

جرّب الفريق البحثي مبادئ التأثير الستة لعالم النفس روبرت سيالديني—وهي السلطة، والالتزام، والإعجاب، والمعاملة بالمثل، والندرة، والوحدة—وذلك ضمن 28 ألف محادثة مع نموذج 4o-mini.

خلال هذه المحادثات، سعى الباحثون إلى إقناع النموذج بالإجابة على طلبين مرفوضين عادةً: الأول هو إهانة المستخدم، والثاني هو تقديم إرشادات لتصنيع مواد محظورة.

بشكل عام، وجد الباحثون أن هذه المبادئ النفسية أدت إلى زيادة معدل امتثال النموذج للاستفسارات الإشكالية بأكثر من الضعف، لتقفز النسبة من 33% إلى 72%.

وكان لمبدأي "الالتزام" و"الندرة" التأثير الأقوى، حيث رفعا معدلات الامتثال من 19% و13% إلى 100% و85% على التوالي.

الأهمية والتداعيات: تكشف هذه النتائج عن نقطة ضعف حرجة، وهي أن نماذج الذكاء الاصطناعي يمكن التلاعب بها باستخدام نفس الأساليب النفسية التي تؤثر على البشر. ومع التقدم الهائل والمتسارع في هذا المجال، أصبح من الضروري أن تتعاون مختبرات الذكاء الاصطناعي مع علماء الاجتماع لفهم الأنماط السلوكية للذكاء الاصطناعي بشكل أعمق، ومن ثم تطوير دفاعات أكثر قوة وصلابة.

تابع موقعنا tech1new.com انضم إلى صفحتنا على فيسبوك و متابعتنا على منصة إكس (تويتر سابقاً) ، للحصول على تحديثات إخبارية فورية ومراجعات وشروحات تقنية.