قد يلاحظ مستخدمو روبوتات الدردشة المعتمدة على الذكاء الاصطناعي، مثل "شات جي بي تي" و"جيميني" و"كلود"، أن الإجابات التي تبدو واثقة في البداية قد تتغير بمجرد طرح سؤال بسيط مثل: "هل أنت متأكد؟". وفي كثير من الحالات، يعيد النموذج صياغة رده أو يعدله، وقد يقدم إجابة تختلف جزئيًا أو كليًا عن إجابته الأولى.
ومع تكرار التشكيك في الإجابة، قد يواصل النموذج تغيير موقفه بدلًا من الدفاع عنه، حتى إذا كانت لديه معلومات تدعم رده الأول. ووفقًا لتقرير نشرته صحيفة "إنديان إكسبرس"، فإن بعض النماذج تدرك أن المستخدم يختبرها، لكنها تميل رغم ذلك إلى مراجعة إجاباتها باستمرار.
وأوضح الدكتور راندال س. أولسون، المؤسس المشارك والمدير التقني لشركة "Goodeye Labs"، أن هذا السلوك يُعرف في أوساط الباحثين باسم "التملق"، ويعد من أكثر المشكلات التي جرى توثيقها في أنظمة الذكاء الاصطناعي الحديثة.
وفي عام 2023، نشرت شركة "أنثروبيك"، المطورة لروبوت الدردشة "كلود"، دراسة أوضحت أن النماذج التي تتعلم من تقييمات المستخدمين تصبح أكثر ميلًا لتقديم إجابات ترضي المستخدم، حتى لو كانت أقل دقة من الناحية العلمية.
ويعود ذلك إلى أسلوب التدريب المعروف باسم "التعلم المعزز من ملاحظات البشر"، وهو النهج الذي يجعل روبوتات الدردشة أكثر سلاسة في الحوار، لكنه في الوقت نفسه قد يدفعها إلى مجاراة المستخدم بدلًا من تصحيح معلوماته.
ويعني هذا أن النماذج التي تتمسك بالإجابة الصحيحة قد تحصل على تقييمات أقل، بينما تحظى الإجابات التي توافق توقعات المستخدم بتقييمات أعلى، ما يشجع النماذج على تكرار هذا السلوك مع مرور الوقت.
وكشفت دراسة أخرى أجراها باحثون على نماذج "GPT-4o" و"Claude Sonnet" و"Gemini 1.5 Pro" في مجالات مثل الرياضيات والطب، أن هذه الأنظمة عدلت إجاباتها في نحو 60% من الحالات بعد أن شكك المستخدمون في ردودها.
وأظهرت النتائج أن هذا السلوك ليس استثناءً، بل يظهر بشكل متكرر في النماذج المستخدمة على نطاق واسع، إذ بلغت نسب تغيير الإجابات نحو 58% في "GPT-4o"، و56% في "Claude Sonnet"، و61% في "Gemini 1.5 Pro".
وفي أبريل من العام الماضي، برزت هذه المشكلة بشكل أكبر بعد تحديث أطلقته شركة "أوبن إيه آي" لنموذج "GPT-4o"، إذ لاحظ المستخدمون أن "شات جي بي تي" أصبح يميل إلى الموافقة المفرطة. واعترف الرئيس التنفيذي للشركة سام ألتمان بالمشكلة، مؤكدًا أنها خضعت للتعديل، إلا أن أولسون يرى أن أصل المشكلة لا يزال قائمًا.
وأضاف أولسون أن النماذج قد تتخلى عن الأدلة التي تمتلكها، حتى عندما تكون مستندة إلى قواعد بيانات موثوقة أو نتائج بحث حديثة، إذا شعرت بأن المستخدم يضغط باتجاه إجابة مختلفة.
كما تشير الدراسات إلى أن هذه الظاهرة تصبح أكثر وضوحًا في المحادثات الطويلة، إذ تبدأ النماذج تدريجيًا في تبني وجهة نظر المستخدم كلما استمر الحوار لفترة أطول.
ولفت الباحثون أيضًا إلى أن استخدام عبارات بصيغة المتكلم، مثل "أعتقد أن"، يزيد من احتمالات موافقة النموذج للمستخدم مقارنة باستخدام صياغات محايدة أو بصيغة الغائب.
ويرى الباحثون أن الحد من هذه المشكلة ممكن عبر تطوير أساليب تدريب جديدة، مثل "الذكاء الاصطناعي الدستوري"، الذي يعتمد على مجموعة مبادئ ثابتة توجه سلوك النموذج، إلى جانب تحسين طرق تدريب النماذج على التفضيلات، واستخدام أوامر أكثر حيادية، وهو ما قد يقلل من هذا السلوك بنسبة تصل إلى 63% في بعض الحالات.
واختتم أولسون بالإشارة إلى أن المشكلة ترتبط بطبيعة تفاعل النموذج مع المستخدم أكثر من ارتباطها بقدراته المعرفية، موصيًا بطلب تقييم الافتراضات بدلًا من تأكيدها، وتزويد النموذج بسياق كافٍ وطريقة اتخاذ القرار، حتى يتمكن من تقديم إجابات أكثر دقة واتزانًا.