ماه گذشته شرکت اوپن اِیآی (Open AI) چندین بروزرسانی را برای مدل GPT-4o منتشر کرد. این اتفاق پس از این روی داد که چند کاربر، شامل مدیرعامل سابق OpenAI، آقای Emmet Shear و مسئول اجرایی ارشد Hugging Face، آقای Clement Delangue اعلام کردند که این مدل بیش ازحد چاپلوسی کاربران را انجام میدهد.
این چاپلوسی، اغلب باعث تسلیم شدن GPT-4o در مقابل سلیقهی کاربران، مؤدب بودن بیش از حد و عدم مخالفت دربارهی تمام موضوعات شد. بهعلاوه، این موضوع بسیار آزاردهنده بود؛ این چاپلوسی امکان دارد تا باعث پخش اطلاعات نادرست و تاکید روی رفتارهای آسیبزا توسط GPT-4o شود. و از آنجا که کسبوکارها شروع به ساخت اپلیکیشنها و عاملهای مبتنی بر این مدلهای زبانی چاپلوس میکنند، خطر موافقت این مدلها با تصمیمهای تجاری مضر، تشویق انتشار اطلاعات نادرست توسط عاملهای هوش مصنوعی و تأثیر منفی بر سیاستهای اعتماد و امنیت وجود دارد.
محققان دانشگاه استنفورد (Stanford University)، دانشگاه کارنگی ملون (Carnegie Mellon University) و دانشگاه آکسفورد (University of Oxford) تلاش کردند با ارائه یک معیار سنجش جدید، این وضعیت را تغییر دهند. آنها این معیار را فیل (Elephant) نامیدند که مخفف ارزیابی مدلهای زبانی بزرگ به عنوان چاپلوسهای افراطی است و دریافتند که هر مدل زبانی بزرگ تا حدی چاپلوسی نشان میدهد. این معیار میتواند با درک نحوهی چاپلوسی این مدلها به کسبوکارها در تدوین راهنماها در زمان استفاده از مدلهای زبانی کمک کند.
برای آزمایش این معیار، محققان مدلها را به دو مجموعه داده مشاوره شخصی ارجاع دادند: ۱- QEQ، مجموعهای از سؤالات مشاوره شخصی با پایان باز دربارهی موقعیتهای دنیای واقعی. ۲-AITA، پستهای سابردیت (Subreddit) r/AmITheAsshole، که در آن کاربران درباره مناسب بودن یا نبودن رفتار افراد در موقعیتهای مختلف قضاوت میکنند.
هدف از این آزمایش مشاهدهی نحوهی رفتار مدلها در زمان مواجهه با پرس و جو است. این موضوع میتواند چیزی که محققان آن را چاپلوسی اجتماعی مینامند را ارزیابی کند؛ یعنی آیا مدلها سعی میکنند آبروی کاربر را حفظ کنند یا تصورات از خودشان یا هویت اجتماعی.
پرسشهای اجتماعی مخفی بیشتر دقیقا همان چیزهایی هستند که این معیارها هدف قرار دادهاند. در عوض کارهای قبلی که تنها روی توافق نامههای براساس حقیقت یا باورهای صریح تمرکز کرده بودند، این معیارها میزان موافقت یا چاپلوسی را براساس فرضهای مخفی یا ضمنی بیشتری ارزیابی میکنند. یکی از محققان و نویسندگان این مقاله، خانم Myra Cheng به رسانهی VentureBeat گفت: «ما انتخاب کردیم تا دامنهی مشاورههای شخصی را بررسی کنیم؛ بهاین خاطر که میزان آسیبهای ناشی از چاپلوسی در این زمینه بیشتر هستند. اما همچنین تعریف کردنهای معمولی نیز با استفاده از رفتارهای اعتبارسنجی احساسی، ارزیابی میشوند.»
آزمایش کردن مدلها
محققان برای این آزمایش، اطلاعات را از طریق QEQ و AITA به مدلهای هوش مصنوعی مختلفی وارد کردند. این مدلها شامل موارد زیر هستند:
GPT-4o شرکت اوپن ایآی، Gemini 1.5 شرکت گوگل، Claude Sonnet 3.7 شرکت Anthropic، مدلهای Open Weight شرکت مِتا (مدلهایی که پارامترهای داخلی آنها به صورت عمومی و قابل دسترس منتشر میشود) شامل Llama 3-8B-Instruct, Llama 4-Scout-17B-16-E and Llama 3.3-70B-Instruct- Turbo و همچنین 7B-Instruct-v0.3 and the Mistral Small- 24B-Instruct2501 از شرکت Mistral
خانم Myra Cheng گفت که آنها مدلها را با استفاده از رابط برنامهنویسی GPT-4o ارزیابی کردند، که از نسخهی اواخر سال ۲۰۲۴ استفاده میکند؛ یعنی قبل از اینکه شرکت اوپنایآی مدل جدیدِ بیشازحد چاپلوس را پیادهسازی کند و سپس آن را به حالت قبلی برگرداند.
برای اندازهگیری میزان چاپلوسی، شیوهی «فیل» (که پیش از این توضیح داده شد) به ۵ نوع رفتار که مرتبط با چاپلوسی اجتماعی هستند، نگاه میکند.
اعتبارسنجی احساسی یا همدلی بیش از حد بدون هیچگونه نقد کردنتایید اخلاقی یا اعلام اینکه کاربران در هر شرایطی از نظر اخلاقی در موضع درستی هستند؛ حتی در زمانی که اینطور نیستزبان غیرمستقیم در زمانی که مدل از ارائهی پیشنهادهای مستقیم طفره میرودعمل غیرمستقیم یا زمانی که مدل به سازوکارهای مقابلهی غیرفعال توصیه میکندپذیرش چارچوببندیهایی که پیشفرضهای مشکلدار را به چالش نمیکشند
این آزمایش مشاهده کرد که این مدلهای زبانی، همگی سطح بالایی از چاپلوسی را نمایش میدهند؛ یعنی سطحی حتی بالاتر از انسانها و مشخص کردند که کاهش دادن این چاپلوسی اجتماعی بسیار دشوار است. برای تفاوت مدلها نیز ، مدل GPT-4o بالاترین میزان چاپلوسی و مدل Gemini-1.5 پایینترین میزان را در بین تمامی مدلها در این آزمایش از خود نشان دادند.
همچنین این مدلهای زبانی، برخی از جهتگیریهای موجود در مجموعه دادهها را نیز تقویت کردند. این مقاله اعلام کرده که در بعضی پستهای روی AITA جهتگیریهای جنسیتی وجود داشت و در آن پستهایی که به همسران زن یا شریکان زندگی دختر اشاره شده بود، بیشتر به عنوان نامناسب از نظر اجتماعی به درستی پرچمگذاری شدهاند. و در همین حال پستهایی که به شوهران، شریکان زندگی پسر، پدران یا مادران اشاره کرده بودند، به اشتباه طبقهبندی شدهاند. محققان اعلام کردند که مدلها ممکن است از الگوهای جنسیتیِ از پیش تعیین شده برای سرزنش کردنِ بیش از حد یا کمتر از حد لازم استفاده کنند. به عبارت دیگر، مدلها در برابر افرادی که شریک زندگی پسر یا شوهر داشتند بسیار چاپلوسانهتر رفتار میکردند تا کسانی که شریک زندگی دختر یا همسر زن داشتند.
دلایل اهمیت این موضوع
بسیار خوب است اگر یک چتبات با شما به عنوان یک موجود همدل صحبت کند یا اینکه نظرات شما را تایید کند. ولی این چاپلوسی، نگرانیهایی دربارهی حمایت از بیانیههای غلط یا نگران کننده را بوجود میآورد و در یک مرحلهی شخصی میتواند کاربر را به رفتارهای خطرآفرین، توهمات و تنهایی تشویق کند.
کسب و کارها مایل نیستند که برنامههای هوش مصنوعی آنها که با مدلهای زبانی ساخته شدهاند به خاطر راضینگهداشتن کاربران، اطلاعات نادرست منتشر کنند. این رفتار ممکن است با لحن یا اصول اخلاقی سازمان همسو نباشد و برای کارکنان و کاربران نهایی پلتفرمهای آنها بسیار آزاردهنده شود.
محققان اعلام کردند که شیوهی «فیل» و آزمایشات بیشتر، میتوانند به ساخت چارچوبهای بهتر و مقابله با افزایش چاپلوسی در این مدلهای زبانی هوش مصنوعی کمک کنند.