[
مدلهای جدید هوش مصنوعی ChatGPT قدرتمندتر شدهاند، ولی آمار خطاها و اطلاعات نادرست در آنها رو به افزایش است.
به گزارش تکراتو و به نقل از techradar، افراد باهوش اما غیرقابل اعتماد همیشه در داستانها و حتی تاریخ وجود داشتهاند. حالا به نظر میرسد هوش مصنوعی هم در همین مسیر قرار گرفته است.
طبق بررسیهای شرکت OpenAI که روزنامه New York Times آن را منتشر کرده، پدیدهای به نام “خیالپردازی” یا همان ساخت اطلاعات اشتباه، همچنان یکی از چالشهای بزرگ این فناوری است. در حالی که تصور میشد مدلهای پیشرفتهتر، این اشتباهات را کاهش دهند، آمارها نشان میدهد که موضوع برعکس شده است.
دو مدل جدید OpenAI با نامهای GPT o3 و o4-mini طوری طراحی شدهاند که شبیه منطق انسانی عمل کنند. برخلاف مدلهای قدیمیتر که بیشتر روی تولید متن روان تمرکز داشتند، هدف این مدلها فکر کردن گامبهگام و حل منطقی مسائل بوده است.
حتی OpenAI ادعا کرده بود که مدل o1 میتواند در رشتههایی مثل شیمی، زیستشناسی و ریاضیات، همسطح یا بهتر از دانشجویان دکتری عمل کند. با این حال، گزارش جدید این شرکت زنگ خطر را برای کسانی که پاسخهای ChatGPT را بدون بررسی قبول میکنند، به صدا درآورده است.
در یکی از آزمونهای استاندارد که مربوط به اطلاعات عمومی درباره افراد مشهور بود، مشخص شد که مدل o3 در یکسوم مواقع دچار خیالپردازی شده است. این میزان، دو برابر اشتباهات مدل o1 در سال گذشته است. وضعیت برای مدل کوچکتر o4-mini بدتر هم هست؛ این مدل در ۴۸ درصد موارد اطلاعات ساختگی تولید کرده است.
در آزمونی دیگر با محور اطلاعات عمومی ساده (SimpleQA)، مدل o3 در ۵۱ درصد پاسخها دچار اشتباه شد و o4-mini رکورد نگرانکننده ۷۹ درصد خطا را به ثبت رساند.
این آمارها فقط خطای جزئی نیستند، بلکه به نوعی بحران اعتماد تبدیل شدهاند. از سیستمی که ادعای استدلال دارد انتظار میرود پیش از پاسخگویی منطق خودش را بررسی کند، اما این اتفاق نمیافتد.
یکی از نظریههای رایج بین پژوهشگران هوش مصنوعی این است که هرچه یک مدل بیشتر سعی کند منطقی فکر کند، احتمال خطایش هم بیشتر میشود.
مدلهای ساده فقط پاسخهای با اطمینان بالا میدهند، ولی مدلهای پیشرفتهتر مجبورند مسیرهای مختلف را بررسی کنند، اطلاعات پراکنده را به هم وصل کنند و عملاً دست به بداههپردازی بزنند. و این بداههپردازی، همان چیزی است که به اشتباهات منجر میشود.
البته OpenAI گفته که نمیتوان بهطور قطعی گفت دلیل افزایش خیالپردازیها فقط پیچیدگی مدلهاست. ممکن است دلیلش این باشد که پاسخهای مدلهای جدید، پرحرفتر و ماجراجویانهترند.
آنها فقط به گفتن اطلاعات کلی بسنده نمیکنند، بلکه درباره احتمالات مختلف هم اظهار نظر میکنند. در نتیجه، مرز بین حدس منطقی و اطلاعات ساختگی برایشان مبهم میشود.
اما واقعیت این است که افزایش خطاها چیزی نیست که شرکتهایی مثل OpenAI، Google یا Anthropic بخواهند در محصولاتشان ببینند. وقتی از هوش مصنوعی بهعنوان دستیار و کمککننده یاد میشود، انتظار میرود یاریرسان باشد، نه خطرناک.
قبلاً وکلایی بهخاطر استفاده از ChatGPT و اعتماد به ارجاعات جعلی دادگاه، با دردسرهای حقوقی روبرو شدند. چه بسا موارد مشابه زیادی هم در موقعیتهای کمخطرتر اتفاق افتاده که اصلاً متوجه آن نشدهایم.
با گسترش استفاده از هوش مصنوعی در مدارس، ادارات، بیمارستانها و نهادهای دولتی، فرصتهای بیشتری برای ایجاد مشکل توسط یک پاسخ نادرست فراهم میشود. ممکن است این فناوری در نوشتن رزومه، حل مشکلات مالی یا تحلیل فایلهای اکسل کمک کند، ولی هرچه مفیدتر میشود، اشتباهاتش خطرناکتر هم میشوند.
نمیتوان ادعا کرد که وقت و انرژی کاربران را ذخیره میکند، اگر مجبور باشند هر جملهاش را دوباره بررسی کنند. البته این مدلها در برخی زمینهها عملکرد شگفتانگیزی دارند، مثلاً در برنامهنویسی یا حل مسائل پیچیده منطقی.
حتی در بعضی حوزهها از انسانها بهتر عمل کردهاند. ولی همین که ناگهان بگوید آب در دمای ۸۰ درجه فارنهایت میجوشد یا آبراهام لینکلن مجری پادکست بوده، همه اعتبارش زیر سوال میرود.
تا زمانی که این مشکلات حل نشوند، باید هر پاسخی از هوش مصنوعی را با شک و تردید همراه کرد. گاهی ChatGPT شبیه آن آدمی است که در اکثر جلسات دیدهایم؛ پر از اعتماد به نفس در حالی که نیمی از حرفهایش نادرست است.
منبع ]