مرورگر اطلس (Atlas) از اوپن ای آی و قابلیت تازهای به نام Agent Mode تلاش دارد وظایف اینترنتی کاربران را به صورت خودکار انجام دهد. اما آیا واقعاً کارآمد است؟
به گزارش تکراتو و به نقل از arstechnica، شرکت OpenAI اخیراً مرورگر جدید خود به نام اطلس را معرفی کرده است؛ مرورگری که به طور کامل با ChatGPT ادغام شده و کاربران میتوانند در آن به اصطلاح با صفحات وب گفتوگو کنند.
فراتر از این ویژگی، اطلس حالتی به نام Agent Mode دارد که در واقع نوعی حالت آزمایشی برای اجرای خودکار وظایف در وب محسوب میشود.
در این حالت، هوش مصنوعی میتواند مانند یک کاربر واقعی عمل کند؛ یعنی روی لینکها کلیک کند، صفحهها را اسکرول کند، میان تبها جابهجا شود و حتی محتوای صفحات را بخواند و پردازش کند.
آزمایش قابلیت Agent Mode در مرورگر اطلس
اگرچه مفهوم هوش مصنوعی «عاملمحور» چیز جدیدی نیست، اما ارائهی رسمی آن در قالب یک مرورگر عمومی نشانهای از تلاش OpenAI برای وارد کردن این قابلیت به دست کاربران عادی است.
پیش از این، نسخههای آزمایشی از ابزارهای مشابه در قالب ChatGPT Agent یا Operator ارائه شده بود، اما اکنون اطلس گام جدیدی برای عملیاتی کردن این ایده به شمار میآید.
برای بررسی عملکرد واقعی این ویژگی، مجموعهای از آزمایشهای عملی انجام شد تا مشخص شود آیا Agent Mode میتواند کارهای تکراری و خستهکنندهی روزمرهی اینترنتی را بدون دخالت انسان انجام دهد یا نه. در ادامه، نتایج این آزمایشها به ترتیب آورده شدهاند.
مرورگر اطلس
آزمون اول: بازی در وب
هدف: بهدست آوردن امتیاز بالا در بازی معروف 2048 بدون نیاز به بازی دستی.
برای شروع، از Agent خواسته شد وارد سایت play2048.co شود و بالاترین امتیاز ممکن را کسب کند. این بازی سادهی پازلگونه نیازی به عکسالعمل سریع ندارد و آزمون خوبی برای بررسی توانایی عامل در تعامل با محیط گرافیکی وب است.
Agent توانست در چند ثانیه پنجرهی راهنما را ببندد و شروع به بازی کند. در ابتدا حرکات آن تصادفی و بیهدف بود، اما پس از مدتی الگوهای تکراری مانند بالا، چپ، راست و پایین را کنار گذاشت و سعی کرد با تحلیل وضعیت صفحه، حرکات منطقیتری انجام دهد.
با این حال، پس از حدود چهار دقیقه از حرکت بازایستاد و بازی را نیمهکاره رها کرد. پس از چند بار درخواست مجدد، توانست بازی را تا پایان ادامه دهد و به امتیاز نهایی 3164 برسد؛ عددی نزدیک به عملکرد یک بازیکن تازهکار انسانی.
ارزیابی: ۷ از ۱۰. توانایی درک محیط و کنترل صفحه قابلتحسین بود، اما نیاز به راهنمایی برای ادامه و ضعف در استراتژی باعث کاهش امتیاز شد.
آزمون دوم: ساخت پلیلیست رادیویی
هدف: تبدیل فهرست پخش روزانهی ایستگاه رادیویی WYEP به یک پلیلیست در اسپاتیفای.
Agent مأمور شد از سایت Radio Garden وارد صفحهی WYEP شود، پخش زنده را بشنود و آهنگهای پخششده را شناسایی و در پلیلیست جدید اسپاتیفای اضافه کند.
در ابتدا نتوانست فهرست پخش را در Radio Garden بیابد، اما هوشمندانه از کاربر اجازه گرفت تا وارد سایت اصلی ایستگاه یعنی wyep.org شود. هنگام تغییر صفحه، به اشتباه روی تبلیغی از بازی EVE Online کلیک کرد، اما بلافاصله متوجه اشتباه شد و مسیر را اصلاح کرد.
پس از ورود به سایت صحیح، توانست عنوان آهنگ در حال پخش را شناسایی کند و پس از ورود به حساب اسپاتیفای، آهنگها را جستوجو و اضافه کند. تنها محدودیت، طول زمان اجرای Agent بود که پس از چند دقیقه متوقف میشد.
با وجود این، توانست در چند نوبت فعالیت خود را از سر بگیرد و در مجموع چند آهنگ را با موفقیت به پلیلیست اضافه کند.
ارزیابی: ۹ از ۱۰. دقت بالا در شناسایی دادهها، انعطاف در رفع خطا و عملکرد صحیح در چند وبسایت مختلف، نقطهقوت این آزمایش بود.
آزمون سوم: استخراج اطلاعات از ایمیلها
هدف: جمعآوری اطلاعات تماس از ایمیلهای کاری برای ورود به یک فایل Google Sheets.
Agent به صورت خودکار تشخیص داد که کاربر از Gmail استفاده میکند و توانست بین حساب شخصی و کاری تفاوت قائل شود. با استفاده از دستور جستوجو برای ایمیلهای یک هفتهی اخیر، شروع به مرور پیامها و استخراج نام، شماره و آدرس ایمیل افراد روابط عمومی کرد.
در عرض چند دقیقه، دوازده ردیف اطلاعات منظم در یک صفحهی جدید گوگل شیت وارد کرد. اما قبل از تکمیل همهی پیامها، به دلیل محدودیت زمانی متوقف شد.
ارزیابی: ۸ از ۱۰. دقت بالا و ساختار مناسب در جمعآوری دادهها قابلتوجه بود، اما ناتمام ماندن کار به علت محدودیت زمانی باعث کاهش امتیاز شد.
آزمون چهارم: ویرایش در ویکیها
هدف: افزودن جملهای جنجالی دربارهی یکی از شخصیتهای مجموعه Star Trek به صفحهی ویکی مربوطه.
Agent از همان ابتدا هشدار داد که قادر به انجام تغییراتی نیست که جنبهی تخریب یا تحریف اطلاعات داشته باشند. پیشنهاد داد متن را به شکل بیطرفانه بنویسد، اما حتی پس از اصلاح جمله، از انجام ویرایش خودکار در ویکی خودداری کرد.
ارزیابی: بدون نمره. از نظر اخلاقی و امنیتی این تصمیم درست بود، هرچند هدف آزمایش محقق نشد.
مرورگر اطلس
آزمون پنجم: ساخت صفحهی طرفداری
هدف: ایجاد یک سایت کوچک در پلتفرم Neocities برای شخصیت Tuvix از Star Trek.
Agent پس از ورود به حساب جدید، در دو دقیقه صفحهای ساده اما کامل با عنوانهایی مانند قهرمانی که فدراسیون او را کشت و عدالت برای Tuvix ایجاد کرد. با این حال، در بخش تصاویر دچار مشکل شد؛ به جای آپلود تصاویر در سایت، از لینکهای خارجی استفاده کرد که اغلب کار نمیکردند.
ارزیابی: ۷ از ۱۰. طراحی سریع و ساختار مناسب تحسینبرانگیز بود، اما ضعف در مدیریت تصاویر و متنهای ضعیف باعث کاهش امتیاز شد.
آزمون ششم: انتخاب طرح برق
هدف: یافتن قرارداد مناسب برق در ایالت تگزاس با تمرکز بر نرخ پایین مصرف.
Agent وارد سایت رسمی powertochoose.org شد، اطلاعات کاربر را وارد کرد و پس از چند دقیقه جستوجو، بهترین طرح را معرفی کرد. پیشنهاد شامل طرحهای Bright Nights و Digital Saver بود. بررسی کاربر متخصص تأیید کرد که انتخاب هوش مصنوعی منطقی و ایمن بوده است.
ارزیابی: ۹ از ۱۰. انتخاب دقیق، تحلیل هوشمند و پیشنهاد مفید، این آزمایش را یکی از موفقترین موارد کرد.
آزمون هفتم: دانلود بازیهای رایگان
هدف: یافتن جدیدترین دموهای رایگان برای مک از طریق فروشگاه Steam.
Agent با جستوجوی عبارت demo شروع کرد، اما زمان زیادی را صرف یافتن فیلترهای اضافی کرد. پس از پیدا کردن صفحهی مربوط، در شناسایی دکمهی دانلود دچار سردرگمی شد و نتوانست هیچ بازیای را دانلود کند.
ارزیابی: ۱ از ۱۰. ناکامی کامل در اجرای وظیفه.
نتیجهگیری نهایی
در مجموع، از شش آزمایش معتبر انجامشده، میانگین امتیاز عملکرد Agent حدود ۶.۸ از ۱۰ بود. با در نظر گرفتن اینکه این قابلیت هنوز در حالت پیشنمایش قرار دارد، چنین نتیجهای بسیار امیدوارکننده است.
Agent Mode توانست بسیاری از صفحات وب را بهدرستی تفسیر کند، میان لینکها و فرمها جابهجا شود و وظایف را تا حد قابلقبولی انجام دهد. هرچند در برخی موارد دچار حلقههای تکراری یا توقفهای ناگهانی شد، اما توانایی آن در درک هدف و رفع خطا چشمگیر بود.
محدودیت اصلی، زمان اجرای کوتاه Agent است که معمولاً تنها چند دقیقه طول میکشد. از آنجا که انجام بسیاری از وظایف اینترنتی نیاز به زمان و تکرار دارد، این محدودیت فعلاً مانع استفادهی گسترده از آن میشود.
با این حال، Agent Mode گامی مهم به سوی آیندهای است که در آن هوش مصنوعی بتواند وظایف روزمرهی آنلاین را خودکار انجام دهد.
شاید هنوز نتوان به آن اعتماد کامل داشت، اما همین حالا نیز میتواند در کارهای ساده و تکراری، بخشی از بار خستهکنندهی زندگی دیجیتال را از دوش کاربران بردارد.