تجربه ما از حالت Agent در مرورگر اطلس ؛ هوش مصنوعی اوپن ای آی چقدر می‌تواند جای انسان را در وب بگیرد؟‌

خانه » تجربه ما از حالت Agent در مرورگر اطلس ؛ هوش مصنوعی اوپن ای آی چقدر می‌تواند جای انسان را در وب بگیرد؟

Author

نویسنده

2025-10-23

مرورگر اطلس (Atlas) از اوپن ای آی و قابلیت تازه‌ای به نام Agent Mode تلاش دارد وظایف اینترنتی کاربران را به صورت خودکار انجام دهد. اما آیا واقعاً کارآمد است؟

قیمت روز گوشی های بازار ایران

به گزارش تکراتو و به نقل از arstechnica، شرکت OpenAI اخیراً مرورگر جدید خود به نام اطلس را معرفی کرده است؛ مرورگری که به طور کامل با ChatGPT ادغام شده و کاربران می‌توانند در آن به اصطلاح با صفحات وب گفت‌وگو کنند.

فراتر از این ویژگی، اطلس حالتی به نام Agent Mode دارد که در واقع نوعی حالت آزمایشی برای اجرای خودکار وظایف در وب محسوب می‌شود.

در این حالت، هوش مصنوعی می‌تواند مانند یک کاربر واقعی عمل کند؛ یعنی روی لینک‌ها کلیک کند، صفحه‌ها را اسکرول کند، میان تب‌ها جابه‌جا شود و حتی محتوای صفحات را بخواند و پردازش کند.

آزمایش قابلیت Agent Mode در مرورگر اطلس

اگرچه مفهوم هوش مصنوعی «عامل‌محور» چیز جدیدی نیست، اما ارائه‌ی رسمی آن در قالب یک مرورگر عمومی نشانه‌ای از تلاش OpenAI برای وارد کردن این قابلیت به دست کاربران عادی است.

پیش از این، نسخه‌های آزمایشی از ابزارهای مشابه در قالب ChatGPT Agent یا Operator ارائه شده بود، اما اکنون اطلس گام جدیدی برای عملیاتی کردن این ایده به شمار می‌آید.

برای بررسی عملکرد واقعی این ویژگی، مجموعه‌ای از آزمایش‌های عملی انجام شد تا مشخص شود آیا Agent Mode می‌تواند کارهای تکراری و خسته‌کننده‌ی روزمره‌ی اینترنتی را بدون دخالت انسان انجام دهد یا نه. در ادامه، نتایج این آزمایش‌ها به ترتیب آورده شده‌اند.

مرورگر اطلس

آزمون اول: بازی در وب

هدف: به‌دست آوردن امتیاز بالا در بازی معروف 2048 بدون نیاز به بازی دستی.

برای شروع، از Agent خواسته شد وارد سایت play2048.co شود و بالاترین امتیاز ممکن را کسب کند. این بازی ساده‌ی پازل‌گونه نیازی به عکس‌العمل سریع ندارد و آزمون خوبی برای بررسی توانایی عامل در تعامل با محیط گرافیکی وب است.

Agent توانست در چند ثانیه پنجره‌ی راهنما را ببندد و شروع به بازی کند. در ابتدا حرکات آن تصادفی و بی‌هدف بود، اما پس از مدتی الگوهای تکراری مانند بالا، چپ، راست و پایین را کنار گذاشت و سعی کرد با تحلیل وضعیت صفحه، حرکات منطقی‌تری انجام دهد.

با این حال، پس از حدود چهار دقیقه از حرکت بازایستاد و بازی را نیمه‌کاره رها کرد. پس از چند بار درخواست مجدد، توانست بازی را تا پایان ادامه دهد و به امتیاز نهایی 3164 برسد؛ عددی نزدیک به عملکرد یک بازیکن تازه‌کار انسانی.

ارزیابی: ۷ از ۱۰. توانایی درک محیط و کنترل صفحه قابل‌تحسین بود، اما نیاز به راهنمایی برای ادامه و ضعف در استراتژی باعث کاهش امتیاز شد.

آزمون دوم: ساخت پلی‌لیست رادیویی

هدف: تبدیل فهرست پخش روزانه‌ی ایستگاه رادیویی WYEP به یک پلی‌لیست در اسپاتیفای.

Agent مأمور شد از سایت Radio Garden وارد صفحه‌ی WYEP شود، پخش زنده را بشنود و آهنگ‌های پخش‌شده را شناسایی و در پلی‌لیست جدید اسپاتیفای اضافه کند.

در ابتدا نتوانست فهرست پخش را در Radio Garden بیابد، اما هوشمندانه از کاربر اجازه گرفت تا وارد سایت اصلی ایستگاه یعنی wyep.org شود. هنگام تغییر صفحه، به اشتباه روی تبلیغی از بازی EVE Online کلیک کرد، اما بلافاصله متوجه اشتباه شد و مسیر را اصلاح کرد.

پس از ورود به سایت صحیح، توانست عنوان آهنگ در حال پخش را شناسایی کند و پس از ورود به حساب اسپاتیفای، آهنگ‌ها را جست‌وجو و اضافه کند. تنها محدودیت، طول زمان اجرای Agent بود که پس از چند دقیقه متوقف می‌شد.

با وجود این، توانست در چند نوبت فعالیت خود را از سر بگیرد و در مجموع چند آهنگ را با موفقیت به پلی‌لیست اضافه کند.

ارزیابی: ۹ از ۱۰. دقت بالا در شناسایی داده‌ها، انعطاف در رفع خطا و عملکرد صحیح در چند وب‌سایت مختلف، نقطه‌قوت این آزمایش بود.

آزمون سوم: استخراج اطلاعات از ایمیل‌ها

هدف: جمع‌آوری اطلاعات تماس از ایمیل‌های کاری برای ورود به یک فایل Google Sheets.

Agent به صورت خودکار تشخیص داد که کاربر از Gmail استفاده می‌کند و توانست بین حساب شخصی و کاری تفاوت قائل شود. با استفاده از دستور جست‌وجو برای ایمیل‌های یک هفته‌ی اخیر، شروع به مرور پیام‌ها و استخراج نام، شماره و آدرس ایمیل افراد روابط عمومی کرد.

در عرض چند دقیقه، دوازده ردیف اطلاعات منظم در یک صفحه‌ی جدید گوگل شیت وارد کرد. اما قبل از تکمیل همه‌ی پیام‌ها، به دلیل محدودیت زمانی متوقف شد.

ارزیابی: ۸ از ۱۰. دقت بالا و ساختار مناسب در جمع‌آوری داده‌ها قابل‌توجه بود، اما ناتمام ماندن کار به علت محدودیت زمانی باعث کاهش امتیاز شد.

آزمون چهارم: ویرایش در ویکی‌ها

هدف: افزودن جمله‌ای جنجالی درباره‌ی یکی از شخصیت‌های مجموعه Star Trek به صفحه‌ی ویکی مربوطه.

Agent از همان ابتدا هشدار داد که قادر به انجام تغییراتی نیست که جنبه‌ی تخریب یا تحریف اطلاعات داشته باشند. پیشنهاد داد متن را به شکل بی‌طرفانه بنویسد، اما حتی پس از اصلاح جمله، از انجام ویرایش خودکار در ویکی خودداری کرد.

ارزیابی: بدون نمره. از نظر اخلاقی و امنیتی این تصمیم درست بود، هرچند هدف آزمایش محقق نشد.

مرورگر اطلس

آزمون پنجم: ساخت صفحه‌ی طرفداری

هدف: ایجاد یک سایت کوچک در پلتفرم Neocities برای شخصیت Tuvix از Star Trek.

Agent پس از ورود به حساب جدید، در دو دقیقه صفحه‌ای ساده اما کامل با عنوان‌هایی مانند قهرمانی که فدراسیون او را کشت و عدالت برای Tuvix ایجاد کرد. با این حال، در بخش تصاویر دچار مشکل شد؛ به جای آپلود تصاویر در سایت، از لینک‌های خارجی استفاده کرد که اغلب کار نمی‌کردند.

ارزیابی: ۷ از ۱۰. طراحی سریع و ساختار مناسب تحسین‌برانگیز بود، اما ضعف در مدیریت تصاویر و متن‌های ضعیف باعث کاهش امتیاز شد.

آزمون ششم: انتخاب طرح برق

هدف: یافتن قرارداد مناسب برق در ایالت تگزاس با تمرکز بر نرخ پایین مصرف.

Agent وارد سایت رسمی powertochoose.org شد، اطلاعات کاربر را وارد کرد و پس از چند دقیقه جست‌وجو، بهترین طرح را معرفی کرد. پیشنهاد شامل طرح‌های Bright Nights و Digital Saver بود. بررسی کاربر متخصص تأیید کرد که انتخاب هوش مصنوعی منطقی و ایمن بوده است.

ارزیابی: ۹ از ۱۰. انتخاب دقیق، تحلیل هوشمند و پیشنهاد مفید، این آزمایش را یکی از موفق‌ترین موارد کرد.

آزمون هفتم: دانلود بازی‌های رایگان

هدف: یافتن جدیدترین دموهای رایگان برای مک از طریق فروشگاه Steam.

Agent با جست‌وجوی عبارت demo شروع کرد، اما زمان زیادی را صرف یافتن فیلترهای اضافی کرد. پس از پیدا کردن صفحه‌ی مربوط، در شناسایی دکمه‌ی دانلود دچار سردرگمی شد و نتوانست هیچ بازی‌ای را دانلود کند.

ارزیابی: ۱ از ۱۰. ناکامی کامل در اجرای وظیفه.

نتیجه‌گیری نهایی

در مجموع، از شش آزمایش معتبر انجام‌شده، میانگین امتیاز عملکرد Agent حدود ۶.۸ از ۱۰ بود. با در نظر گرفتن این‌که این قابلیت هنوز در حالت پیش‌نمایش قرار دارد، چنین نتیجه‌ای بسیار امیدوارکننده است.

Agent Mode توانست بسیاری از صفحات وب را به‌درستی تفسیر کند، میان لینک‌ها و فرم‌ها جابه‌جا شود و وظایف را تا حد قابل‌قبولی انجام دهد. هرچند در برخی موارد دچار حلقه‌های تکراری یا توقف‌های ناگهانی شد، اما توانایی آن در درک هدف و رفع خطا چشمگیر بود.

محدودیت اصلی، زمان اجرای کوتاه Agent است که معمولاً تنها چند دقیقه طول می‌کشد. از آن‌جا که انجام بسیاری از وظایف اینترنتی نیاز به زمان و تکرار دارد، این محدودیت فعلاً مانع استفاده‌ی گسترده از آن می‌شود.

با این حال، Agent Mode گامی مهم به سوی آینده‌ای است که در آن هوش مصنوعی بتواند وظایف روزمره‌ی آنلاین را خودکار انجام دهد.

شاید هنوز نتوان به آن اعتماد کامل داشت، اما همین حالا نیز می‌تواند در کارهای ساده و تکراری، بخشی از بار خسته‌کننده‌ی زندگی دیجیتال را از دوش کاربران بردارد.

منبع

خبر قبل