OpenAI مدل استدلالی جدید o3-mini را معرفی کرد؛ سریع‌تر، دقیق‌تر و ارزان‌تر از نسخه‌های قبلی‌

خانه » OpenAI مدل استدلالی جدید o3-mini را معرفی کرد؛ سریع‌تر، دقیق‌تر و ارزان‌تر از نسخه‌های قبلی

Author

نویسنده

2025-02-01

[

OpenAI روز جمعه مدل استدلالی جدید o3-mini را معرفی کرد که جوانترین عضو خانواده مدل‌های استدلالی این شرکت محسوب می‌شود.

OpenAI ابتدا در ماه دسامبر پیش‌نمایشی از این مدل را همراه با یک سیستم قدرتمندتر به نام o3 ارائه کرد، اما اکنون این مدل در لحظه‌ای کلیدی برای شرکت عرضه شده است؛ در حالی که اهداف و چالش‌های OpenAI روزبه‌روز بیشتر می‌شوند.

راهنمای خرید تکراتو

مدل استدلالی جدید o3-mini ؛ قدرتمند و مقرون‌به‌صرفه

OpenAI مدل جدید خود را هم «قدرتمند» و هم «مقرون‌به‌صرفه» توصیف کرده است. یکی از سخنگویان این شرکت در گفت‌وگو با techcrunch گفت:

«عرضه امروز، گامی مهم در جهت گسترش دسترسی به هوش مصنوعی پیشرفته در راستای مأموریت ما است.»

به گزارش تکراتو به نقل از techcrunch، برخلاف بیشتر مدل‌های زبانی بزرگ، مدل‌های استدلالی جدید o3-mini قبل از ارائه پاسخ، نتایج خود را به‌طور دقیق بررسی می‌کنند. این روش کمک می‌کند تا از برخی مشکلاتی که معمولا مدل‌های زبانی دچار آن می‌شوند، جلوگیری شود. اگرچه این مدل‌ها برای یافتن راه‌حل‌ها کمی بیشتر زمان می‌برند، اما در عوض، دقت بیشتری در حوزه‌هایی مانند فیزیک دارند، هرچند که همچنان بی‌نقص نیستند.

o3-mini به‌طور ویژه برای حل مسائل STEM (علوم، فناوری، مهندسی و ریاضیات) تنظیم شده و در زمینه برنامه‌نویسی، ریاضیات و علوم عملکرد مطلوبی دارد. OpenAI ادعا می‌کند که این مدل از نظر توانایی‌ها، تقریباً هم‌سطح با مدل‌های قبلی o1 و o1-mini است، اما سریع‌تر عمل می‌کند و هزینه کمتری دارد.

به گفته OpenAI، تست‌کنندگان خارجی در بیش از نیمی از موارد، پاسخ‌های o3-mini را نسبت به o1-mini ترجیح داده‌اند. همچنین، این مدل 39 درصد اشتباهات کمتری در برابر پرسش‌های پیچیده واقعی داشته و در عین حال 24 درصد سریع‌تر پاسخ داده است.

نحوه دسترسی کاربران به o3-mini

مدل o3-mini از روز جمعه در ChatGPT در دسترس همه کاربران قرار می‌گیرد، اما کاربران طرح‌های پولی ChatGPT پلاس و Team می‌توانند با نرخ محدودیت بالاتر (150 پرسش در روز) از آن استفاده کنند.

همچنین، مشترکان ChatGPT Pro به‌طور نامحدود به آن دسترسی خواهند داشت. کاربران ChatGPT Enterprise و ChatGPT Edu نیز از هفته آینده می‌توانند از این مدل استفاده کنند، اما هنوز خبری درباره ارائه آن در ChatGPT Gov منتشر نشده است.

کاربران طرح‌های پولی می‌توانند از منوی ChatGPT، مدل o3-mini را انتخاب کنند، در حالی که کاربران رایگان می‌توانند دکمه جدید «Reason» را در نوار گفتگو انتخاب کرده یا درخواست بازتولید پاسخ را بدهند.

علاوه بر این، OpenAI از روز جمعه o3-mini را از طریق API خود برای تعدادی از توسعه‌دهندگان ارائه خواهد کرد، اما در مرحله اولیه از تحلیل تصاویر پشتیبانی نمی‌کند. توسعه‌دهندگان می‌توانند میزان «تلاش استدلالی» مدل را در سه سطح کم، متوسط و زیاد تنظیم کنند تا بین دقت و سرعت پردازش، تعادل موردنظر خود را برقرار کنند.

قیمت‌گذاری و رقابت با DeepSeek

هزینه o3-mini در API به‌صورت زیر تعیین شده است:

0.55 دلار به ازای هر یک میلیون توکن ورودی کش‌شده
4.40 دلار به ازای هر یک میلیون توکن خروجی

(یک میلیون توکن تقریبا معادل 750,000 کلمه است.)

این قیمت 63 درصد ارزان‌تر از o1-mini است و در رقابت با مدل R1 از شرکت DeepSeek قرار دارد. مدل R1 با قیمت 0.14 دلار برای توکن‌های ورودی و 2.19 دلار برای توکن‌های خروجی ارائه می‌شود.

در ChatGPT، سطح تلاش استدلالی o3-mini به‌صورت متوسط تنظیم شده که به گفته OpenAI، تعادل مناسبی بین سرعت و دقت ایجاد می‌کند. کاربران طرح‌های پولی همچنین می‌توانند از نسخه «o3-mini-high» استفاده کنند که پاسخ‌های دقیق‌تری ارائه می‌دهد، اما با سرعت پایین‌تر.

صرف‌نظر از اینکه کدام نسخه از o3-mini انتخاب شود، این مدل قابلیت جستجو را خواهد داشت تا پاسخ‌های به‌روز همراه با لینک به منابع معتبر ارائه کند. البته، OpenAI تأکید کرده که این قابلیت هنوز در مرحله آزمایشی است و در حال کار بر روی یکپارچه‌سازی کامل آن با مدل‌های استدلالی خود است.

مقایسه عملکرد o3-mini با رقبا

o3-mini قوی‌ترین مدل OpenAI تاکنون نیست و در برخی آزمون‌ها، DeepSeek R1 از آن پیشی می‌گیرد.

این مدل در آزمون AIME 2024، که توانایی درک و اجرای دستورالعمل‌های پیچیده را ارزیابی می‌کند، بهتر از R1 عمل کرده، اما فقط در سطح تلاش استدلالی بالا. همچنین، در آزمون SWE-bench Verified، که بر روی برنامه‌نویسی تمرکز دارد، تنها با 0.1 امتیاز برتری از R1 پیشی گرفته است. در سطح تلاش استدلالی کم، o3-mini در آزمون GPQA Diamond، که شامل سوالات سطح دکتری در حوزه‌های فیزیک، زیست‌شناسی و شیمی است، از R1 عقب می‌ماند.

با این حال، o3-mini در بسیاری از موارد، پاسخ‌هایی دقیق و با هزینه و زمان پردازش کمتر ارائه می‌دهد. OpenAI عملکرد این مدل را در مقایسه با خانواده o1 این‌گونه توصیف می‌کند:

با تلاش استدلالی کم، o3-mini عملکردی مشابه o1-mini دارد.
با تلاش استدلالی متوسط، o3-mini به o1 نزدیک می‌شود، اما سریع‌تر پاسخ می‌دهد.
با تلاش استدلالی بالا، o3-mini از هر دو مدل o1 و o1-mini بهتر عمل می‌کند.

البته، برتری o3-mini نسبت به o1 در برخی حوزه‌ها ناچیز است. برای مثال، در آزمون AIME 2024، این مدل تنها 0.3 درصد بهتر از o1 در سطح تلاش استدلالی بالا عمل کرده است. همچنین، در GPQA Diamond، حتی در بالاترین سطح تلاش استدلالی نیز از o1 برتر نیست.

OpenAI ادعا می‌کند که o3-mini از نظر ایمنی، هم‌سطح یا حتی ایمن‌تر از خانواده o1 است. این شرکت از روش “ترازسازی تأملی” استفاده می‌کند که باعث می‌شود مدل هنگام پاسخگویی، سیاست‌های ایمنی OpenAI را در نظر بگیرد. همچنین، OpenAI اعلام کرده که o3-mini در آزمایش‌های ایمنی و جلوگیری از سوءاستفاده، عملکردی بسیار بهتر از مدل پرچم‌دار این شرکت یعنی GPT-4o داشته است.

منبع ]

خبر قبل