OpenAI مدل استدلالی جدید o3-mini را معرفی کرد؛ سریعتر، دقیقتر و ارزانتر از نسخههای قبلی
خانه »
[
OpenAI روز جمعه مدل استدلالی جدید o3-mini را معرفی کرد که جوانترین عضو خانواده مدلهای استدلالی این شرکت محسوب میشود.
OpenAI ابتدا در ماه دسامبر پیشنمایشی از این مدل را همراه با یک سیستم قدرتمندتر به نام o3 ارائه کرد، اما اکنون این مدل در لحظهای کلیدی برای شرکت عرضه شده است؛ در حالی که اهداف و چالشهای OpenAI روزبهروز بیشتر میشوند.
مدل استدلالی جدید o3-mini ؛ قدرتمند و مقرونبهصرفه
OpenAI مدل جدید خود را هم «قدرتمند» و هم «مقرونبهصرفه» توصیف کرده است. یکی از سخنگویان این شرکت در گفتوگو با techcrunch گفت:
«عرضه امروز، گامی مهم در جهت گسترش دسترسی به هوش مصنوعی پیشرفته در راستای مأموریت ما است.»
به گزارش تکراتو به نقل از techcrunch، برخلاف بیشتر مدلهای زبانی بزرگ، مدلهای استدلالی جدید o3-mini قبل از ارائه پاسخ، نتایج خود را بهطور دقیق بررسی میکنند. این روش کمک میکند تا از برخی مشکلاتی که معمولا مدلهای زبانی دچار آن میشوند، جلوگیری شود. اگرچه این مدلها برای یافتن راهحلها کمی بیشتر زمان میبرند، اما در عوض، دقت بیشتری در حوزههایی مانند فیزیک دارند، هرچند که همچنان بینقص نیستند.
o3-mini بهطور ویژه برای حل مسائل STEM (علوم، فناوری، مهندسی و ریاضیات) تنظیم شده و در زمینه برنامهنویسی، ریاضیات و علوم عملکرد مطلوبی دارد. OpenAI ادعا میکند که این مدل از نظر تواناییها، تقریباً همسطح با مدلهای قبلی o1 و o1-mini است، اما سریعتر عمل میکند و هزینه کمتری دارد.
به گفته OpenAI، تستکنندگان خارجی در بیش از نیمی از موارد، پاسخهای o3-mini را نسبت به o1-mini ترجیح دادهاند. همچنین، این مدل 39 درصد اشتباهات کمتری در برابر پرسشهای پیچیده واقعی داشته و در عین حال 24 درصد سریعتر پاسخ داده است.
نحوه دسترسی کاربران به o3-mini
مدل o3-mini از روز جمعه در ChatGPT در دسترس همه کاربران قرار میگیرد، اما کاربران طرحهای پولی ChatGPT پلاس و Team میتوانند با نرخ محدودیت بالاتر (150 پرسش در روز) از آن استفاده کنند.
همچنین، مشترکان ChatGPT Pro بهطور نامحدود به آن دسترسی خواهند داشت. کاربران ChatGPT Enterprise و ChatGPT Edu نیز از هفته آینده میتوانند از این مدل استفاده کنند، اما هنوز خبری درباره ارائه آن در ChatGPT Gov منتشر نشده است.
کاربران طرحهای پولی میتوانند از منوی ChatGPT، مدل o3-mini را انتخاب کنند، در حالی که کاربران رایگان میتوانند دکمه جدید «Reason» را در نوار گفتگو انتخاب کرده یا درخواست بازتولید پاسخ را بدهند.
علاوه بر این، OpenAI از روز جمعه o3-mini را از طریق API خود برای تعدادی از توسعهدهندگان ارائه خواهد کرد، اما در مرحله اولیه از تحلیل تصاویر پشتیبانی نمیکند. توسعهدهندگان میتوانند میزان «تلاش استدلالی» مدل را در سه سطح کم، متوسط و زیاد تنظیم کنند تا بین دقت و سرعت پردازش، تعادل موردنظر خود را برقرار کنند.
قیمتگذاری و رقابت با DeepSeek
هزینه o3-mini در API بهصورت زیر تعیین شده است:
0.55 دلار به ازای هر یک میلیون توکن ورودی کششده
4.40 دلار به ازای هر یک میلیون توکن خروجی
(یک میلیون توکن تقریبا معادل 750,000 کلمه است.)
این قیمت 63 درصد ارزانتر از o1-mini است و در رقابت با مدل R1 از شرکت DeepSeek قرار دارد. مدل R1 با قیمت 0.14 دلار برای توکنهای ورودی و 2.19 دلار برای توکنهای خروجی ارائه میشود.
در ChatGPT، سطح تلاش استدلالی o3-mini بهصورت متوسط تنظیم شده که به گفته OpenAI، تعادل مناسبی بین سرعت و دقت ایجاد میکند. کاربران طرحهای پولی همچنین میتوانند از نسخه «o3-mini-high» استفاده کنند که پاسخهای دقیقتری ارائه میدهد، اما با سرعت پایینتر.
صرفنظر از اینکه کدام نسخه از o3-mini انتخاب شود، این مدل قابلیت جستجو را خواهد داشت تا پاسخهای بهروز همراه با لینک به منابع معتبر ارائه کند. البته، OpenAI تأکید کرده که این قابلیت هنوز در مرحله آزمایشی است و در حال کار بر روی یکپارچهسازی کامل آن با مدلهای استدلالی خود است.
مقایسه عملکرد o3-mini با رقبا
o3-mini قویترین مدل OpenAI تاکنون نیست و در برخی آزمونها، DeepSeek R1 از آن پیشی میگیرد.
این مدل در آزمون AIME 2024، که توانایی درک و اجرای دستورالعملهای پیچیده را ارزیابی میکند، بهتر از R1 عمل کرده، اما فقط در سطح تلاش استدلالی بالا. همچنین، در آزمون SWE-bench Verified، که بر روی برنامهنویسی تمرکز دارد، تنها با 0.1 امتیاز برتری از R1 پیشی گرفته است. در سطح تلاش استدلالی کم، o3-mini در آزمون GPQA Diamond، که شامل سوالات سطح دکتری در حوزههای فیزیک، زیستشناسی و شیمی است، از R1 عقب میماند.
با این حال، o3-mini در بسیاری از موارد، پاسخهایی دقیق و با هزینه و زمان پردازش کمتر ارائه میدهد. OpenAI عملکرد این مدل را در مقایسه با خانواده o1 اینگونه توصیف میکند:
با تلاش استدلالی کم، o3-mini عملکردی مشابه o1-mini دارد.
با تلاش استدلالی متوسط، o3-mini به o1 نزدیک میشود، اما سریعتر پاسخ میدهد.
با تلاش استدلالی بالا، o3-mini از هر دو مدل o1 و o1-mini بهتر عمل میکند.
البته، برتری o3-mini نسبت به o1 در برخی حوزهها ناچیز است. برای مثال، در آزمون AIME 2024، این مدل تنها 0.3 درصد بهتر از o1 در سطح تلاش استدلالی بالا عمل کرده است. همچنین، در GPQA Diamond، حتی در بالاترین سطح تلاش استدلالی نیز از o1 برتر نیست.
OpenAI ادعا میکند که o3-mini از نظر ایمنی، همسطح یا حتی ایمنتر از خانواده o1 است. این شرکت از روش “ترازسازی تأملی” استفاده میکند که باعث میشود مدل هنگام پاسخگویی، سیاستهای ایمنی OpenAI را در نظر بگیرد. همچنین، OpenAI اعلام کرده که o3-mini در آزمایشهای ایمنی و جلوگیری از سوءاستفاده، عملکردی بسیار بهتر از مدل پرچمدار این شرکت یعنی GPT-4o داشته است.
منبع ]