شرکت OpenAI دو مدل جدید هوش مصنوعی با نام gpt-oss معرفی کرده که برخلاف مدلهای قبلی، قابل دانلود و اجرا روی سیستمهای شخصی هستند.
به گزارش تکراتو و به نقل از arstechnica، اوپن ای آی امروز از دو مدل متنباز جدید خود با نام gpt-oss-120b و gpt-oss-20b رونمایی کرد.
این اولین مدلهای با وزن باز از زمان معرفی GPT-2 در سال ۲۰۱۹ هستند و میتوان آنها را مستقیماً روی سختافزار شخصی اجرا کرد. این مدلها از قابلیتهایی مانند شبیهسازی استدلال، استفاده از ابزارها و سفارشیسازی عمیق پشتیبانی میکنند.
مدلهای اختصاصی OpenAI معمولاً روی سرورهای قدرتمند ابری اجرا میشوند، اما این مدلهای جدید برای اجرا روی سیستمهایی با سختافزار متوسط طراحی شدهاند.
هر دو مدل از نوع ترنسفورمر هستند و قابلیت تنظیم زنجیره استدلال (CoT) دارند که میتوان آن را روی سطح پایین، متوسط یا بالا تنظیم کرد. سطح بالاتر خروجی دقیقتری ارائه میدهد اما منابع بیشتری مصرف میکند.
مدل کوچکتر یعنی gpt-oss-20b دارای ۲۱ میلیارد پارامتر است که با استفاده از تکنیک Mixture-of-Experts این مقدار به ۳.۶ میلیارد پارامتر به ازای هر توکن کاهش مییابد. مدل بزرگتر gpt-oss-120b نیز ۱۱۷ میلیارد پارامتر دارد که به ۵.۱ میلیارد پارامتر به ازای هر توکن میرسد.
مدل کوچک را میتوان روی سیستمهای معمولی با حداقل ۱۶ گیگابایت رم اجرا کرد، در حالی که مدل بزرگ به ۸۰ گیگابایت رم نیاز دارد و بیشتر مناسب کارتهای گرافیکی پیشرفته مانند Nvidia H100 است. هر دو مدل از پنجره متنی با ظرفیت ۱۲۸ هزار توکن پشتیبانی میکنند.
به گفته تیم OpenAI، عملکرد این مدلها نزدیک به مدلهای ابری اختصاصی این شرکت است. مدل بزرگتر در بیشتر آزمونها بین مدلهای o3 و o4-mini قرار میگیرد و مدل کوچک نیز اندکی عقبتر است. بهخصوص در وظایف ریاضی و برنامهنویسی عملکرد خوبی دارند.
در آزمون دانشمحور Humanity’s Last Exam، مدل o3 با ابزارها ۲۴.۹ درصد موفق بوده، در حالی که gpt-oss-120b تنها به ۱۹ درصد رسیده است. برای مقایسه، مدل Gemini Deep Think گوگل در همین آزمون ۳۴.۸ درصد نتیجه گرفته است.
OpenAI اعلام کرده هدفش از ارائه این مدلها، جایگزین کردن آنها با مدلهای اصلی GPT نبوده و این مدلهای جدید محدودیتهایی دارند؛ مثلاً فقط متنی هستند و از چندحالته بودن (مثل تصویر و صدا) پشتیبانی نمیکنند. اما استفاده محلی از این مدلها میتواند تاخیر را کاهش دهد، قابلیت سفارشیسازی را بالا ببرد و امنیت دادههای حساس را حفظ کند.
با توجه به متنباز بودن این مدلها و انتشار آنها تحت مجوز Apache 2.0، توسعهدهندگان میتوانند آنها را برای کاربردهای خاص خود تنظیم کنند. اگرچه OpenAI در مدلهای خود محدودیتهایی برای جلوگیری از استفادههای مخرب در نظر گرفته، اما قدرت مدلهای gpt-oss نسبت به GPT-2 بسیار بیشتر است.
برای بررسی جنبههای ایمنی، OpenAI عمداً سعی کرده نسخهای از این مدلها را به رفتارهای مخرب سوق دهد، اما به گفته تیم توسعه، حتی در بدترین حالتها، عملکرد مدل در انجام کارهای شرورانه ضعیف باقی مانده است.
به گفته شرکت، این موضوع نشاندهنده موفقیت رویکردهای تنظیمی و سلسلهمراتب دستوری آنها در جلوگیری از سوءاستفادههای جدی است.
اگر دوست دارید خودتان این مدلها را امتحان کنید، هماکنون میتوانید gpt-oss-120b و gpt-oss-20b را از سایت HuggingFace دانلود کنید. همچنین مخازن گیتهاب و نسخههای آماده تست این مدلها روی زیرساخت OpenAI در دسترس قرار گرفتهاند. برای علاقهمندان به جزئیات فنی، یک کارت مدل و پست تحقیقاتی نیز منتشر شده است.