logo logo

موضوع وبلاگ، اخبار و مجله نسل بعدی برای شما برای شروع به اشتراک گذاری داستان های خود از امروز!

اپل

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدیوهای بلند را درک کند‌

خانه » اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدیوهای بلند را درک کند

avatar
Author

نویسنده


  • 2025-08-23

پژوهشگران اپل نسخه‌ای اصلاح‌شده از مدل SlowFast-LLaVA را طراحی کرده‌اند که توانسته در حوزه تحلیل و درک ویدیوهای بلند عملکردی بهتر از مدل‌های بسیار بزرگ‌تر ارائه دهد. معنای این دستاورد در چند لایه فنی قابل بررسی است. در ساده‌ترین توضیح، زمانی که یک مدل زبانی بزرگ برای درک ویدیو آموزش داده می‌شود، یاد می‌گیرد که ویدیوها را به فریم‌های جداگانه تقسیم کند، از روش‌های بینایی رایانه‌ای برای استخراج ویژگی‌های بصری استفاده کند، تغییرات این ویژگی‌ها را در طول زمان تحلیل نماید و تمامی این داده‌ها را با زبان هماهنگ سازد تا در قالب متن بتواند درباره ویدیو توصیف کرده یا استدلال ارائه دهد.

یکی از روش‌های بسیار ناکارآمد در این فرایند، تحلیل تک‌تک فریم‌های یک ویدیو است. این شیوه حجم انبوهی از اطلاعات تکراری ایجاد می‌کند، زیرا در بسیاری از موارد، تفاوت میان یک فریم و فریم بعدی بسیار ناچیز است. چنین حجم عظیمی از داده‌های تکراری به‌راحتی می‌تواند از ظرفیت پنجره زمینه مدل زبانی فراتر رود؛ ظرفیتی که بیشینه اطلاعات قابل نگهداری هم‌زمان توسط مدل را تعیین می‌کند. زمانی که مدل از این حد عبور کند، ناچار می‌شود برای ادامه پیش‌بینی توکن‌های جدید، داده‌های قدیمی‌تر را کنار بگذارد تا فضای کافی برای داده‌های تازه فراهم شود.

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدئوهای بلند را درک کند

البته روش‌های بهینه‌تری برای آموزش مدل‌های زبانی ویدیویی وجود دارند؛ برای نمونه انویدیا اخیراً مقاله‌ای ارزشمند در این زمینه منتشر کرده است. اما برای درک تحقیق اپل کافی است این چارچوب کلی در ذهن باقی بماند. مطالعه اپل که در مقاله‌ای با عنوان SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding منتشر شده، چنین توضیح می‌دهد: «مدل‌های زبانی بزرگ ویدیویی، ادراک ویدیو را در مدل‌های زبانی از پیش آموزش‌دیده ادغام می‌کنند تا بتوانند ویدیوها را پردازش کرده و به دستورات کاربر پاسخ دهند. با وجود پیشرفت‌های قابل توجه، محدودیت‌های آشکاری همچنان در مدل‌های زبانی ویدیویی موجود باقی مانده است.»

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدئوهای بلند را درک کند

به گفته پژوهشگران اپل، این محدودیت‌ها سه دسته اصلی دارند:

مدل‌های موجود به پنجره‌های زمینه طولانی و تعداد بسیار زیاد فریم‌ها وابسته‌اند که این امر ناکارآمد بوده و قابلیت انتقال به مدل‌های کوچک‌تر را دشوار می‌سازد.اغلب آن‌ها به مسیرهای آموزشی پیچیده و چندمرحله‌ای وابسته‌اند که معمولاً بر مجموعه‌داده‌های اختصاصی تکیه می‌کنند و بازتولید آن‌ها را دشوار می‌سازد.بسیاری از این مدل‌ها صرفاً برای وظایف ویدیویی بهینه شده‌اند و همین امر کاربری آن‌ها را به‌عنوان مدل‌های همه‌منظوره که توانایی درک تصاویر را نیز داشته باشند، محدود می‌کند.

برای غلبه بر این محدودیت‌ها، اپل ابتدا به سراغ مدل متن‌باز SlowFast-LLaVA رفت که پیش‌تر توانسته بود با بهره‌گیری از نشانه‌های مکانی و زمانی از طریق یک معماری دو‌جریانی، نتایج امیدوارکننده‌ای کسب کند: یک جریان آهسته که تعداد کمتری فریم با جزئیات بالاتر بررسی می‌کند تا محتوای صحنه مشخص شود، و یک جریان سریع که تعداد بیشتری فریم با جزئیات کمتر تحلیل می‌کند تا حرکت‌ها در طول زمان ردیابی شوند.

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدئوهای بلند را درک کند

اپل نخست این مدل را روی تصاویر تنظیم دقیق کرد تا توانایی استدلال بصری عمومی ایجاد شود. سپس آن را به‌صورت مشترک بر مجموعه‌ای از تصاویر و ویدیوها آموزش داد تا ساختار زمانی را نیز بیاموزد، بدون آنکه توانایی درک تصاویر تضعیف شود. نتیجه این کار به تولد مدل SlowFast-LLaVA-1.5 یا به اختصار SF-LLaVA-1.5 منجر شد. این خانواده شامل مدل‌هایی با مقیاس 1B، 3B و 7B پارامتر است که در طیف گسترده‌ای از وظایف ویدیویی توانسته‌اند عملکردی بهتر از مدل‌های بسیار بزرگ‌تر ارائه دهند، گاهی حتی با اختلاف قابل توجه.

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدئوهای بلند را درک کند

در واقع، در آزمون‌های مرجع ویدیوی بلند مانند LongVideoBench و MLVU، مدل اپل توانست در تمامی اندازه‌ها، حتی کوچک‌ترین نسخه یعنی 1B، رکوردهای جدیدی را به ثبت برساند و به‌عنوان بهترین مدل در این حوزه معرفی شود. علاوه بر آن، این مدل یکی از سه محدودیت ذکرشده را نیز پشت سر گذاشته و در وظایف مرتبط با تصویر هم کارایی مطلوبی نشان داده است؛ از جمله در آزمون‌های مرتبط با دانش، استدلال ریاضی، OCR و سناریوهای متنی-بصری پیچیده. تیم پژوهش حتی چندین استراتژی فشرده‌سازی ویدیو را بررسی کرد، اما در نهایت دریافت که معماری پیشنهادی آن‌ها بهترین توازن میان سرعت، دقت و تعداد توکن‌ها را ایجاد می‌کند.

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدئوهای بلند را درک کند

با این حال، محدودیت‌هایی همچنان وجود دارد. اپل تصمیم گرفت که در مدل SF-LLaVA-1.5 طول بیشینه ورودی فریم‌ها برابر با ۱۲۸ فریم باشد. به این معنا که چه مدل بخواهد یک کلیپ چند دقیقه‌ای یا چند ساعته را تحلیل کند، نهایتاً ۱۲۸ فریم پردازش می‌شود: ۹۶ فریم با فاصله‌های یکنواخت برای جریان سریع و ۳۲ فریم با فاصله‌های یکنواخت برای جریان آهسته انتخاب می‌شوند.

با توجه به این موضوع، پژوهشگران تصریح کرده‌اند: «این روش ممکن است برخی فریم‌های کلیدی در ویدیوهای طولانی را از دست بدهد و مدل را درباره سرعت پخش ویدیو دچار خطا سازد. عملکرد SF-LLaVA-1.5 می‌تواند با تنظیم همه پارامترها، از جمله رمزگذار بصری، بهبود یابد. با این حال، به دلیل هزینه بالای حافظه GPU در ذخیره مقادیر فعال‌سازی، این کار برای مدل‌های زبانی ویدیویی طولانی چندان ساده نیست. مطالعات آینده می‌توانند به استفاده از تکنیک‌های صرفه‌جویی حافظه، همچون Stochastic BP، بپردازند.»

اپل یک مدل زبانی بزرگ را آموزش داده تا بتواند ویدئوهای بلند را درک کند

با وجود این محدودیت‌ها، رویکرد اپل مدلی در سطح پیشرفته‌ترین فناوری‌های موجود ایجاد کرده که امتیاز ویژه آن آموزش صرفاً بر اساس مجموعه‌داده‌های عمومی است. مدل SF-LLaVA-1.5 اکنون به‌عنوان پروژه‌ای متن‌باز در GitHub و Hugging Face در دسترس بوده و نسخه کامل مقاله نیز در arXiv منتشر شده است.

منبع خبر

دانلود آهنگ
0 0 رای ها
امتیازدهی به مقاله
اشتراک در
اطلاع از
guest
0 نظرات
قدیمی‌ترین
تازه‌ترین بیشترین رأی
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها

اشتراک گذاری

لینک های مفید