واقعی است یا تولید شده توسط هوش مصنوعی؟ این ویدئوها را ببینید و ببینید آیا میتوانید تفاوت را تشخیص دهید!
خانه »
پس از گذراندن مدتی با هوش مصنوعی تولیدی، تصور میکردیم که ایدهای نسبتا دقیق از آنچه Veo 3 — پیشرفتهترین تولیدکننده ویدئو توسط گوگل — ارائه میدهد در ذهن داریم. اما زمانی که چند هفته پیش اشتراک Google AI Pro به قیمت ۲۰ دلار خریداری کردیم، مشخص گردید که این ابزار حتی فراتر از خوشبینانهترین انتظارات عمل میکند. برخلاف نسلهای اولیه تولیدکنندههای تصویر هوش مصنوعی که اغلب عیوب واضحی مانند انگشتان اضافی یا معماری غیرمنطقی داشتند، Veo 3 گوگل قادر است ویدئوهایی تولید کند که شباهت چشمگیری به نمونههای واقعی دنیای واقعی دارند.
در واقع، برخی از ویدئوهای Veo در شبکههای اجتماعی آنقدر متقاعدکننده به نظر میرسند که لازم است دوباره بررسی شود آیا محتوای مشاهدهشده از هوش مصنوعی تولید شده یا کلیپ آمادهای است. این موضوع سوالی را مطرح میکند: Veo 3 واقعا چقدر خوب است و آیا افراد عادی میتوانند تشخیص دهند که در حال مشاهده ویدئوی تولید شده توسط هوش مصنوعی هستند؟ برای پاسخ، یک آزمون کوتاه متشکل از شش کلیپ تولید شده توسط Veo در مقابل ویدئوهای واقعی تهیه شده است. آیا تفاوت را میتوان تشخیص داد؟
ویدئوهای تولید شده توسط هوش مصنوعی با Veo 3: به طور ترسناکی خوب
توانایی Veo 3 در تولید کلیپهای بسیار قانعکننده به خودی خود چشمگیر است، اما این ابزار یک قدم فراتر میرود: توانایی تولید گفتار هماهنگ یا جلوههای صوتی نیز وجود دارد. این باعث میشود نتایج تولید شده برای چشم غیرمسلح تقریبا غیرقابل تشخیص از نمونههای واقعی به نظر برسند.
البته، اگر به دقت نگاه شود، نشانههای مشخصی وجود دارد که منشا ویدئوی تولید شده توسط هوش مصنوعی را نشان میدهد، اما انتظار میرود این نقصهای جزئی هر چه زودتر برطرف شوند. گوگل از زمان رونمایی Veo 3 در کنفرانس I/O، چندین بهروزرسانی منتشر کرده است، از جمله یکی که جلوی ظاهر شدن متنهای مشابه زیرنویس خراب را میگیرد.
برای تولید ویدئو با استفاده از Veo 3، نیاز به اشتراک Google AI Pro یا Ultra است. این اشتراک حداقل ۲۰ دلار در ماه هزینه دارد، چه برسد به سطح بالاتر که هزینه آن ماهانه ۲۵۰ دلار است. حتی با این وجود، میزان اعتبار تولید ویدئو در هر ماه محدود است.
Veo 3 برای گوگل هزینه بالایی در پردازش دارد و هرچند هزینه داخلی دقیق آن مشخص نیست، اما هزینهای که توسعهدهندگان برای استفاده از Veo 3 از طریق API پرداخت میکنند مشخص است. تولید هر ثانیه ویدئو با صدا ۰.۷۵ دلار و کلیپهای بدون صدا ۰.۵۰ دلار هزینه دارد. این یعنی یک ویدئوی ۸ ثانیهای تا ۶ دلار برای هر بار تولید هزینه دارد. با چند کلیپ، واضح است چرا گوگل تعداد تولیدها را در اشتراک ۲۰ دلاری محدود کرده است. هزینه این فناوری احتمالا زیاد است.
پس، آیا Veo 3 ارزش این قیمت گران را دارد؟ این سوال اصلی را باز میگرداند: آیا میتوان واقعا تفاوت بین ویدئوی واقعی و تولید شده توسط هوش مصنوعی را تشخیص داد؟ در ادامه، شش کلیپ کوتاه قرار داده شده است — ببینید کدام واقعی و کدام ساخته شده توسط هوش مصنوعی است.
ویدئو ۱: کمباین
شروع با یک کلیپ سادهتر. این ویدئو اگر دقیق نگاه شود نسبتا راحت تشخیص داده میشود. نسخه تولید شده توسط هوش مصنوعی جزئیات واقعی زیادی که در یک صحنه کشاورزی انتظار میرود را بازتولید نمیکند. آسمان، ماشینآلات کشاورزی و عناصر پسزمینه کوچکتر خیلی تمیز و یکنواخت به نظر میرسند. با این حال، بهعنوان یک نکته منفی، درخواست داده شده به Veo 3 کوتاه و بدون توصیف دقیق بوده است.
با این وجود، Veo 3 عملکرد بسیار خوبی داشته است. اگر ویدئو در کنار تصاویر واقعی قرار نداشت، به راحتی میتوانست در نگاه اول واقعی به نظر برسد. نکته جالب این است که درخواست رنگبندی خاص ماشینآلات و حتی نام برند داده شده بود و Veo 3 هر دو را به خوبی اجرا کرد. این نشاندهنده توانایی بالای این مدل در دنبال کردن متن و دستورالعملها است، حتی اگر هنوز جزئیات دقیق را کاملا بازتولید نکند.
ویدئو ۲: سنجاب در حال خوردن آجیل
یک کلیپ نسبتا ساده دیگر. نسخه Veo 3 بسیار نزدیک به واقعیت است، مخصوصا با حرکات ظریف بدن و صدای محیطی قابل قبول، اما وقتی در کنار تصاویر واقعی قرار میگیرد کمی ضعف دارد. سنجاب تولید شده توسط هوش مصنوعی کمی بیش از حد تمیز به نظر میرسد و پسزمینه تاریکتر است — البته ممکن است علت آن درخواست داده شده باشد. نکته قابل توجهتر این است که درخواست شده تمرکز روی خز سنجاب با عمق میدان کم باشد و Veo 3 این را به خوبی اجرا کرده است.
علت اصلی که این ویدئو به عنوان غیرواقعی مشخص میشود، نبود آن اصالت غیرقابل پیشبینی است که در حیوانات واقعی وجود دارد. در کلیپ واقعی، سنجاب در گرفتن آجیل دست و پا چلفتی است، بیشتر از آنچه میتواند بجود، گاز میزند و شخصیت بیشتری دارد. با این حال، اگر کلیپ هوش مصنوعی به تنهایی دیده شود، احتمالا هیچ کس در مورد آن شک نمیکند.
ویدئو ۳: بازار شبانه شلوغ در تایلند
در این صحنه، Veo 3 نقاط قوت خود را به نمایش میگذارد و فضای کلی را بهخوبی منتقل میکند — انرژی پرجنبوجوش و حس حرکت در محیط. اگر کسی هرگز به تایلند سفر نکرده باشد، هر دو ویدئو ممکن است به یک اندازه قانعکننده به نظر برسند. اما با نگاه دقیقتر، نقصها آشکار میشوند. غرفهها بیش از حد یکنواخت هستند و از شلوغی بصری واقعی یک بازار شبانه خبری نیست. فروشندگان نیز به نظر میرسد اجناس تصادفی و نامرتبطی را کنار هم میفروشند که منطقی به نظر نمیرسد. همچنین، حرکات دست فروشندگان غیرطبیعی است. این مورد یکی از نشانههای کلاسیک ویدئوهای تولیدشده توسط هوش مصنوعی است، و مولد ویدئوی گوگل نیز از این مشکل مصون نیست. با این حال، این صحنه یکی از صحنههای دشوار برای تولید است، و با در نظر گرفتن پیچیدگی آن، تلاش Veo 3 را میتوان نسبتا قابل قبول دانست.
ویدئو ۴: کوهنورد و مه در حال حرکت
این صحنه شاید چشمگیرترین مورد در میان همه باشد. در نبود عناصر شلوغ شهری یا تعاملات پیچیده بین شخصیتها، Veo 3 فرصت بیشتری برای درخشش دارد. حتی با نورپردازی دراماتیک، مناظر طبیعی و افکتهای جوی مانند مه، این مدل بهراحتی از عهده کار برمیآید. کمک دیگر این است که کلیپ واقعی نیز بسیار چشمنواز است، تقریبا مانند صحنهای از یک بازی ویدئویی.
همین موضوع باعث میشود تشخیص این مورد واقعا دشوار باشد. نیاز به راهنمایی دارید؟ به دست چپ کوهنورد نگاه کنید؛ یک ایراد ظریف در رندر باعث میشود که توهم واقعگرایانه بودن شکسته شود.
ویدئو ۵: گله بز
یک مورد دشوار دیگر. در این صحنه، Veo 3 نتیجهای چشمگیر ارائه میدهد، و در نگاه اول تشخیص ویدئوی تولید شده توسط هوش مصنوعی از ویدئوی واقعی واقعا سخت است. ریتم حرکتی و جابهجایی بزها به اندازه کافی قانعکننده به نظر میرسد.
تشخیص تفاوت ممکن است دشوار باشد، اما با اطلاع از اینکه کدام کلیپ تولید هوش مصنوعی است، میتوان به ظرایف خاصی پی برد. بهعنوان مثال، زمین در کلیپ هوش مصنوعی کمی بیش از حد صاف است. صورت و بدن بزها نیز به شکلی غیرعادی صاف هستند، در حالی که حیوانات واقعی معمولا کمی کثیفی و ناهمواری روی خود دارند. با این حال، هیچ نقص آشکار و چشمگیری وجود ندارد — بیشتر یک حس درونی است تا نشانهای واضح.
برخی از کلیپهای بالا راحتتر قابل تشخیص بودند، اما اگر در تشخیص حتی موارد آشکار نیز دچار تردید شدهاید، تنها نیستید. زمانی که ویدئوهای تولید شده با هوش مصنوعی نورپردازی، زاویه دوربین و سوژه را تا حد زیادی بهدرستی بازسازی میکنند، تشخیص آنها میتواند بهطرز شگفتانگیزی دشوار شود. بدون مقایسه مستقیم، احتمالا بسیاری از ویدئوهای غیرواقعی قابل شناسایی نخواهند بود، حتی برای افرادی که صدها یا هزاران تصویر تولید شده توسط هوش مصنوعی را دیدهاند.
با ارزانتر شدن این فناوری، انتظار میرود ویدئوهای تولید شده با Veo 3 بهمرور رایجتر شوند. گوگل در حال حاضر یک واترمارک کوچک در گوشه پایین-راست تمام ویدئوهای تولیدشده با هوش مصنوعی اضافه میکند، اما اگر در کلیپهای بالا متوجه آن نشدهاید، دلیلش این است که این واترمارک از همه کلیپها برش خورده بود. حذف آن فقط چند دقیقه زمان برای هر ویدئو برده است، و این نشان میدهد که نیاز به روشی جدید و مؤثر برای مقابله با موج قریبالوقوع ویدئوهای جعلی در اینترنت وجود دارد. راهحل مشخصی در حال حاضر در دست نیست، اما امید است که تیم اخلاق هوش مصنوعی گوگل راهحلی برای آن داشته باشد.