گوگل دیپمایند با معرفی Veo 2، به رقابت جدی با OpenAI در زمینه تولید ویدیو وارد شد
شرکت گوگل دیپمایند از مدل ویدیویی جدید Veo 2 خود رونمایی کرده که هدف آن رقابت با مدل پیشرفته Sora شرکت OpenAI است.
به گزارش فناور، این مدل جدید با تمرکز بر پردازش پیشرفته ویدیوها، بهبود کیفیت تولید ویدیوهای مبتنی بر هوش مصنوعی و افزایش دقت در تحلیل محتوای ویدیویی طراحی شده است.گوگل دیپمایند، لابراتوار تحقیقاتی هوش مصنوعی شرکت گوگل، این مدل را به عنوان جایگزینی برای نسخه پیشین یعنی Veo عرضه کرده است و تلاش دارد تا OpenAI را در زمینه تولید محتوای ویدیویی مبتنی بر هوش مصنوعی پشت سر بگذارد.
مدل Veo 2 قادر به تولید کلیپهایی با کیفیت 4K (۴۰۹۶ در ۲۱۶۰ پیکسل) و طول بیش از دو دقیقه است؛ قابلیتی که نسبت به مدل Sora از OpenAI که حداکثر وضوح 1080p و طول ۲۰ ثانیه دارد، یک پیشرفت چشمگیر به حساب میآید.
ویژگیها و قابلیتهای Veo 2
به نقل از تک کرانچ، مدل Veo 2 از قابلیتهای متعددی بهرهمند است که آن را از نسخه قبلی متمایز میکند. این مدل میتواند ویدیوهایی در سبکهای مختلف و بر اساس ورودیهای متنی (مانند: یک ماشین در حال حرکت در بزرگراه) یا ترکیبی از متن و تصویر مرجع تولید کند.
طبق ادعای دیپمایند، مدل Veo 2 دارای درک بهتری از فیزیک و کنترل دوربین است و در مقایسه با نسخه قبلی، تصاویر شفافتر و بافتهای دقیقتری تولید میکند. به عنوان مثال، در صحنههایی با حرکت زیاد، جزئیات تصاویر واضحتر هستند و کنترلهای پیشرفته دوربین امکان ثبت اشیا و افراد از زوایای مختلف را فراهم میآورد.
همچنین گوگل دیپمایند تأکید کرده است که این مدل توانایی بهتری در شبیهسازی حرکت، دینامیک مایعات (مانند ریختن قهوه در فنجان) و افکتهای نوری (مانند انعکاسها و سایهها) دارد.
این قابلیتها شامل شبیهسازی لنزهای مختلف و افکتهای سینمایی مانند: بازتاب نور یا تغییر حالت لنز میشود. علاوه بر این، Veo 2 قادر به نمایش حالات انسانی به شکل «جزئیاتنگرانه» و با دقت بیشتری است.
چالشها و محدودیتهای Veo 2
با وجود پیشرفتهای قابل توجه، مدل Veo 2 هنوز با چالشهایی روبهرو است. الی کالینز، معاون محصول در گوگل دیپمایند، اذعان کرده است که این مدل در تولید جزئیات پیچیده، حرکات سریع و حفظ سازگاری شخصیتها در ویدیوهای طولانی، نیاز به بهبود دارد.
همچنین او به محدودیتهای فعلی در وضوح و طول ویدیوهای تولیدشده اشاره کرد. در حال حاضر، ویدیوهایی که با استفاده از VideoFX (ابزار آزمایشی گوگل) تولید میشوند، به وضوح 720p و طول ۸ ثانیه محدود شدهاند.
کالینز تأکید کرد که دیپمایند در حال همکاری با هنرمندان و تهیهکنندگان محتوا برای بهبود این مدل است. به گفته او، همکاری با هنرمندان برجستهای مانند: Donald Glover، The Weeknd و دیگر خلاقان از ابتدای توسعه Veo آغاز شده و این بازخوردها به شکلگیری Veo 2 کمک کرده است.
امنیت و مسائل حقوقی Veo 2
یکی از موضوعات بحثبرانگیز درباره Veo 2، نحوه آموزش این مدل است. دیپمایند اعلام کرده که این مدل با استفاده از تعداد زیادی ویدیو و توضیحات مرتبط آموزش دیده، اما جزئیاتی درباره منابع دقیق این دادهها ارائه نکرده است.
گمان میرود که YouTube، به عنوان یکی از داراییهای گوگل، منبع احتمالی این دادهها باشد. این موضوع نگرانیهایی را در زمینه حقوق مالکیت محتوا ایجاد کرده است.
شرکت گوگل دیپمایند برای کاهش خطرات امنیتی، از فناوری واترمارک نامرئی SynthID بهره میگیرد، که ویدیوهای تولیدشده را شناسایی و از سوءاستفاده از آنها جلوگیری میکند. هرچند که این فناوری همچنان محدودیتهایی دارد و نمیتواند به طور کامل از سوءاستفاده جلوگیری کند.
علاوه بر این، دیپمایند به انتقاداتی مبنی بر عدم ارائه راهکاری برای حذف آثار خلاقانه از مجموعههای آموزشی خود پاسخ داده است. این شرکت همچنان معتقد است که استفاده از دادههای عمومی برای آموزش مدلها، تحت مفهوم «استفاده منصفانه» قرار میگیرد و نیازی به کسب اجازه از صاحبان محتوا نیست.
بهروزرسانیهای Imagen 3
شرکت گوگل دیپمایند همزمان با رونمایی از Veo 2، نسخه جدید مدل تولید تصویر خود با نام Imagen 3 را نیز معرفی کرد. این مدل که در ابزار ImageFX استفاده میشود، قابلیت تولید تصاویر روشنتر، دقیقتر و با ترکیببندی بهتر در سبکهای عکاسی، مانند: واقعگرایی، امپرسیونیسم و انیمه را دارد.
طبق اعلام دیپمایند، این نسخه جدید درک بهتری از دستورهای متنی دارد و میتواند جزئیات بیشتری را در تصاویر ارائه کند. همچنین رابط کاربری ابزار ImageFX بهبود یافته است و اکنون کاربران میتوانند با استفاده از پیشنهادات کلمات مرتبط، ورودیهای خود را سریعتر ویرایش کنند.
آینده Veo 2 و Imagen 3
گوگل دیپمایند اعلام کرده است که قصد دارد Veo 2 را به پلتفرم Vertex AI منتقل کند و این مدل را برای توسعهدهندگان در مقیاس وسیعتر در دسترس قرار دهد.
همچنین این شرکت امیدوار است که با استفاده از بازخوردهای کاربران و همکاری با هنرمندان، محدودیتهای فعلی را کاهش دهد و کاربردهای جذابتری را در اکوسیستم گوگل ایجاد کند.
با معرفی Veo 2 و بهروزرسانیهای Imagen 3، گوگل دیپمایند بار دیگر نشان داده که در تلاش است جایگاه خود را در رقابت با دیگر شرکتهای هوش مصنوعی مانند OpenAI تقویت کند و مرزهای فناوری تولید محتوای بصری را گسترش دهد.