ابزار هوش مصنوعی جدید علی بابا تصاویر را به ویدیوهای واقعی تبدیل می کند

16 آذر 1402 - 12:50

ابزار هوش مصنوعی جدید علی بابا تصاویر را به ویدیوهای واقعی تبدیل می کند. پس از اینکه Pika هفته گذشته تولیدکننده متن به ویدئوی واقعی را معرفی کرد، غول فناوری چینی Alibaba با معرفی Animate Anyone، ابزار جدیدی که تصاویر ثابت را به ویدیو تبدیل می کند، شگفتی دیگری ارائه کرد.

این فناوری احتمالاً خبر خوبی برای مشاغلی است که می‌توانند از ابزار جدید برای ایجاد فیلم‌های واقعی ارزان تر و سریع‌تر برای اهداف تجاری استفاده کنند. بررسی‌های مجله تخصصی هوش مصنوعی aipoint نشان می‌دهد که مدل‌های مد و اینفلوئنسرهای رسانه‌های اجتماعی ممکن است از ین ابزار مبتنی بر هوش مصنوعی استقبال چندانی نکنند، زیرا بسیاری ممکن است ممکن است این باور را داشته باشند که Animate Anyone رقیب آنهاست و احتمالا بر بازار آنها تاثیر بگذارد.

هسته اصلی این فناوری، مدل‌های کامپیوتری پیشرفته‌ای است که به diffusion models معروف هستند، که اخیراً به روشی رایج برای تولید تصاویر و ویدیوهای دیجیتال تبدیل شده‌اند. تیم علی بابا از این مدل‌ها برای مقابله با چالش متحرک کردن شخصیت‌ها از تصاویر ثابت استفاده کرده است، کاری که به طور سنتی مملو از مسائلی مانند اعوجاج و ناسازگاری بوده است.

روش آنها در توانایی پرداخت به ویژگی‌های دقیق شخصیت‌ها برجسته است. این امر از طریق یک مؤلفه خاص به نام ReferenceNet به دست می‌آید که جزئیات ظاهری پیچیده را از تصویر مرجع در فرآیند انیمیشن ضبط و ادغام می‌کند. یکی دیگر از عناصر کلیدی Pose Guider است که حرکات شخصیت را در ویدیو هدایت می کند و از واقعی و روان بودن آنها اطمینان می‌دهد.

رویکرد این تیم می‌تواند شخصیت‌های مختلفی از جمله انسان‌ها، کارتون‌ها و انسان‌نماها را متحرک کند. ویدیوهای به دست آمده از نظر بصری خیره کننده هستند و ثبات زمانی قابل توجهی را نشان می‌دهد، به این معنی که انیمیشن به آرامی در طول زمان بدون هیچ گونه انتقال یا سوسو زدن آزاردهنده جریان می‌یابد.

این فناوری کاربردهای بالقوه گسترده ای دارد، از خرده فروشی آنلاین گرفته تا سرگرمی و خلاقیت هنری. این نشان دهنده یک گام به جلو در زمینه انیمیشن و ساخت شخصیت‌های متحرک است که فرصت‌های جدیدی را برای سازندگان و توسعه دهندگان در صنایع مختلف باز می‌کند. و احتمالا بهترین و موثرترین گزینه برای حوزه تبلیغات خواهد بود.

جزییات فنی

در هسته خود، این روش از چارچوب جدیدی استفاده می کند که به طور خاص برای ساخت انیمیشن طراحی شده است. به طور خلاصه مؤلفه‌های کلیدی شامل موارد زیر است:

۱. ReferenceNet: این شبکه منحصر به فرد به حفظ جزئیات پیچیده در ظاهر شخصیت از تصویر اصلی کمک می‌کند. ReferenceNet جزئیات فضایی تصویر مرجع را می‌گیرد و این ویژگی‌ها را در فرآیند انیمیشن ادغام می‌کند. این ساختار مشابه ساختار UNet حذف نویز مورد استفاده در diffusion models بوده، اما بدون لایه زمانی ساخته شده است. این شبکه از مکانیسم‌های توجه فضایی استفاده می‌کند، که به تراز کردن و ادغام ویژگی‌های تصویر مرجع در فریم‌های ویدیو کمک می‌کند و تضمین می‌کند که ظاهر شخصیت در طول انیمیشن ثابت می‌ماند.

۲. Pose Guide: برای دستیابی به حرکات قابل کنترل و واقعی شخصیت، Pose Guider سیگنال‌های کنترل حرکت را رمزگذاری می‌کند. از لایه‌های کانولوشن برای تراز کردن تصویر پوز (نماینده حرکت مورد نظر) با نویز نهفته، یک جزء اساسی در فرآیند انتشار استفاده می‌کند. این هم ترازی به هدایت حرکات شخصیت در انیمیشن کمک کرده و اطمینان می‌دهد که آنها با ژست‌های مورد نظر هماهنگ هستند.

۳. Temporal Layer: برای انتقال صاف و تداوم در فریم‌های ویدئویی، لایه زمانی نقش مهمی ایفا می‌کند. این پروسه به کمک لایه زمانی روابط بین فریم‌های متعدد را مدل می‌کند و اطمینان می‌دهد که حرکت روان و طبیعی به نظر می‌رسد. این لایه بخشی از UNet حذف نویز است و در بعد زمانی عمل می‌کند و وظیفه پیچیده حفظ جزئیات با وضوح بالا را در عین شبیه سازی یک فرآیند حرکت صاف انجام می‌دهد.

لینک کوتاه : https://kalannews.ir/?p=51074