ابزار هوش مصنوعی جدید علی بابا تصاویر را به ویدیوهای واقعی تبدیل می کند. پس از اینکه Pika هفته گذشته تولیدکننده متن به ویدئوی واقعی را معرفی کرد، غول فناوری چینی Alibaba با معرفی Animate Anyone، ابزار جدیدی که تصاویر ثابت را به ویدیو تبدیل می کند، شگفتی دیگری ارائه کرد.
این فناوری احتمالاً خبر خوبی برای مشاغلی است که میتوانند از ابزار جدید برای ایجاد فیلمهای واقعی ارزان تر و سریعتر برای اهداف تجاری استفاده کنند. بررسیهای مجله تخصصی هوش مصنوعی aipoint نشان میدهد که مدلهای مد و اینفلوئنسرهای رسانههای اجتماعی ممکن است از ین ابزار مبتنی بر هوش مصنوعی استقبال چندانی نکنند، زیرا بسیاری ممکن است ممکن است این باور را داشته باشند که Animate Anyone رقیب آنهاست و احتمالا بر بازار آنها تاثیر بگذارد.
هسته اصلی این فناوری، مدلهای کامپیوتری پیشرفتهای است که به diffusion models معروف هستند، که اخیراً به روشی رایج برای تولید تصاویر و ویدیوهای دیجیتال تبدیل شدهاند. تیم علی بابا از این مدلها برای مقابله با چالش متحرک کردن شخصیتها از تصاویر ثابت استفاده کرده است، کاری که به طور سنتی مملو از مسائلی مانند اعوجاج و ناسازگاری بوده است.
روش آنها در توانایی پرداخت به ویژگیهای دقیق شخصیتها برجسته است. این امر از طریق یک مؤلفه خاص به نام ReferenceNet به دست میآید که جزئیات ظاهری پیچیده را از تصویر مرجع در فرآیند انیمیشن ضبط و ادغام میکند. یکی دیگر از عناصر کلیدی Pose Guider است که حرکات شخصیت را در ویدیو هدایت می کند و از واقعی و روان بودن آنها اطمینان میدهد.
رویکرد این تیم میتواند شخصیتهای مختلفی از جمله انسانها، کارتونها و انساننماها را متحرک کند. ویدیوهای به دست آمده از نظر بصری خیره کننده هستند و ثبات زمانی قابل توجهی را نشان میدهد، به این معنی که انیمیشن به آرامی در طول زمان بدون هیچ گونه انتقال یا سوسو زدن آزاردهنده جریان مییابد.
این فناوری کاربردهای بالقوه گسترده ای دارد، از خرده فروشی آنلاین گرفته تا سرگرمی و خلاقیت هنری. این نشان دهنده یک گام به جلو در زمینه انیمیشن و ساخت شخصیتهای متحرک است که فرصتهای جدیدی را برای سازندگان و توسعه دهندگان در صنایع مختلف باز میکند. و احتمالا بهترین و موثرترین گزینه برای حوزه تبلیغات خواهد بود.
جزییات فنی
در هسته خود، این روش از چارچوب جدیدی استفاده می کند که به طور خاص برای ساخت انیمیشن طراحی شده است. به طور خلاصه مؤلفههای کلیدی شامل موارد زیر است:
۱. ReferenceNet: این شبکه منحصر به فرد به حفظ جزئیات پیچیده در ظاهر شخصیت از تصویر اصلی کمک میکند. ReferenceNet جزئیات فضایی تصویر مرجع را میگیرد و این ویژگیها را در فرآیند انیمیشن ادغام میکند. این ساختار مشابه ساختار UNet حذف نویز مورد استفاده در diffusion models بوده، اما بدون لایه زمانی ساخته شده است. این شبکه از مکانیسمهای توجه فضایی استفاده میکند، که به تراز کردن و ادغام ویژگیهای تصویر مرجع در فریمهای ویدیو کمک میکند و تضمین میکند که ظاهر شخصیت در طول انیمیشن ثابت میماند.
۲. Pose Guide: برای دستیابی به حرکات قابل کنترل و واقعی شخصیت، Pose Guider سیگنالهای کنترل حرکت را رمزگذاری میکند. از لایههای کانولوشن برای تراز کردن تصویر پوز (نماینده حرکت مورد نظر) با نویز نهفته، یک جزء اساسی در فرآیند انتشار استفاده میکند. این هم ترازی به هدایت حرکات شخصیت در انیمیشن کمک کرده و اطمینان میدهد که آنها با ژستهای مورد نظر هماهنگ هستند.
۳. Temporal Layer: برای انتقال صاف و تداوم در فریمهای ویدئویی، لایه زمانی نقش مهمی ایفا میکند. این پروسه به کمک لایه زمانی روابط بین فریمهای متعدد را مدل میکند و اطمینان میدهد که حرکت روان و طبیعی به نظر میرسد. این لایه بخشی از UNet حذف نویز است و در بعد زمانی عمل میکند و وظیفه پیچیده حفظ جزئیات با وضوح بالا را در عین شبیه سازی یک فرآیند حرکت صاف انجام میدهد.