ابزار هوش مصنوعی مایکروسافت می‌تواند عکس‌ها را به ویدیوهای واقعی از افراد در حال صحبت و آواز خواندن تبدیل کند!

آوریل 20, 2024

0 2 خواندن این مطلب 2 دقیقه زمان میبرد

ابزار هوش مصنوعی مایکروسافت می‌تواند عکس‌ها را به ویدیوهای واقعی از افراد در حال صحبت و آواز خواندن تبدیل کند!

به گزارش اپست به نقل از انجگت ، پژوهشگران مایکروسافت آسیا از یک ابزار هوش مصنوعی آزمایشی جدید به نام VASA-1 رونمایی کرده‌اند که می‌تواند با استفاده از یک تصویر ثابت از یک فرد (یا حتی یک نقاشی) و یک فایل صوتی موجود، به صورت real-time یک چهره سخنگوی شبیه به واقعیت بسازد. این ابزار توانایی ایجاد حالات چهره، حرکات سر و حرکات لب متناسب با گفتار یا آهنگ را برای یک تصویر ثابت موجود دارد. محققان نمونه‌های زیادی را در صفحه پروژه آپلود کرده‌اند و نتایج آنقدر خوب به نظر می‌رسد که بتواند مردم را فریب دهد و آن‌ها را باور کند که واقعی هستند.

اگرچه حرکات لب و سر در این نمونه‌ها با کمی دقت بیشتر همچنان کمی مصنوعی و غیرهمگام به نظر می‌رسد، اما همچنان واضح است که این فناوری می‌تواند برای ایجاد آسان و سریع ویدیوهای دیپ‌فیک از افراد واقعی مورد سوء استفاده قرار گیرد. خود محققان از این پتانسیل آگاه هستند و تصمیم گرفته اند تا زمانی که مطمئن نشوند فناوری آنها “به طور مسئولانه و مطابق با قوانین مناسب” استفاده خواهد شد، “دموی آنلاین، API، محصول، جزئیات اضافی پیاده سازی یا هر پیشنهاد مرتبط” را منتشر نکنند. با این حال، آنها نگفتند که آیا قصد دارند اقدامات حفاظتی خاصی را برای جلوگیری از سوء استفاده بازیگران بد برای اهداف شوم، مانند ایجاد پورن دیپ فیک یا کمپین های اطلاعات غلط، اجرا کنند.

پژوهشگران بر این باورند که فناوری آن‌ها با وجود پتانسیل سوءاستفاده، مزایای زیادی دارد. آن‌ها گفتند که این فناوری می‌تواند برای بهبود عدالت آموزشی و همچنین برای افزایش دسترسی افراد دارای مشکلات ارتباطی، به عنوان مثال با دادن دسترسی به آواتاری که می‌تواند برای آنها ارتباط برقرار کند، استفاده شود. آن‌ها همچنین گفتند که این فناوری می‌تواند برای کسانی که به آن نیاز دارند، همراهی و پشتیبانی درمانی فراهم کند، و این امر به این معنی است که VASA-1 می‌تواند در برنامه‌هایی که امکان دسترسی به شخصیت‌های هوش مصنوعی را برای صحبت کردن مردم فراهم می‌کنند، استفاده شود.

بر اساس مقاله منتشر شده همراه با معرفی این فناوری، VASA-1 روی مجموعه داده VoxCeleb2 آموزش داده شده است که حاوی «بیش از 1 میلیون جمله برای 6112 سلبریتی» است که از ویدیوهای یوتیوب استخراج شده است. اگرچه این ابزار روی چهره‌های واقعی آموزش دیده است، اما روی عکس‌های هنری مانند مونالیزا نیز کار می‌کند، که محققان به طور سرگرم‌کننده‌ای آن را با یک فایل صوتی از اجرای وایرال «پاпараزی» لیل وین توسط ان Hathaway ترکیب کردند. این ویدیو بسیار لذت بخش است و ارزش دیدن را دارد، حتی اگر در مورد اینکه چنین فناوری‌ای چه فایده‌ای می‌تواند داشته باشد، شک دارید.