ابزار هوش مصنوعی مایکروسافت میتواند عکسها را به ویدیوهای واقعی از افراد در حال صحبت و آواز خواندن تبدیل کند!
به گزارش اپست به نقل از انجگت ، پژوهشگران مایکروسافت آسیا از یک ابزار هوش مصنوعی آزمایشی جدید به نام VASA-1 رونمایی کردهاند که میتواند با استفاده از یک تصویر ثابت از یک فرد (یا حتی یک نقاشی) و یک فایل صوتی موجود، به صورت real-time یک چهره سخنگوی شبیه به واقعیت بسازد. این ابزار توانایی ایجاد حالات چهره، حرکات سر و حرکات لب متناسب با گفتار یا آهنگ را برای یک تصویر ثابت موجود دارد. محققان نمونههای زیادی را در صفحه پروژه آپلود کردهاند و نتایج آنقدر خوب به نظر میرسد که بتواند مردم را فریب دهد و آنها را باور کند که واقعی هستند.
اگرچه حرکات لب و سر در این نمونهها با کمی دقت بیشتر همچنان کمی مصنوعی و غیرهمگام به نظر میرسد، اما همچنان واضح است که این فناوری میتواند برای ایجاد آسان و سریع ویدیوهای دیپفیک از افراد واقعی مورد سوء استفاده قرار گیرد. خود محققان از این پتانسیل آگاه هستند و تصمیم گرفته اند تا زمانی که مطمئن نشوند فناوری آنها “به طور مسئولانه و مطابق با قوانین مناسب” استفاده خواهد شد، “دموی آنلاین، API، محصول، جزئیات اضافی پیاده سازی یا هر پیشنهاد مرتبط” را منتشر نکنند. با این حال، آنها نگفتند که آیا قصد دارند اقدامات حفاظتی خاصی را برای جلوگیری از سوء استفاده بازیگران بد برای اهداف شوم، مانند ایجاد پورن دیپ فیک یا کمپین های اطلاعات غلط، اجرا کنند.
پژوهشگران بر این باورند که فناوری آنها با وجود پتانسیل سوءاستفاده، مزایای زیادی دارد. آنها گفتند که این فناوری میتواند برای بهبود عدالت آموزشی و همچنین برای افزایش دسترسی افراد دارای مشکلات ارتباطی، به عنوان مثال با دادن دسترسی به آواتاری که میتواند برای آنها ارتباط برقرار کند، استفاده شود. آنها همچنین گفتند که این فناوری میتواند برای کسانی که به آن نیاز دارند، همراهی و پشتیبانی درمانی فراهم کند، و این امر به این معنی است که VASA-1 میتواند در برنامههایی که امکان دسترسی به شخصیتهای هوش مصنوعی را برای صحبت کردن مردم فراهم میکنند، استفاده شود.
بر اساس مقاله منتشر شده همراه با معرفی این فناوری، VASA-1 روی مجموعه داده VoxCeleb2 آموزش داده شده است که حاوی «بیش از ۱ میلیون جمله برای ۶۱۱۲ سلبریتی» است که از ویدیوهای یوتیوب استخراج شده است. اگرچه این ابزار روی چهرههای واقعی آموزش دیده است، اما روی عکسهای هنری مانند مونالیزا نیز کار میکند، که محققان به طور سرگرمکنندهای آن را با یک فایل صوتی از اجرای وایرال «پاпараزی» لیل وین توسط ان Hathaway ترکیب کردند. این ویدیو بسیار لذت بخش است و ارزش دیدن را دارد، حتی اگر در مورد اینکه چنین فناوریای چه فایدهای میتواند داشته باشد، شک دارید.