پس از گذشت یک سال، OpenAI هنوز ابزار شبیه سازی صوتی خود را منتشر نکرده است
اواخر مارس گذشته، OpenAI یک «پیشنمایش در مقیاس کوچک» از یک سرویس هوش مصنوعی به نام Voice Engine را اعلام کرد که این شرکت ادعا کرد میتواند صدای یک فرد را تنها با ۱۵ ثانیه گفتار شبیهسازی کند. تقریباً یک سال بعد، این ابزار در پیشنمایش باقی میماند و OpenAI هیچ نشانهای درباره زمان راهاندازی آن – یا اصلاً راهاندازی آن ارائه نکرده است.
به گزارش اپست به نقل از تک کرانچ، بی میلی این شرکت برای ارائه خدمات به طور گسترده ممکن است به ترس از سوء استفاده اشاره کند، اما همچنین می تواند نشان دهنده تلاش برای جلوگیری از دعوت از نظارت نظارتی باشد. OpenAI در طول تاریخ متهم به اولویت دادن به “محصولات براق” به بهای ایمنی، و عجله در انتشار برای شکست دادن شرکت های رقیب به بازار بوده است.
در بیانیه ای، سخنگوی OpenAI به TechCrunch گفت که این شرکت به آزمایش Voice Engine با مجموعه محدودی از “شریک های قابل اعتماد” ادامه می دهد.
سخنگو گفت: «[ما] از نحوه استفاده [شریکای ما] از فناوری یاد میگیریم تا بتوانیم سودمندی و ایمنی مدل را بهبود ببخشیم». ما از دیدن روشهای مختلف استفاده از آن، از گفتار درمانی، یادگیری زبان، پشتیبانی مشتری، شخصیتهای بازی ویدیویی و آواتارهای هوش مصنوعی، هیجانزده شدهایم.»
عقب رانده شد
Voice Engine، که صداهای موجود در API متن به گفتار OpenAI و همچنین حالت صوتی ChatGPT را تقویت می کند، گفتاری با صدای طبیعی تولید می کند که بسیار شبیه به بلندگوی اصلی است. این ابزار کاراکترهای نوشته شده را به گفتار تبدیل میکند که فقط توسط نردههای محافظ خاصی در محتوا محدود میشود. اما از همان ابتدا با تاخیر و تغییر پنجرههای انتشار مواجه شد.
همانطور که OpenAI در یک پست وبلاگ ژوئن ۲۰۲۴ توضیح داد، مدل Voice Engine یاد میگیرد که محتملترین صداهایی را که یک گوینده برای یک متن معین تولید میکند، با در نظر گرفتن صداها، لهجهها و سبکهای گفتاری مختلف پیشبینی کند. پس از این، مدل میتواند نه تنها نسخههای گفتاری متن، بلکه «گفتههای گفتاری» تولید کند که نشان میدهد چگونه انواع مختلف سخنرانان متن را با صدای بلند میخوانند.
طبق پیش نویس پست وبلاگی که توسط TechCrunch مشاهده شد، OpenAI در ابتدا قصد داشت Voice Engine را که در ابتدا به نام Custom Voices نامیده می شد، به API خود در ۷ مارس ۲۰۲۴ بیاورد. این طرح این بود که به گروهی متشکل از ۱۰۰ “توسعهدهنده مورد اعتماد” قبل از معرفی گستردهتر دسترسی داشته باشند، با اولویت برنامهنویسانی که برنامههایی را ایجاد میکنند که “مزایای اجتماعی” ارائه میدهند یا استفادههای “ابتکاری و مسئولانه” از فناوری را نشان میدهند. OpenAI حتی علامت تجاری و قیمت گذاری کرده بود: ۱۵ دلار به ازای هر میلیون کاراکتر برای صدای «استاندارد» و ۳۰ دلار به ازای هر میلیون کاراکتر برای صداهای «کیفیت HD».
سپس، در ساعت یازدهم، شرکت اعلام را به تعویق انداخت. OpenAI چند هفته بعد بدون گزینه ثبت نام از Voice Engine رونمایی کرد. OpenAI گفت که دسترسی به این ابزار محدود به گروهی متشکل از ۱۰ توسعه دهنده خواهد بود که شرکت در اواخر سال ۲۰۲۳ کار با آنها را آغاز کرد.
OpenAI در پست وبلاگ اعلامی Voice Engine در اواخر مارس ۲۰۲۴ نوشت: “ما امیدواریم که گفتگویی را در مورد استقرار مسئولانه صداهای مصنوعی و نحوه سازگاری جامعه با این قابلیت های جدید آغاز کنیم.”
مدت زیادی در کار است
به گفته OpenAI، Voice Engine از سال ۲۰۲۲ در حال کار است. این شرکت ادعا می کند که این ابزار را در تابستان ۲۰۲۳ برای “سیاست گذاران جهانی در بالاترین سطوح” نمایش داده است تا پتانسیل و خطرات خود را به نمایش بگذارد.
امروزه چندین شریک به Voice Engine دسترسی دارند، از جمله راهاندازی Livox، که در حال ساخت دستگاههایی است که افراد دارای معلولیت را قادر میسازد تا به طور طبیعی با هم ارتباط برقرار کنند. مدیر عامل شرکت کارلوس پریرا به TechCrunch گفت در حالی که Livox در نهایت نمیتوانست Voice Engine را به دلیل نیاز آنلاین این ابزار (بسیاری از مشتریان Livox اینترنت ندارند) در یک محصول بسازد، او این فناوری را “واقعاً چشمگیر” دانست.
پریرا از طریق ایمیل به TechCrunch گفت: “کیفیت صدا و امکان صحبت صداها به زبان های مختلف منحصر به فرد است – به ویژه برای افراد دارای معلولیت، مشتریان ما.” “این واقعا چشمگیرترین و آسان ترین [ابزار] برای ایجاد صداهایی است که من دیده ام […] ما امیدواریم که OpenAI به زودی یک نسخه آفلاین را توسعه دهد.”
Pereira میگوید که او راهنماییهایی از OpenAI در مورد راهاندازی احتمالی Voice Engine دریافت نکرده است، و همچنین هیچ نشانهای ندیده است که شرکت قصد دارد هزینه این سرویس را شروع کند. تا کنون، Livox برای استفاده از آن هزینه ای پرداخت نکرده است.
در آن پست فوق الذکر در ژوئن ۲۰۲۴، OpenAI اشاره کرد که یکی از ملاحظات خود در به تاخیر انداختن Voice Engine، احتمال سوء استفاده در چرخه انتخابات سال گذشته ایالات متحده بود. با اطلاع از بحث با ذینفعان، Voice Engine چندین اقدامات ایمنی کاهش دهنده، از جمله واترمارکینگ برای ردیابی منشأ صدای تولید شده، دارد.
طبق گفته OpenAI، توسعهدهندگان باید قبل از استفاده از Voice Engine، «رضایت صریح» را از بلندگوی اصلی دریافت کنند و باید «افشای واضح» را برای مخاطبان خود اعلام کنند که صداها توسط هوش مصنوعی تولید میشوند. با این حال، این شرکت نگفته است که چگونه این سیاست ها را اجرا می کند. انجام این کار در مقیاس می تواند بسیار چالش برانگیز باشد، حتی برای شرکتی با منابع OpenAI.
OpenAI همچنین در پستهای وبلاگ خود اشاره کرد که امیدوار است یک «تجربه احراز هویت صوتی» برای تأیید بلندگوها و یک لیست «ممنوع» ایجاد کند که از ایجاد صداهایی که بسیار شبیه به چهرههای برجسته هستند جلوگیری میکند. هر دو پروژههای جاهطلبانه فنآوری هستند، و اشتباه گرفتن آنها بر شرکتی که اغلب متهم به کنار گذاشتن ابتکارات ایمنی است، بازتاب ضعیفی دارد.
فیلتر کردن مؤثر و تأیید شناسه به سرعت در حال تبدیل شدن به الزامات پایه برای نسخههای فنی شبیهسازی صوتی مسئول هستند. به گفته یک منبع، شبیه سازی صدای هوش مصنوعی سومین کلاهبرداری سریع در سال ۲۰۲۴ بود. این منجر به کلاهبرداری و دور زدن چک های امنیتی بانکی شده است زیرا قوانین حفظ حریم خصوصی و حق چاپ در تلاش برای ادامه دادن هستند. بازیگران مخرب از شبیهسازی صدا برای ایجاد دیپفیکهای آتشزا از افراد مشهور و سیاستمداران استفاده کردهاند و این دیپفیکها مانند آتش در رسانههای اجتماعی پخش شدهاند.
OpenAI می تواند Voice Engine را هفته آینده منتشر کند – یا هرگز. این شرکت بارها و بارها گفته است که در تلاش است تا این سرویس را در محدوده کوچک نگه دارد. اما یک چیز واضح است: به دلایل اپتیک، دلایل ایمنی یا هر دو، پیشنمایش محدود Voice Engine به یکی از طولانیترین پیشنمایشها در تاریخ OpenAI تبدیل شده است.