• امروز : پنجشنبه, ۲۵ اردیبهشت , ۱۴۰۴
  • برابر با : Thursday - 15 May - 2025
امروز 1
1

پس از گذشت یک سال، OpenAI هنوز ابزار شبیه سازی صوتی خود را منتشر نکرده است

  • کد خبر : 17572
  • ۱۶ اسفند ۱۴۰۳ - ۱۹:۵۰
پس از گذشت یک سال، OpenAI هنوز ابزار شبیه سازی صوتی خود را منتشر نکرده است
اواخر مارس گذشته، OpenAI یک «پیش‌نمایش در مقیاس کوچک» از یک سرویس هوش مصنوعی به نام Voice Engine را اعلام کرد که این شرکت ادعا کرد می‌تواند صدای یک فرد را تنها با 15 ثانیه گفتار شبیه‌سازی کند. تقریباً یک سال بعد، این ابزار در پیش‌نمایش باقی می‌ماند و OpenAI هیچ نشانه‌ای درباره زمان راه‌اندازی آن - یا اصلاً راه‌اندازی آن ارائه نکرده است.

پس از گذشت یک سال، OpenAI هنوز ابزار شبیه سازی صوتی خود را منتشر نکرده است

اواخر مارس گذشته، OpenAI یک «پیش‌نمایش در مقیاس کوچک» از یک سرویس هوش مصنوعی به نام Voice Engine را اعلام کرد که این شرکت ادعا کرد می‌تواند صدای یک فرد را تنها با ۱۵ ثانیه گفتار شبیه‌سازی کند. تقریباً یک سال بعد، این ابزار در پیش‌نمایش باقی می‌ماند و OpenAI هیچ نشانه‌ای درباره زمان راه‌اندازی آن – یا اصلاً راه‌اندازی آن ارائه نکرده است.

به گزارش اپست به نقل از تک کرانچ، بی میلی این شرکت برای ارائه خدمات به طور گسترده ممکن است به ترس از سوء استفاده اشاره کند، اما همچنین می تواند نشان دهنده تلاش برای جلوگیری از دعوت از نظارت نظارتی باشد. OpenAI در طول تاریخ متهم به اولویت دادن به “محصولات براق” به بهای ایمنی، و عجله در انتشار برای شکست دادن شرکت های رقیب به بازار بوده است.

اینستاگرام اپست

در بیانیه ای، سخنگوی OpenAI به TechCrunch گفت که این شرکت به آزمایش Voice Engine با مجموعه محدودی از “شریک های قابل اعتماد” ادامه می دهد.

سخنگو گفت: «[ما] از نحوه استفاده [شریکای ما] از فناوری یاد می‌گیریم تا بتوانیم سودمندی و ایمنی مدل را بهبود ببخشیم». ما از دیدن روش‌های مختلف استفاده از آن، از گفتار درمانی، یادگیری زبان، پشتیبانی مشتری، شخصیت‌های بازی ویدیویی و آواتارهای هوش مصنوعی، هیجان‌زده شده‌ایم.»

عقب رانده شد

Voice Engine، که صداهای موجود در API متن به گفتار OpenAI و همچنین حالت صوتی ChatGPT را تقویت می کند، گفتاری با صدای طبیعی تولید می کند که بسیار شبیه به بلندگوی اصلی است. این ابزار کاراکترهای نوشته شده را به گفتار تبدیل می‌کند که فقط توسط نرده‌های محافظ خاصی در محتوا محدود می‌شود. اما از همان ابتدا با تاخیر و تغییر پنجره‌های انتشار مواجه شد.

همانطور که OpenAI در یک پست وبلاگ ژوئن ۲۰۲۴ توضیح داد، مدل Voice Engine یاد می‌گیرد که محتمل‌ترین صداهایی را که یک گوینده برای یک متن معین تولید می‌کند، با در نظر گرفتن صداها، لهجه‌ها و سبک‌های گفتاری مختلف پیش‌بینی کند. پس از این، مدل می‌تواند نه تنها نسخه‌های گفتاری متن، بلکه «گفته‌های گفتاری» تولید کند که نشان می‌دهد چگونه انواع مختلف سخنرانان متن را با صدای بلند می‌خوانند.

مطالب خواندنی :  اینستاگرام اکنون پس‌زمینه‌های تولید شده با هوش مصنوعی را در استوری ارائه می‌دهد

طبق پیش نویس پست وبلاگی که توسط TechCrunch مشاهده شد، OpenAI در ابتدا قصد داشت Voice Engine را که در ابتدا به نام Custom Voices نامیده می شد، به API خود در ۷ مارس ۲۰۲۴ بیاورد. این طرح این بود که به گروهی متشکل از ۱۰۰ “توسعه‌دهنده مورد اعتماد” قبل از معرفی گسترده‌تر دسترسی داشته باشند، با اولویت برنامه‌نویسانی که برنامه‌هایی را ایجاد می‌کنند که “مزایای اجتماعی” ارائه می‌دهند یا استفاده‌های “ابتکاری و مسئولانه” از فناوری را نشان می‌دهند. OpenAI حتی علامت تجاری و قیمت گذاری کرده بود: ۱۵ دلار به ازای هر میلیون کاراکتر برای صدای «استاندارد» و ۳۰ دلار به ازای هر میلیون کاراکتر برای صداهای «کیفیت HD».

سپس، در ساعت یازدهم، شرکت اعلام را به تعویق انداخت. OpenAI چند هفته بعد بدون گزینه ثبت نام از Voice Engine رونمایی کرد. OpenAI گفت که دسترسی به این ابزار محدود به گروهی متشکل از ۱۰ توسعه دهنده خواهد بود که شرکت در اواخر سال ۲۰۲۳ کار با آنها را آغاز کرد.

OpenAI در پست وبلاگ اعلامی Voice Engine در اواخر مارس ۲۰۲۴ نوشت: “ما امیدواریم که گفتگویی را در مورد استقرار مسئولانه صداهای مصنوعی و نحوه سازگاری جامعه با این قابلیت های جدید آغاز کنیم.”

مدت زیادی در کار است

به گفته OpenAI، Voice Engine از سال ۲۰۲۲ در حال کار است. این شرکت ادعا می کند که این ابزار را در تابستان ۲۰۲۳ برای “سیاست گذاران جهانی در بالاترین سطوح” نمایش داده است تا پتانسیل و خطرات خود را به نمایش بگذارد.

امروزه چندین شریک به Voice Engine دسترسی دارند، از جمله راه‌اندازی Livox، که در حال ساخت دستگاه‌هایی است که افراد دارای معلولیت را قادر می‌سازد تا به طور طبیعی با هم ارتباط برقرار کنند. مدیر عامل شرکت کارلوس پریرا به TechCrunch گفت در حالی که Livox در نهایت نمی‌توانست Voice Engine را به دلیل نیاز آنلاین این ابزار (بسیاری از مشتریان Livox اینترنت ندارند) در یک محصول بسازد، او این فناوری را “واقعاً چشمگیر” دانست.

مطالب خواندنی :  متا در حال آزمایش یک ویژگی موضوعات پرطرفدار در Threads است

پریرا از طریق ایمیل به TechCrunch گفت: “کیفیت صدا و امکان صحبت صداها به زبان های مختلف منحصر به فرد است – به ویژه برای افراد دارای معلولیت، مشتریان ما.” “این واقعا چشمگیرترین و آسان ترین [ابزار] برای ایجاد صداهایی است که من دیده ام […] ما امیدواریم که OpenAI به زودی یک نسخه آفلاین را توسعه دهد.”

Pereira می‌گوید که او راهنمایی‌هایی از OpenAI در مورد راه‌اندازی احتمالی Voice Engine دریافت نکرده است، و همچنین هیچ نشانه‌ای ندیده است که شرکت قصد دارد هزینه این سرویس را شروع کند. تا کنون، Livox برای استفاده از آن هزینه ای پرداخت نکرده است.

در آن پست فوق الذکر در ژوئن ۲۰۲۴، OpenAI اشاره کرد که یکی از ملاحظات خود در به تاخیر انداختن Voice Engine، احتمال سوء استفاده در چرخه انتخابات سال گذشته ایالات متحده بود. با اطلاع از بحث با ذینفعان، Voice Engine چندین اقدامات ایمنی کاهش دهنده، از جمله واترمارکینگ برای ردیابی منشأ صدای تولید شده، دارد.

طبق گفته OpenAI، توسعه‌دهندگان باید قبل از استفاده از Voice Engine، «رضایت صریح» را از بلندگوی اصلی دریافت کنند و باید «افشای واضح» را برای مخاطبان خود اعلام کنند که صداها توسط هوش مصنوعی تولید می‌شوند. با این حال، این شرکت نگفته است که چگونه این سیاست ها را اجرا می کند. انجام این کار در مقیاس می تواند بسیار چالش برانگیز باشد، حتی برای شرکتی با منابع OpenAI.

OpenAI همچنین در پست‌های وبلاگ خود اشاره کرد که امیدوار است یک «تجربه احراز هویت صوتی» برای تأیید بلندگوها و یک لیست «ممنوع» ایجاد کند که از ایجاد صداهایی که بسیار شبیه به چهره‌های برجسته هستند جلوگیری می‌کند. هر دو پروژه‌های جاه‌طلبانه فن‌آوری هستند، و اشتباه گرفتن آن‌ها بر شرکتی که اغلب متهم به کنار گذاشتن ابتکارات ایمنی است، بازتاب ضعیفی دارد.

مطالب خواندنی :  تأخیر در تولید تراشه‌های هوش مصنوعی انویدیا می‌تواند برای سامسونگ مفید باشد

فیلتر کردن مؤثر و تأیید شناسه به سرعت در حال تبدیل شدن به الزامات پایه برای نسخه‌های فنی شبیه‌سازی صوتی مسئول هستند. به گفته یک منبع، شبیه سازی صدای هوش مصنوعی سومین کلاهبرداری سریع در سال ۲۰۲۴ بود. این منجر به کلاهبرداری و دور زدن چک های امنیتی بانکی شده است زیرا قوانین حفظ حریم خصوصی و حق چاپ در تلاش برای ادامه دادن هستند. بازیگران مخرب از شبیه‌سازی صدا برای ایجاد دیپ‌فیک‌های آتش‌زا از افراد مشهور و سیاستمداران استفاده کرده‌اند و این دیپ‌فیک‌ها مانند آتش در رسانه‌های اجتماعی پخش شده‌اند.

OpenAI می تواند Voice Engine را هفته آینده منتشر کند – یا هرگز. این شرکت بارها و بارها گفته است که در تلاش است تا این سرویس را در محدوده کوچک نگه دارد. اما یک چیز واضح است: به دلایل اپتیک، دلایل ایمنی یا هر دو، پیش‌نمایش محدود Voice Engine به یکی از طولانی‌ترین پیش‌نمایش‌ها در تاریخ OpenAI تبدیل شده است.

فروشگاه کوکوهوم
لینک کوتاه : https://www.appest.ir/?p=17572

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : 0
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.