مدل هوش مصنوعی جدید انویدیا، فوگاتو، قادر به تولید صدا از متن است

نوامبر 25, 2024

0 4 خواندن این مطلب 2 دقیقه زمان میبرد

مدل هوش مصنوعی جدید انویدیا، فوگاتو، قادر به تولید صدا از متن است

به گزارش اپست به نقل از انگجت ، انویدیا یک مدل آزمایشی جدید هوش مصنوعی مولد را معرفی کرده است که آن را “چاقوی ارتش سوئیس صدا” توصیف می کند. این مدل به نام Foundational Generative Audio Transformer Opus 1 یا Fugatto، می تواند دستورات را از پیام های متنی دریافت کرده و از آنها برای ایجاد صدا یا اصلاح فایل های موسیقی، صدا و صدای موجود استفاده کند. این مدل توسط تیمی از محققان هوش مصنوعی از سراسر جهان طراحی شده است و NVIDIA می گوید که این امر “قابلیت های چند زبانه و چند لهجه ای” مدل را قوی تر کرده است.

رافائل واله، یکی از محققان این پروژه و مدیر تحقیقات صوتی کاربردی در NVIDIA، گفت: “ما می خواستیم مدلی ایجاد کنیم که صدا را مانند انسان درک و تولید کند.” این شرکت در اطلاعیه خود برخی از سناریوهای دنیای واقعی را که Fugatto می تواند در آنها مفید باشد، فهرست کرده است. به گفته این شرکت، تولیدکنندگان موسیقی می توانند از این فناوری برای تولید سریع یک نمونه اولیه برای یک ایده آهنگ استفاده کنند که سپس می توانند به راحتی آن را ویرایش کنند تا سبک ها، صداها و سازهای مختلف را امتحان کنند.

افراد می توانند از آن برای تولید مطالب برای ابزارهای یادگیری زبان با صدای دلخواه خود استفاده کنند. و توسعه دهندگان بازی های ویدیویی می توانند از آن برای ایجاد تغییرات در دارایی های از پیش ضبط شده استفاده کنند تا با تغییرات در بازی بر اساس انتخاب ها و اقدامات بازیکنان مطابقت داشته باشد. علاوه بر این، محققان دریافتند که این مدل می تواند با کمی تنظیم دقیق، کارهایی را انجام دهد که بخشی از پیش آموزش آن نیست. می تواند دستورالعمل هایی را که به طور جداگانه روی آن آموزش دیده است، مانند تولید گفتاری که با لهجه خاصی عصبانی به نظر می رسد یا صدای پرندگان در حال آواز خواندن در طول طوفان رعد و برق، ترکیب کند. این مدل می تواند صداهایی را تولید کند که با گذشت زمان تغییر می کنند، مانند صدای توفان رعد و برق در حال حرکت در سراسر زمین.

NVIDIA نگفت که آیا به عموم مردم دسترسی به Fugatto را خواهد داد یا خیر، اما این مدل اولین فناوری هوش مصنوعی مولد نیست که می تواند صدا را از پیام های متنی ایجاد کند. Meta قبلاً یک کیت هوش مصنوعی منبع باز را منتشر کرده است که می تواند صداهایی را از توضیحات متنی ایجاد کند. گوگل نیز هوش مصنوعی متن به موسیقی خود به نام MusicLM را دارد که مردم می توانند از طریق وب سایت AI Test Kitchen شرکت به آن دسترسی داشته باشند.