اخبار اینترنت و شبکه کامپیوتر هوش مصنوعی

بر اساس گزارش نیویورک تایمز، OpenAI و گوگل از رونوشت‌های ویدیوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده کرده‌اند

آوریل 7, 2024

0 0 خواندن این مطلب 2 دقیقه زمان میبرد

بر اساس گزارش نیویورک تایمز، OpenAI و گوگل از رونوشت‌های ویدیوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده کرده‌اند

به گزارش اپست به نقل از اینجگت، بر اساس گزارش نیویورک تایمز، OpenAI و گوگل از رونوشت‌های ویدیوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده کرده‌اند که این امر ممکن است حقوق نسخه‌ی سازندگان محتوا در یوتیوب را نقض کند. این گزارش که تلاش‌های OpenAI، گوگل و متا را برای به حداکثر رساندن داده‌هایی که می‌توانند به هوش مصنوعی خود تغذیه کنند، شرح می‌دهد، به گفته‌های افراد متعددی که از شیوه‌های این شرکت‌ها مطلع هستند استناد می‌کند. این گزارش تنها چند روز پس از مصاحبه نیل موهن، مدیرعامل یوتیوب با بلومبرگ اورجینالز منتشر شد که در آن ادعا می‌کرد استفاده‌ی OpenAI از ویدیوهای یوتیوب برای آموزش مولد متن به ویدیوی جدید خود به نام «سورا» بر خلاف سیاست‌های این پلتفرم است.

طبق گزارش نیویورک تایمز، OpenAI از ابزار تشخیص گفتار Whisper خود برای رونوشت بیش از یک میلیون ساعت ویدیوی یوتیوب استفاده کرده است که سپس برای آموزش GPT-4 به کار رفته است. نشریه‌ی The Information پیش از این گزارش داده بود که OpenAI از ویدیوها و پادکست‌های یوتیوب برای آموزش دو سیستم هوش مصنوعی استفاده کرده است. گفته می‌شود گرگ بروکمن، رئیس OpenAI، از جمله افرادی در این تیم بوده است.

مت بریانت، سخنگوی گوگل، به نیویورک تایمز گفت که طبق قوانین گوگل، «استخراج یا دانلود غیرمجاز محتوای یوتیوب» مجاز نیست و همچنین ادعا کرد که این شرکت از چنین استفاده‌ای توسط OpenAI بی‌اطلاع است.

با این حال، این گزارش ادعا می‌کند که افرادی در گوگل از این موضوع مطلع بوده‌اند اما علیه OpenAI اقدامی انجام نداده‌اند زیرا گوگل خود از ویدیوهای یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کرد. گوگل به نیویورک تایمز گفت که این کار را تنها با ویدیوهای سازندگانی انجام می‌دهد که با این موضوع موافقت کرده‌اند.

گزارش نیویورک تایمز همچنین ادعا می‌کند که گوگل در ژوئن ۲۰۲۳ از تیمی خواسته است تا سیاست حفظ حریم خصوصی خود را برای پوشش گسترده‌تر استفاده‌ی آن‌ها از محتوای در دسترس عموم، از جمله Google Docs و Google Sheets، برای آموزش مدل‌ها و محصولات هوش مصنوعی خود به روز کند. این تغییرات که گوگل می‌گوید برای شفافیت بیشتر انجام شده است، در جولای منتشر شد. بریانت به نیویورک تایمز گفت که این نوع داده‌ها فقط با مجوز کاربرانی که در آزمایش ویژگی‌های تجربی گوگل شرکت می‌کنند، استفاده می‌شود و این شرکت «بر اساس این تغییر زبان، آموزش بر روی انواع دیگری از داده‌ها را آغاز نکرده است.» این تغییر، بارد را به عنوان نمونه‌ای از آنچه این داده‌ها ممکن است برای آن استفاده شود، اضافه کرد.