مدل ویدیویی هوش مصنوعی جدید گوگل، در زمینه فیزیک عملکرد ضعیف‌تری دارد.

دسامبر 16, 2024

0 6 خواندن این مطلب 2 دقیقه زمان میبرد

مدل ویدیویی هوش مصنوعی جدید گوگل، در زمینه فیزیک عملکرد ضعیف‌تری دارد.

به گزارش اپست به نقل از انگجت ، گوگل ممکن است به تازگی شروع به ارائه هوش مصنوعی مولد Veo خود به مشتریان کرده باشد، اما این شرکت هیچ زمانی را برای عرضه نسخه جدید این ابزار ویدیویی به آزمایش‌کنندگان اولیه تلف نمی‌کند. روز دوشنبه، گوگل از پیش‌نمایش Veo 2 رونمایی کرد. طبق گفته این شرکت، Veo 2 “زبان سینماگری را درک می‌کند.” در عمل، این بدان معناست که شما می‌توانید هنگام درخواست از مدل، به یک ژانر خاص فیلم، جلوه سینمایی یا لنز خاص اشاره کنید.

علاوه بر این، گوگل می‌گوید مدل جدید درک بهتری از فیزیک دنیای واقعی و حرکت انسان دارد. مدل‌سازی صحیح انسان در حال حرکت چیزی است که همه مدل‌های مولد در انجام آن با مشکل مواجه هستند. بنابراین ادعای شرکت مبنی بر بهتر بودن Veo 2 در هر دو مورد قابل توجه است. البته، نمونه‌هایی که شرکت ارائه کرده است برای اطمینان کافی نیستند؛ آزمون واقعی قابلیت‌های Veo 2 زمانی خواهد بود که کسی از آن بخواهد ویدیویی از روتین یک ژیمناست را تولید کند. آه، و صحبت از چیزهایی که مدل‌های ویدیویی با آن‌ها مشکل دارند، گوگل می‌گوید Veo “کمتر” مصنوعاتی مانند انگشتان اضافی تولید می‌کند.

به طور جداگانه، گوگل در حال ارائه بهبودهایی برای Imagen 3 است. این شرکت در مورد مدل متن به تصویر خود می‌گوید که آخرین نسخه تصاویر روشن‌تر و بهتر ترکیب شده‌ای تولید می‌کند. علاوه بر این، می‌تواند سبک‌های هنری متنوع‌تری را با دقت بیشتر ارائه دهد. در عین حال، در پیروی دقیق‌تر از دستورالعمل‌ها نیز بهتر است. پایبندی به دستورالعمل مشکلی بود که من هنگام در دسترس قرار دادن Imagen 3 برای مشتریان Google Cloud در اوایل این ماه برجسته کردم، بنابراین اگر چیز دیگری نباشد، گوگل از مناطقی که مدل‌های هوش مصنوعی آن نیاز به کار دارند آگاه است.

Veo 2 به تدریج برای کاربران Google Labs در آمریکا عرضه خواهد شد. در حال حاضر، گوگل آزمایش‌کنندگان را به تولید حداکثر هشت ثانیه فیلم با کیفیت 720p محدود می‌کند. برای مقایسه، Sora می‌تواند حداکثر 20 ثانیه فیلم 1080p تولید کند، اما انجام این کار نیاز به اشتراک ChatGPT Pro 200 دلاری در ماه دارد. در مورد آخرین پیشرفت‌های Imagen 3، این موارد از طریق ImageFX برای کاربران Google Labs در بیش از 100 کشور در دسترس هستند.