مدل ویدیویی هوش مصنوعی جدید گوگل، در زمینه فیزیک عملکرد ضعیفتری دارد.
به گزارش اپست به نقل از انگجت ، گوگل ممکن است به تازگی شروع به ارائه هوش مصنوعی مولد Veo خود به مشتریان کرده باشد، اما این شرکت هیچ زمانی را برای عرضه نسخه جدید این ابزار ویدیویی به آزمایشکنندگان اولیه تلف نمیکند. روز دوشنبه، گوگل از پیشنمایش Veo 2 رونمایی کرد. طبق گفته این شرکت، Veo 2 “زبان سینماگری را درک میکند.” در عمل، این بدان معناست که شما میتوانید هنگام درخواست از مدل، به یک ژانر خاص فیلم، جلوه سینمایی یا لنز خاص اشاره کنید.
علاوه بر این، گوگل میگوید مدل جدید درک بهتری از فیزیک دنیای واقعی و حرکت انسان دارد. مدلسازی صحیح انسان در حال حرکت چیزی است که همه مدلهای مولد در انجام آن با مشکل مواجه هستند. بنابراین ادعای شرکت مبنی بر بهتر بودن Veo 2 در هر دو مورد قابل توجه است. البته، نمونههایی که شرکت ارائه کرده است برای اطمینان کافی نیستند؛ آزمون واقعی قابلیتهای Veo 2 زمانی خواهد بود که کسی از آن بخواهد ویدیویی از روتین یک ژیمناست را تولید کند. آه، و صحبت از چیزهایی که مدلهای ویدیویی با آنها مشکل دارند، گوگل میگوید Veo “کمتر” مصنوعاتی مانند انگشتان اضافی تولید میکند.
به طور جداگانه، گوگل در حال ارائه بهبودهایی برای Imagen 3 است. این شرکت در مورد مدل متن به تصویر خود میگوید که آخرین نسخه تصاویر روشنتر و بهتر ترکیب شدهای تولید میکند. علاوه بر این، میتواند سبکهای هنری متنوعتری را با دقت بیشتر ارائه دهد. در عین حال، در پیروی دقیقتر از دستورالعملها نیز بهتر است. پایبندی به دستورالعمل مشکلی بود که من هنگام در دسترس قرار دادن Imagen 3 برای مشتریان Google Cloud در اوایل این ماه برجسته کردم، بنابراین اگر چیز دیگری نباشد، گوگل از مناطقی که مدلهای هوش مصنوعی آن نیاز به کار دارند آگاه است.
Veo 2 به تدریج برای کاربران Google Labs در آمریکا عرضه خواهد شد. در حال حاضر، گوگل آزمایشکنندگان را به تولید حداکثر هشت ثانیه فیلم با کیفیت ۷۲۰p محدود میکند. برای مقایسه، Sora میتواند حداکثر ۲۰ ثانیه فیلم ۱۰۸۰p تولید کند، اما انجام این کار نیاز به اشتراک ChatGPT Pro 200 دلاری در ماه دارد. در مورد آخرین پیشرفتهای Imagen 3، این موارد از طریق ImageFX برای کاربران Google Labs در بیش از ۱۰۰ کشور در دسترس هستند.