آخرین نسخه از Grok متعلق به شرکت xAI میتواند تصاویر را پردازش کند.
Grok-1.5V اولین نسل از مدلهای هوش مصنوعی چند حالته (multimodal) این شرکت است.
به گزارش اپست به نقل از اینجگت، xAI، رقیب OpenAI که توسط ایلان ماسک تأسیس شده، اولین نسخه از Grok را معرفی کرده است که میتواند اطلاعات بصری را پردازش کند. Grok-1.5V اولین نسل از مدلهای هوش مصنوعی چند حالته این شرکت است که نه تنها میتواند متن را پردازش کند، بلکه میتواند «اسناد، نمودارها، جداول، اسکرینشاتها و عکسها» را نیز درک کند. در اعلامیه xAI، چند نمونه از نحوه استفاده از قابلیتهای آن در دنیای واقعی ارائه شده است. برای مثال، میتوانید عکس یک فلوچارت را به آن نشان دهید و از Grok بخواهید آن را به کد پایتون ترجمه کند، از آن بخواهید داستانی بر اساس یک نقاشی بنویسد و حتی میتوانید از آن بخواهید ممی را که متوجه آن نمیشوید توضیح دهد.
این نسخه جدید تنها چند هفته پس از معرفی Grok-1.5 توسط این شرکت ارائه شده است. آن مدل برای بهتر بودن در زمینه کد نویسی و ریاضی نسبت به مدل قبلی خود طراحی شده بود، و همچنین قادر به پردازش زمینههای طولانیتر بود تا بتواند دادهها را از منابع بیشتری برای درک بهتر سوالات خاص بررسی کند. xAI اعلام کرد که آزمایشکنندگان اولیه و کاربران فعلی آن به زودی قادر خواهند بود از قابلیتهای Grok-1.5V استفاده کنند، اگرچه جدول زمانی دقیقی برای ارائه آن مشخص نکرد.
علاوه بر معرفی Grok-1.5V، این شرکت همچنین یک مجموعه داده معیار به نام RealWorldQA منتشر کرده است. میتوانید از هر یک از ۷۰۰ تصویر RealWorldQA برای ارزیابی مدلهای هوش مصنوعی استفاده کنید: هر مورد با سوالات و پاسخهایی همراه است که به راحتی قابل تأیید هستند، اما ممکن است مدلهای چند حالته مانند Grok را به چالش بکشند. xAI ادعا کرد که فناوری آنها در هنگام آزمایش با RealWorldQA در برابر رقبایی مانند GPT-4V OpenAI و Google Gemini Pro 1.5 بالاترین امتیاز را کسب کرده است.