اخبار اینترنت و شبکه کامپیوتر هوش مصنوعی

آخرین نسخه از Grok متعلق به شرکت xAI می‌تواند تصاویر را پردازش کند.

آوریل 13, 2024

0 0 خواندن این مطلب 1 دقیقه زمان میبرد

آخرین نسخه از Grok متعلق به شرکت xAI می‌تواند تصاویر را پردازش کند.

Grok-1.5V اولین نسل از مدل‌های هوش مصنوعی چند حالته (multimodal) این شرکت است.

به گزارش اپست به نقل از اینجگت، xAI، رقیب OpenAI که توسط ایلان ماسک تأسیس شده، اولین نسخه از Grok را معرفی کرده است که می‌تواند اطلاعات بصری را پردازش کند. Grok-1.5V اولین نسل از مدل‌های هوش مصنوعی چند حالته این شرکت است که نه تنها می‌تواند متن را پردازش کند، بلکه می‌تواند «اسناد، نمودارها، جداول، اسکرین‌شات‌ها و عکس‌ها» را نیز درک کند. در اعلامیه xAI، چند نمونه از نحوه استفاده از قابلیت‌های آن در دنیای واقعی ارائه شده است. برای مثال، می‌توانید عکس یک فلوچارت را به آن نشان دهید و از Grok بخواهید آن را به کد پایتون ترجمه کند، از آن بخواهید داستانی بر اساس یک نقاشی بنویسد و حتی می‌توانید از آن بخواهید ممی را که متوجه آن نمی‌شوید توضیح دهد.

این نسخه جدید تنها چند هفته پس از معرفی Grok-1.5 توسط این شرکت ارائه شده است. آن مدل برای بهتر بودن در زمینه کد نویسی و ریاضی نسبت به مدل قبلی خود طراحی شده بود، و همچنین قادر به پردازش زمینه‌های طولانی‌تر بود تا بتواند داده‌ها را از منابع بیشتری برای درک بهتر سوالات خاص بررسی کند. xAI اعلام کرد که آزمایش‌کنندگان اولیه و کاربران فعلی آن به زودی قادر خواهند بود از قابلیت‌های Grok-1.5V استفاده کنند، اگرچه جدول زمانی دقیقی برای ارائه آن مشخص نکرد.

علاوه بر معرفی Grok-1.5V، این شرکت همچنین یک مجموعه داده معیار به نام RealWorldQA منتشر کرده است. می‌توانید از هر یک از ۷۰۰ تصویر RealWorldQA برای ارزیابی مدل‌های هوش مصنوعی استفاده کنید: هر مورد با سوالات و پاسخ‌هایی همراه است که به راحتی قابل تأیید هستند، اما ممکن است مدل‌های چند حالته مانند Grok را به چالش بکشند. xAI ادعا کرد که فناوری آنها در هنگام آزمایش با RealWorldQA در برابر رقبایی مانند GPT-4V OpenAI و Google Gemini Pro 1.5 بالاترین امتیاز را کسب کرده است.