Ünlü iş insanı Elon Musk tarafından Mart 2023’te kurulan xAI şirketi, Grok adlı sohbet botu için Grok Grok-1.5 modelini duyurdu. İlk sürüme kıyasla oldukça gelişmiş olduğu paylaşılan bu modelin OpenAI tarafından geliştirilen GPT-4‘ten de daha performanslı olduğu söyleniyor. İşte Grok-1.5 modeli ile ilgili ayrıntılar…
Grok-1.5 modeli, GPT-4’ü geride bırakıyor!
xAI, resmi web sitesi üzerinden Grok-1.5 modelini duyurdu. Şirket tarafından paylaşılan bilgilere göre yeni model, artık belgeler, diyagramlar, çizelgeler, ekran görüntüleri ve fotoğraflar da dahil olmak üzere görsel işleyebiliyor.
![](https://balikcil.org/wp-content/uploads/2024/04/grok-15-modeli-duyuruldu-gpt-4ten-daha-mi-iyi-1-YpQVYJei.webp)
Çok yönlü modlu modeller ile rekabet edebildiği belirtilen Grok-1.5 ile ilgili paylaşılan örneklere baktığımızda modelin tabloyu CSV’ye dönüştürme, koddaki hatayı çözme, diyagramı kodu dönüştürme ve meme açıklama gibi yetenekleriyle öne çıktığını görüyoruz.
Grok-1.5, xAI tarafından gerçekleştirilen MMMU testlerinde yüzde 53.6 oranında başarı elde etti. Karşılaştırma yapacak olursak, GPT-4 aynı testlerde yüzde 56.8 başarı sağladı. Ancak matematikle ilgili testlerde Grok-1.5, yüzde 52.8‘lik bir başarı elde ederek GPT-4‘ü geride bıraktı. Ayrıca xAI‘ın yeni modeli AI2D, metin okuma ve anlama ile gerçek dünya anlayışı testlerinde de rakiplerini zorladı.
Grok-1.5 ve rakip modellerin Benchmark sonuçları şu şekilde;
Benchmark | Grok-1.5V | GPT-4V | Claude 3 Sonnet | Claude 3 Opus | Gemini Pro 1.5 |
---|---|---|---|---|---|
MMMU (Çok Disiplinli) | 53.6% | 56.8% | 53.1% | 59.4% | 58.5% |
Matematik | 52.8% | 49.9% | 47.9% | 50.5% | 52.1% |
AI2D | 88.3% | 78.2% | 88.7% | 88.1% | 80.3% |
Metin okuma | 78.1% | 78.0% | – | – | 73.5% |
ChartQA | 76.1% | 78.5% | 81.1% | 80.8% | 81.3% |
Belgeler | 85.6% | 88.4% | 89.5% | 89.3% | 86.5% |
Gerçek Dünya Anlayışı | 68.7% | 61.4% | 51.9% | 49.8% | 67.5% |
xAI, Grok-1.5 modelini yakın zamanda kullanıcılar ile test etmeye başlayacağını ve X‘teki Grok sohbet botuna entegre edeceğini açıkladı. Bilmeyenler için bu bota erişebilmek için X Premium abonesi olmak gerekiyor.
Peki siz bu konu hakkında neler düşünüyorsunuz? Grok-1.5 modelinin yeteneklerini ve Benchmark sonuçlarını nasıl buldunuz? Görüşlerinizi aşağıdaki Yorumlar kısmından bizimle paylaşabilirsiniz.