Meta’nın diğer açık modelleri geride bırakan yeni yapay zeka modeli: Llama 3

Meta paylaştığı bir blog gönderisiyle yeni büyük dil modeli (LLM) Llama 3‘ü tanıttı. 8 milyar parametre ve 70 milyar parametreye sahip iki farklı model ağırlığıyla karşımıza çıkan Llama 3, AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM ve Snowflake gibi platformlarda yerini alacak. 

Model, şimdilik yalnızca metin tabanlı yanıtlar sunsa da Meta sunulan yanıtların önceki sürüme göre büyük bir sıçrama gerçekleştirdiğini ifade ediyor. Paylaşılan bilgilere göre; Llama 3’ün sorulara verdiği yanıtlar daha fazla çeşitlilik içeriyor. Aynı şekilde model, daha iyi muhakeme yetenekleriyle de öne çıkıyor. Bunlara ek olarak Meta’nın belirttiğine göre; Llama 3, daha fazla talimatı anlıyor ve öncekinden daha iyi kod yazıyor

Meta paylaştığı gönderide diğer modellerle kıyaslamaları içeren bir tabloya da yer veriyor. Buna göre; Llama 3’ün her iki boyutu da belirli kıyaslama testlerinde Google’ın Gemma ve Gemini, Mistral 7B ve Anthropic’in Claude 3’ü gibi benzer boyuttaki modelleri geride bırakıyor.

Genellikle genel bilgiyi ölçen MMLU kıyaslamasında Llama 3 8B, Gemma 7B ve Mistral 7B’den önemli ölçüde daha iyi performans gösteriyor. Benzer şekilde Llama 3 70B, Gemini Pro 1.5’i de az bir farkla geride bırakıyor. Yine de GPQA ve MATH kriterlerinde Gemini Pro 1.5’in önde olduğunu belirtelim. Öte yandan Meta’nın bu detaylı gönderisinde OpenAI’ın amiral gemisi modeli GPT-4’ten bahsedilmemesi dikkat çekti. 

Aslına bakarsanız, Kevin Roose’un The New York Times’da yayınladığı bir makale bizlere yapay zeka kıyaslama testlerinin modelleri kıyaslamak için yetersiz olduğunu gösteriyor. Roose’un belirttiğine göre; eğitimde kullanılan veri kümeleri kimi zaman kıyaslama testlerindeki yanıtları içerdiği için modeller testleri kolaylıkla geçebiliyor.

Meta’nın paylaştığı bilgilere göre; değerlendirme görevini üstlenen insanların sunduğu çıktılar, Llama 3’ün OpenAI’ın GPT-3.5 modeli de dahil olmak üzere diğer modellerden daha yüksek performans gösterdiğini ortaya koyuyor. Bu noktada Meta’nın Llama 3’ün kullanılabileceği gerçek dünya kullanım senaryolarını taklit etmek üzere değerlendiriciler için yeni bir veri kümesi oluşturduğunu belirtelim. Söz konusu veri kümesi tavsiye isteme, özetleme ve yaratıcı yazma gibi kullanım durumlarını içermekte Şirket, model üzerinde çalışan ekibin bu yeni değerlendirme verilerine erişimi olmadığını ve bunun modelin performansını etkilemediğini vurguluyor. 

Meta, Llama 3’ün daha büyük parametreye sahip çok modlu (multimodal) bir versiyonu üzerinde de çalışıyor. 400 milyardan fazla parametreye sahip olan yeni Llama 3 henüz eğitim sürecinde. Bununla beraber Llama 3’ün bu daha büyük versiyonunun, küçük versiyonlara kıyasla daha karmaşık kalıpları öğrenebileceği ifade ediliyor.

Son olarak Mark Zuckerberg, Llama 3 hakkında yaptığı duyuru esnasında Meta AI’ı WhatsApp, Instagram, Facebook ve Messenger’ın üst kısmındaki arama kutularına entegre edeceklerini açıkladı. Hatırlarsanız, WhatsApp, arama çubuğuna yapay zeka chatbot özellikleri eklemeye hazırlandığını sizlere aktarmıştık. Ayrıca şirket, web’de kullanabilmeniz için meta.ai uzantılı bir web sitesi oluşturduğunu da duyurdu. 

Bir yanıt yazın

Share to...