Meta’dan görsel ve metin işleyebilen açık kaynaklı yapay zeka modeli: Llama 3.2

Meta, sadece iki ay önce çıkardığı büyük yapay zeka modelinin ardından önemli bir güncellemeyle geri döndü ve görüntüleri ve metinleri işleyebilen ilk açık kaynaklı modelini tanıttı. Llama 3.2 olarak adlandırılan bu yeni model, geliştiricilere artırılmış gerçeklik uygulamaları, görsel arama motorları ve belge analiz araçları gibi daha gelişmiş yapay zeka uygulamaları oluşturma imkanı sunuyor.

Meta CEO’su Mark Zuckerberg, Llama 3.2’nin Meta Connect etkinliğinde yaptığı sunumda, “Bu, ilk açık kaynaklı multimodal modelimiz. Görsel anlayış gerektiren pek çok uygulamayı mümkün kılacak” dedi. Model, küçük ve orta boyutlu (11 milyar ve 90 milyar parametre) iki görsel model ve mobil cihazlarda kullanılmak üzere tasarlanmış daha hafif (1 milyar ve 3 milyar parametre) iki metin odaklı model içeriyor.

Llama 3.2, 128 bin token uzunluğunda bir bağlam sunuyor ve bu da yüzlerce sayfalık metni işleme yeteneği sağlıyor. Bu özellik, modelin daha karmaşık görevleri yerine getirebilmesine imkan tanıyor.

Meta, Llama 3.2’nin hem görüntüleri hem de metinleri anlamada Claude 3 Haiku ve GPT4o-mini gibi rakipleriyle rekabet ettiğini ve talimat takibi, özetleme ve araç kullanımı gibi alanlarda üstün performans gösterdiğini belirtiyor. Meta, ayrıca geliştiricilerin bu modeli çeşitli ortamlarda kullanabilmesi için resmi Llama yığın dağıtımlarını paylaşıyor.

Llama 3.2 modelleri, llama.com ve Hugging Face platformlarından indirilebilir durumda. Meta’nın bu adımı, şirketin yapay zeka alanında rekabeti güçlendirme çabasının bir parçası olarak görülüyor. Özellikle, Meta’nın Ray-Ban Meta gözlükleri gibi donanımlarında yapay zeka yeteneklerini artırma planlarının bir parçası olarak önem taşıyor. Son olarak, Meta, Llama 3.2 modeline ünlü seslerin eklenmesiyle kullanıcı etkileşimini artırmayı hedefliyor.

Leave A Comment