Hugging Face’in 8 milyar parametreye sahip yeni açık kaynak görsel dil modeli: Idefics2

Yorum yapılmamış
admin
04/16/2024

2023 yılında DeepMind’ın teknolojisini kullanarak Idefics görsel dil modelini piyasaya süren Hugging Face, şimdi de modelin yeni yükseltmesi Idefics2 ile karşımızda. Idefics2, daha küçük bir parametre boyutu, açık bir lisans ve geliştirilmiş Optik Karakter Tanıma (OCR) yeteneklerine sahip.

Model kıyaslamaları

Bilmeyenler için Idefics’in metin ve görüntü istemlerine yanıt verebilen genel bir çok modlu (multimodal) model olduğunu belirtelim. Idefics 80 milyar parametre boyutuna sahipken, Idefics2, 8 milyar ile Idefics’in onda biri boyutunda. Bu anlamda Idefics2, DeepSeek-VL ve LLaVA-NeXT-Mistral-7B ile karşılaştırılabilir.

Öte yandan Hugging Face’in paylaştığı bilgilere göre Idefics2, Görsel Soru Yanıtlama kıyaslamalarındaki performansı ile LLava-Next-34B ve MM1-30B-chat gibi çok daha büyük modellerle rekabet edebiliyor.

Idefics2’nin öne çıkan yetenekleri

Idefics2, görüntülerle ilgili soruları yanıtlayabilirken, görsel içeriği tanımlayabiliyor ve birden fazla görüntüye dayanan hikayeler oluşturabiliyor. Bununla beraber model, belgelerden bilgi çıkarabiliyor ve temel aritmetik işlemleri gerçekleştirebiliyor.

Paylaşılan bilgilere göre Idefics2, hem 980 x 980 piksele kadar doğal çözünürlükte hem de doğal en boy oranlarında daha iyi görüntü manipülasyonu sunuyor. Böylece görüntülerin sabit boyutlu bir kare oranına uyacak şekilde yeniden boyutlandırılması gerekmeyecek.

Modelin OCR yetenekleri ise bir görüntü veya belgedeki metnin yazıya dökülmesinden elde edilen veri entegrasyonu yoluyla geliştirildi. Hugging Face ekibinin ayrıca Idefics’in grafikler, şekiller ve belgeler üzerindeki soruları yanıtlama becerisini de geliştirdiğini belirtmekte fayda var.

Eğitim verileri

Hugging Face, Idefics2’yi eğitmek için Mistral-7B-v0.1 ve siglip-so400m-patch14-384 gibi açık veri kümelerinin bir karışımını kullandı. Ayrıca kullanılan veri kümeleri kapsamında Wikipedia ve OBELICS kaynaklı web belgeleri, Public Multimodal Dataset ve LAION-COCO kaynaklı resim açıklamaları çiftleri yer aldı. Buna ek olarak PDFA (en) ve IDL‘nin yanı sıra işlenmiş metin olarak tercüme edebileceğimiz Rendered-text, ve WebSight kaynaklı resimden koda (image-to-code) verileri kapsayan OCR verileri de kullanıldı.

admin

Bir yanıt yazın Yanıtı iptal et

Yorum yapabilmek için oturum açmalısınız.

# Kurumsal Web Tasarım # Kişisel Web Sitesi # Ürün Tanıtım Sitesi # E-Ticaret Sitesi # Tur & Organizasyon Sitesi # Web Yazılım Web Danışmanlık # Sosyal Medya Danışmanlığı # Logo Tasarım # Kurumsal Kimlik # Arama Motoru Optimizasyonu # Sosyal Medya # Reklam Yönetimi # Google Adwords # Marka ve Patent Tescil

Model kıyaslamaları

Idefics2’nin öne çıkan yetenekleri

Eğitim verileri

admin

Bir yanıt yazın Yanıtı iptal et

Ara

Son Gönderiler

Google Drive’a yüklenen videolara artık otomatik olarak altyazı ekleniyor

Alibaba destekli yapay zeka girişimi Baichuan, 691 milyon dolar yatırım aldı

Mars Studios, Lima Ventures’tan tohum öncesi turda yatırım aldı

Google Play, yapay zeka destekli özelliklerle yenileniyor

Kategoriler

Galeri

Model kıyaslamaları

Idefics2’nin öne çıkan yetenekleri

Eğitim verileri

admin

Bir yanıt yazın Yanıtı iptal et

Ara

Son Gönderiler

Google Drive’a yüklenen videolara artık otomatik olarak altyazı ekleniyor

Alibaba destekli yapay zeka girişimi Baichuan, 691 milyon dolar yatırım aldı

Mars Studios, Lima Ventures’tan tohum öncesi turda yatırım aldı

Google Play, yapay zeka destekli özelliklerle yenileniyor

Etiketler

Kategoriler

Galeri