Apple’ın fotoğraf düzenlemeye odaklanan yeni yapay zeka modelİ: MGIE

Apple araştırmacıları kullanıcıların bir fotoğrafta yapmak istedikleri değişiklikleri, doğrudan metinsel komutlarla gerçekleştirmesini sağlayan yeni yapay zeka modelini yayınladı. Apple, MGIE adlı model için Kaliforniya Üniversitesi Santa Barbara’daki araştırmacılarla ortak bir çalışma yürüttü. Model, metinsel komutlar aracılığıyla görsellerde tıpkı Photoshop gibi kırpma, yeniden boyutlandırma, ters çevirme ve filtre ekleme gibi işlemleri gerçekleştirebiliyor. 

Açılımı MLLM-Guided Image Editing olan MGIE, bir fotoğraftaki belirli nesneleri farklı bir şekle sokmak veya daha parlak göstermek için değiştirmek gibi düzenleme görevlerinde de kullanılabiliyor. Bu anlamda MGIE’nin hem basit hem de karmaşık görevleri yerine getirebileceğini söyleyebiliriz. 

MGIE nasıl çalışıyor? 

Model, çok modlu (multimodal) dil modellerinin iki farklı kullanımını harmanlıyor. İlk olarak, kullanıcı komutlarını nasıl yorumlayacağını öğreniyor. Ardından düzenlemenin nasıl görüneceğini adeta tahayyül ediyor. Böylece eğer bir fotoğrafta gökyüzünü daha da mavi göstermek istiyorsanız, model görüntünün gökyüzü kısmındaki parlaklığı artırıyor. 

MGIE ile bir fotoğrafı düzenlerken, resimle ilgili değiştirmek istediklerinizi yazmanız yeterli. Makalede paylaşılan örnekte pepperonili pizza görüntüsü “Daha sağlıklı yap.” komutu ile düzenleniyor. Bu komutun akabinde pizzaya sebzeler ekleniyor. Bir diğer örnekte kaplanların karanlık bir fotoğrafı yer alıyor. Bu örnekte “Daha fazla ışığı simüle etmek için daha fazla kontrast ekle.” komutu ile resim daha parlak hale getiriliyor. Verilen örnekler kapsamında bir görselin arka planı temizlenirken, bir diğerinde görselin içine farklı bir görüntü ekleniyor. 

Apple, MGIE’yi GitHub üzerinden indirilebilir hale getirdi. Şirket bununla beraber Hugging Face Spaces üzerinde bir web demosu yayınladı. Apple, şimdilik model için araştırma dışında ne gibi planları olduğunu dile getirmedi. 

Şimdiye kadar görsel üretimi ve düzenleme alanında pek çok oyuncunun harekete geçtiğini gördük. Görsel üretimi ve düzenlemede ilk akla gelenler OpenAI’ın DALL-E 3 modeli ve Midjourney oluyor. Ancak bu alanda Photoshop’un ana şirketi Adobe’nin de Firefly AI ile önemli adımlar attığını hatırlatmakta fayda var. 

Bu dönemde Microsoft, Meta ve Google gibi teknoloji devlerinin yapay zeka yarışını seyre dalan Apple, önümüzdeki dönemde cihazlarına daha fazla yapay zeka özelliği eklemeyi planlıyor. Bu anlamda MGIE gibi Apple’ın bir süre önce sessiz sedasız yayına aldığı büyük/geniş dil modeli Ferret de Apple’ın yapay zeka atılımının ayak sesleri olabilir. 

Öte yandan paylaşılan bilgilere göre MGIE modeli, DeepSpeed kullanılarak geliştirildi. Bu noktada DeepSeed’in geliştiricilerin yapay zeka modellerini eğitmelerine ve optimize etmelerine yardımcı olmak için Microsoft tarafından yayınlanan bir kütüphane ve araç paketi olduğunu belirtelim. DeepSpeed’in Apple silikonuyla iyi çalışmaması, MGIE modelinin şu anda mevcut haliyle Apple donanımında yerel olarak çalışmasının önünde engel teşkil ediyor. Apple’ın yapay zeka odaklı araştırmalarının ilerleyen dönemde ne gibi ürün ve araçlara dönüşeceğini hep birlikte izleyip göreceğiz. 

Bir yanıt yazın

Share to...