Apple’dan ekrandaki varlıkların bağlamını anlayabilen yapay zeka sistemi: ReALM

Apple araştırmacıları yayınladıkları bir makale ile yeni yapay zeka sistemi ReALM’i (Reference Resolution As Language Modeling) tanıttı. Makalede paylaşılan bilgilere göre; ReALM ekrandaki varlıklara yapılan belirsiz referansları anlayabiliyor. Bununla beraber ReALM, konuşma ve arka plan bağlamını anlayabilirken, sesli asistanlarla daha doğal etkileşimler kurulmasına imkan tanıyor. 

Sistem, büyük dil modellerinden yararlanarak karmaşık referans çözümleme görevini saf bir dil modelleme problemine dönüştürüyor. Böylece ReALM, mevcut yöntemlere kıyasla ciddi bir performans gösteriyor. 

Apple araştırmacıları, bu noktada sesli asistanların çalışma prensibine dikkat çekiyor. Sesli asistanların referanslar da dahil olmak üzere bağlamı anlayabilmesinin önemini vurgulayan ekibe göre, kullanıcının ekranında gördükleriyle ilgili sorgular yapmasını sağlamak, sesli asistanlarda gerçek bir eller serbest deneyimi sağlamak için mühim.

ReALM, ekran tabanlı referansların üstesinden gelmek için yeni bir yaklaşım sunuyor. Bu yaklaşım ile ReALM, görsel düzeni yakalayan metinsel bir temsil oluşturmak için ekranı yeniden yapılandırıyor. Ekranı yeniden yapılandırmak için ise ayrıştırılmış ekran varlıklarını ve konumlarını kullanıyor.

Araştırmacılar sundukları örnekler ile bu yaklaşımın, özellikle referans çözümleme için ince ayar dil modelleriyle birleştirildiğinde, GPT-4’den daha iyi performans gösterebileceğini belirtiyor: 

Farklı referans türlerinde benzer işlevselliğe sahip mevcut bir sisteme göre büyük gelişmeler gösterdik ve en küçük modelimiz ekran referansları için yüzde 5’in üzerinde mutlak kazançlar elde etti. Daha büyük modellerimiz GPT-4’ten önemli ölçüde daha iyi performans gösteriyor.

Araştırma ekibi, gelecek vadeden sonuçlara rağmen, ekranların otomatik ayrıştırılmasına güvenmenin sınırlamaları olduğunu ifade ediyor. Paylaşılan bilgilere göre, birden fazla görüntü arasında ayrım yapmak gibi daha karmaşık görsel referansların ele alınmasında bilgisayarla görme ve çok modlu tekniklerin dahil edilmesi gerekebilir. 

Devasa boyutta olan büyük dil modelleri çalışma, gecikme süresi veya işlem kısıtlamaları nedeniyle üretim sistemlerinde uçtan uca bir şekilde kullanılamayabiliyor. Bu noktada da belli görevlere odaklanmış dil modelleri devreye giriyor.

Hatırlarsanız, Siri’nin üretimsel yapay zeka destekli versiyonunun 2024 yılında yayınlanabileceğini sizlere aktarmıştık. Apple’ın bu yeni araştırması, Siri başta olmak üzere şirketin, ürünlerini hem daha konuşkan hem de bağlama duyarlı hale getirmek için yatırımlarına devam ettiğini gösteriyor. 

Bir yanıt yazın

Share to...