Commencis’ten bankacılık ve finans odaklı Türkçe büyük dil modeli: Commencis LLM

Commencis paylaştığı bir blog gönderisi ile akıcı Türkçeye sahip Bankacılık ve Finans odaklı büyük dil modelini tanıttı. Modeli hayata geçirmeden önce Llama 2, Mistral, Mixtral, Zephyr ve OpenChat 3.5 gibi önde gelen modelleri deneyen ekip, Commencis LLM için temel model olarak Mistral 7B ile ilerlemeyi tercih etti. Mistral 7B’nin seçilmesinin nedeni ise büyük dil modelinin karmaşık veri kümelerini ve belirli terminolojileri işleme konusundaki kanıtlanmış kapasitesi. 

Proje kapsamında Amazon Web Services’in yüksek performanslı GPU’ları ile çalışıldı. Bu bağlamda Commencis ekibi g5.2xlarge ve g5.48xlarge seçeneklerini kullandı. G5.2xlarge Commencis’in önemli kaynak ihtiyaçlarını desteklerken, g5.48xlarge en yoğun kaynak gerektiren işlemler için kullanıldı.

Şirketin aktardığı bilgilere göre; Commencis’teki mühendislik ekibi, yaklaşık üç ay boyunca büyük dil modeline ince ayar yapmaya odaklandı. Bu dönemde ekip, modelin Türkçe anlayışını ve anlamsal ilişkileri her zamankinden daha doğru bir şekilde yakalama becerisini geliştirmek üzere çalıştı. 

Modelin eğitim sürecinde kullanılan veri setleri

Ayrıca Commencis ekibi, büyük dil modelinin geliştirilme sürecinde özellikle bankacılık ve finans sektörü için modelin Türkçe yeteneğini güçlendirmek üzere özel olarak tasarlanmış özelleştirilmiş bir veri seti oluşturmaya odaklandı. Bu süreçte müşteri hizmetleri kayıtları, finansal raporlar, piyasa analizleri, yasal ve düzenleyici belgeler dahil olmak üzere çeşitli veri türlerinin kapsamlı bir şekilde toplandı. Böylece modelin sektöre özgü jargon, terminoloji ve ifadeleri kavraması amaçlandı. 

Bununla beraber düşük kaliteli ve ilgisiz verilerin çıkarıldığı bir veri temizleme ve düzenleme aşaması gerçekleştirildi. Ekip, çeşitli dil yapılarından gelen verileri dengelemeye önem vererek dilsel çeşitliliği sağlamak ve modelin işleme kapasitesini artırdı.

Ayrıca, önyargıyı azaltmak ve yanıtların çeşitliliğini artırmak için cinsiyet, etnik köken ve coğrafi konum gibi hususlar da dahil edildi.

Ekip paylaştığı gönderide bankacılık sektöründe, önceden eğitilmiş açık kaynaklı büyük dil modelleri için Türkçe veri kümelerinin azlığı sorunuyla karşı karşıya kalındığını da dile getiriyor. Bunun için stratejik bir girişim başlatan ekip, sadece mevcut verileri toplamayı ve iyileştirmeyi değil, aynı zamanda Türkçe ve bankacılıkla ilgili terminolojilerin daha derinlemesine anlaşılmasını sağlayabilecek yeni veri kümeleri oluşturmayı da amaçladı. 

Commencis ekibi, bankacılık ve finans sözlüğündeki terimlerden ve tanımlanan kategoriler ile alt kategoriler arasındaki ilişkilerden yararlanırken, denetimli ince ayar eğitimine uygun veriler üretmeyi amaçlayan binlerce sentetik talimat üretmek için OpenAI’ın GPT-4 hizmetlerinden faydalandı. Bu sentetik talimatlar, modellerin ince ayarının yapılmasında çok önemli bir rol oynadı. Öyle ki söz konusu talimatlar, hazırlık ve test aşamaları için yeni bir standart belirlenmesine katkıda bulundu. 

Buna ek olarak ekip, soru-cevap etkileşimlerinin kalitesini yükseltmek için özel bir filtreleme yöntemi kullandı. Bununla beraber, verilerin Türkçe yeteneği, doğruluğu, netliği ve kapsamı GPT-4 kullanılarak kapsamlı bir şekilde değerlendirildi.

Commencis, blog gönderisinde diğer modellerle yapılan karşılaştırmalara da yer veriyor. Lianmin Zheng ve çalışma arkadaşlarının Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena makalesinden esinlenen değerlendirme kriterlerine göre pek çok alanda Commencis LLM tanınmış büyük dil modellerini geride bırakmakta. 

Söz konusu ölçütler, Türkçe dil yeterliliği, alaka düzeyi, doğruluk, kesinlik ve yanıtların eksiksizliği olarak öne çıkmakta. Bu ölçütler, veri setlerinde gerekli ayarlamaların yapılması ve parametrelerin ince ayarlanması için temel taşı görevi görüyor.

Şirketin paylaştıklarına göre Commencis LLM gibi özel modellerin, özelleştirilmiş, şirket içi dağıtımı, bankacılık ve finans sektörünün hassas çerçevesi içinde uyumluluk ve veri kontrolü sağlıyor. 

Bir yanıt yazın

Share to...