Fakültemizin öğretim görevlilerinden Öğr. Gör. Dilara Torunoğlu Selamet, doktora öğrencimiz Arda İnceoğlu ve öğretim üyemiz Doç. Dr. Gülşen Eryiğit'in
"Preliminary Investigation on using Semi-Supervised Contextual Word Sense Disambiguation for Data Augmentation" başlıklı çalışması
UBMK 2020'de (6. Uluslararası Bilgisayar Bilimleri ve Mühendisliği Konferansı)
en iyi bildiri ödülüne layık görüldü.
Araştırmacılarımızı tebrik ediyor ve başarılarının devamını diliyoruz.
Bildiri özeti;
Yapay zeka alanında son dönemlerde öne çıkan derin öğrenme mimarilerinin, doğal dil işleme konusunun önemli problemlerinden biri olan Anlam Belirsizliği Giderme (ABG) çalışmalarında kayda değer gelişmelere yol açtığı gözlemlenmektedir. Denetimli yöntemler rakiplerine göre daha yüksek performans sergilemektedirler. Bunun en büyük nedeni kullanılan eğitim verilerinin büyüklükleridir. ABG problemi için İngilizce dili üzerinde elle-etiketlenmiş çok miktarda veri çevrim içi olarak erişilebilir durumdadır. Ancak düşük-kaynaklı diller (DKDler) probleme uygun veri eksikliği yaşamaktadırlar. Yeterli derecede probleme uygun veri toplamak ve etiketlemek vakit alıcı ve yüksek maliyet gerektiren bir iştir. Bu probleme değinmek ve aşmak üzere, bu çalışmada yarı-denetimli bağlamsal anlam belirsizliği giderme yaklaşımının veri artırımı için (daha sonra denetimli öğrenmede eğitim verisi olarak kullanılmak üzere) kullanılabileceğinin gösterilmesi amaçlanmıştır. Bu bağlamda özellikle DKDlerde ABG problemi için test verisi bulmanın zor olması nedeniyle yaklaşımın doğruluğunu ve ilerleyen dönemlerde DKDlerde kullanılabilirliğini ispatlamak amacıyla çevrimiçi bulunan elle-etiketlenmiş İngilizce ABG verisi kullanılmıştır. Oluşturulan yarı-denetimli yöntemde öbek kümesi (seed set) ve bağlam vektörleri (context embeddings) kullanılmaktadır. Yapılan çalışma 9 farklı bağlamsal dil modelinde (ELMo, BERT, RoBERTa vb.) test edilmiş ve her bir dil modelinin ABG problemi üzerindeki etkileri raporlanmıştır. İlk temel yaklaşıma göre sonuçlar üzerinde %28 doğruluk oranında performans artışı sağlanmıştır. (ELMo ile ilk temel yaklaşım ile %50,39 ve ELMo Anlam Öbek Esaslı Ortalama Benzerlik Modeli ile %78,06). Alınan ilk sonuçlara neticesinde, önerilen yaklaşımın özellikle DKDler yönelik ABG veri kümesi oluşturmak için gelecek vaat eden ettiği gösterilmiştir.