Kenet A Comprehensive Turkish Wordnet And Its Applications In Text Clustering

Bitirildi
Yazar: 
Razieh Ehsani
metin
İngilizce
1 Ayrım
142,66 KB
Eser Türü: 
Kitap
Kitap Alt Türü: 
Makale
Alındığı Kurum: 
Işık Üniversitesi
Konusu: 
Özet Bu tez, kapsamlı bir Türkçe WordNet yapımının aşamalarını, zorluklarını ve son olarak da onu bir doğal işleme alanında uygulamasını özetliyor. Her dilin kendine özel dil kaynakları vardır, örneğin tek dilli sözlükler, iki dilli sözlükler, lugatnameler klasik dil kaynaklarıdırlar ve dilbilimciler tarafından geliştirirlirler. Bu kaynaklar genellikle bir dil kurumu tarafından desteklenir ve denetlenir. Günümüz bilgisayarların hayatımızın her alanına girmesi ile birlikte, dil kaynaklarının da bilgisayarlar tarafından okunabilirliği ve bilgisayar uygulamalarında kullanılabilmeleri için geliştirilmeleri bir gereksinim haline gelmiştir. Bu bilgisayar tarafından okunabilir kaynaklardan biri WordNettir, WordNet ilk kez Ingilizce için Princeton˙ Universitesinde geliştirilmiştir. WordNet klasik sözlüklerin özelliklerini taşımakla¨ birlikte kelimeler arasında bazı anlamsal ilişkileri de içerir. Bu anlamsal ilişkiler eş anlamlılıktan öte, bir kelime diğerinin bir türüdür, veya bir kelime diğer kelimenin bir parçasıdır gibi anlamsal ilişkileri de içerir. Bu anlamsal ilişkiler yazı analizlerinde kullanılmaktadır. WordNet kelimeleri gerçek dünyadaki kavramlarına göre tek bir kümede toplar, bu kümelere synset denir. Sonuç olarak WordNet, kapsamlı ve bilgisayar tarafından okunabilir bir dil kaynağıdır ve yazı analizlerinde oldukça faydalı bir kaynaktır. Türkçe için bizim çalışmamızdan önce kapsamlı olmayan bir WordNet geliştirilmiş. Bu WordNet, BalkaNet projesinin adı altında geliştirilmiştir. BalkaNet çokdilli bir WordNettir ve Balkan dilleri ve Türkçeyi içermektedir. BalkaNet aşamalar sırasında geliştirilmiş ve anlamsal ilişkiler eklenmiştir, fakat son yıllarda herhangi bir güncelleme yapılmamıştır. Bu çalışma, sıfırdan Türkçe için bir WordNet yapımını anlatmaktadır. Genel olarak, WordNet yapımı için iki yöntem vardır, aşağı-yukarı yöntem ve yukarıdanaşağı yöntem. aşağı-yukarı yöntem herhangi başka bir WordNeti çevirmeden veya kullanmadan sıfırdan ve sözlük kullanarak WordNet yapımıyla uğraşır, yukarıaşağı yöntemde ise, sıfırdan yapmak yerine başka dillerde mevcut olan WordNetleri birebir çevirerek ve dahasında geliştirerek veyahut değiştirmeyerek WordNet yapımıyla uğraşır. Bizim Çalışmamız Türk Dil Kurumunun Güncel Türkçe Sözlüğünü kullanarak aşağı-yukarı yöntem ile WordNet yapımıdır. Bu çalışma sırasında, TDK sözlüğünden eşanlamlı kelimeleri çıkartıp ve bir grup insana bu kelimelerin ortaklaşa paylaştıkları anlamları işaretlemelerini istedik. Bu işaretleme için geliştirdiğimiz bir yazılım kullanarak sürecin kolaylaşmasını ve hata payının düşürülmesini sağladık. Ayrıca Türkçe için herhangi bir eşanlamlılar sözlüğü mevcur olmadığı için, Türkçenin ilk eşanlamlılar sözlüğünü otomatik olarak oluşturduk. Işaretleyiciler arasında anlaşmayı ölçüp ve ayrıca otomatik˙ oluşturduğumuz eşanlamlılar sözlüğünü elle işaretlenmiş eşanlamlılar kümelerile ölçtük. Son olarak, bu çalışmada geliştirdiğimiz WordNeti Vikipedi makalelerini kümelemesi için kullandık. Bunun için öncelikle her yazı dosyasını bir vektöre çevirdik ve bunun için kendi özel yöntemimizi kullandık. Anahtar kelimeler: WordNet, Türkçe doğal dil işleme, Yazı Çözümleme, Graph tabanlı çözümleme, Anlam
Talep Tarihi: 
Salı, 28 Nisan, 2026
Sisteme Giriş Tarihi: 
Salı, 28 Nisan, 2026