The Study of Collocational Components (Clusters and Chains) in The 13th Dede Korkut Story: “Salur Kazan’s Slaying of the Seven Headed Dragon” by Computational Linguistics Methods

Kubilay Y.

Turkish Studies - Language and Literature, vol.16, no.3, pp.1903-1924, 2021 (Peer-Reviewed Journal) identifier

  • Publication Type: Article / Article
  • Volume: 16 Issue: 3
  • Publication Date: 2021
  • Journal Name: Turkish Studies - Language and Literature
  • Journal Indexes: Linguistic Bibliography, MLA - Modern Language Association Database, TR DİZİN (ULAKBİM)
  • Page Numbers: pp.1903-1924
  • Uşak University Affiliated: Yes


The third copy (Türkmen Sahra) of The Stories of Dede Korkut, which has a very important place in Turkish language and literature, was discovered and brought to the scientific community in recent years, after its first(Dresden) and second(Vatican) copies. The discovery of the new manuscript has become a source of new activity waiting to be examined by reasearchers. The “Dede Korkut Tradition”, also accepted as a cultural heritage by UNESCO, is an unmatched field of research that has produced very precious works of Turkish Culture. Owing to developments in the field of information technologies, the processing of languages from phonetics to the structural qualities, from vocabulary to syntax, the analysis of all language components with statistical or rule based computational linguistics methods has become possible. In this context, the subject of “Collocation” that has been studied for the past 25 years in Turkish linguistics is now conducted by computational studies. However there are not many studies in the subject of “Collocation” in Turkish historical texts. The scarcity of collocational studies on the historical periods of Turkish, and the possibility of studying linguistic phenomena using linguistics methods has lead us to conduct a study that examines the subject of collocation with a computational perspective. Therefore we have based our study on the examination of the 13th Story, “Salur Kazan’s Killing of the Seven Headed Dragon”, in terms of collocational components (clusters and chains) using computational modeling methods.The story was uploaded to the computer as a plain text file (.txt), the collocational vocabulary of the story was processed in Python programming language and in AntConc 3.5.9 (2020) software, then the collocations were studied using different statistical analyses such as Log-likelihood, MI score, T-score and Dice coefficient. Basically algorithms that take into account how many of total usage of the words appear together were used in the method using the criterion of statistical significance. In this way, both the results that belong to the collocational vocabulary determined by linguistic methods, and the results obtained by natural language processing methods were compared and analysed in the context of collocation.
Türk dili ve edebiyatında çok önemli bir yeri olan Dede Korkut Hikâyeleri’nin bilinen birinci (Dresden) ve ikinci (Vatikan) nüshalarının ardından üçüncü nüshası (Türkmen Sahra) geçtiğimiz yıllarda bulunmuş ve bilim dünyasına kazandırılmıştır. Türk Dünyası’nda heyecanla karşılanan yeni elyazmasının bulunuşu araştırmacılar için incelenmeyi bekleyen yeni bir faaliyet membaı olmuştur. Ayrıca UNESCO tarafından da kültürel bir miras olarak kabul edilen “Dede Korkut Geleneği”, Türk kültürünün çok kıymetli eserlerini üretmiş eşsiz bir araştırma sahasıdır. Bunun yanında bilişim teknolojileri alanındaki gelişmelere bağlı olarak günümüzde dillerin işlenmesi ses özelliklerinden yapı özelliklerine, söz varlıklarından söz dizimlerine kadar bütün dil birliklerinin istatistiksel veya kural tabanlı bilgisayarlı dil bilim yöntemleriyle çözümlenmesi olanaklı hale gelmiştir. Bu bağlamda Türk dil bilim çalışmalarında son 25 yıldır çalışılagelen “Eş Dizimlilik” konusu günümüzde artık bilgisayar destekli çalışmalarla yürütülmektedir. Ancak “Eş Dizimlilik” konusunda Türkçede tarihi dönem metinleri ile ilgili çalışmalar fazla değildir. Gerek Türkçenin tarihi dönemleri ile ilgili eş dizimsel çalışmaların azlığı, gerek dilsel fenomenlerin dil bilim yöntemlerinden yararlanılarak incelenmesinin olanaklı olması bizi eş dizimlilik konusunu hesaplamalı perspektifle inceleyen bir çalışma yapmaya sevketmiştir. Bu itibarla, Eski Anadolu Türkçesi ile yazılmış “Salur Kazan’ın Yedi Başlı Ejderhayı Öldürmesi” adlı 13. hikâyenin bilgisayarlı modelleme yöntemleriyle eş dizimsel öge (eş dizimsel dizi ve eş dizimsel küme) olarak incelenmesi, çalışmamızda esas alınmıştır.Hikâye, bilgisayar ortamına düz metin dosyası (.txt) olarak aktarılmış, hikâyedeki eş dizimli söz varlığı Python programlama dilinde AntConc 3.5.9 (2020) yazılımına işlenmiş ve Log-likehood, MI değeri, T-skoru, Dice coefficient değeri gibi farklı istatistik analizleri ile de eş dizimlilikler incelenmiştir. İstatistiksel önem kriteri esas alarak kullanılan yöntemde, temelde bir kelimenin toplam kullanımından ne kadarının belirlenen kelimelerle gerçekleştiğini esas alan algoritmalar uygulanmıştır. Böylelikle hem araştırmacı tarafından dil bilimsel metotlarla saptanan eş dizimli söz varlığına ait bulgular hem de doğal dil işleme yöntemleri ile elde edilen bulgular karşılaştırılarak eş dizimlilik konusu karşılık bağlamında değerlendirilmiştir.