Performance of Large Language Models on Official Periodontology Questions: A 13-Year Analysis of the Turkish Dental Specialization Examination


Creative Commons License

Erişken Y., Karaaslan F.

Acıbadem Üniversitesi Sağlık Bilimleri Dergisi, vol.17, pp.1-9, 2026 (TRDizin)

Abstract

ÖZET Amaç: Bu çalışma, Türk Diş Hekimliği Uzmanlık Sınavı’nın (DUS) resmi periodontoloji sorularında büyük dil modellerinin (LLM’lerin) performansını sistematik olarak değerlendirmeyi amaçlamıştır. Yöntem: Toplam 180 metin tabanlı soru (159 çoktan seçmeli (ÇSS), 21 kombinasyon tipi ÇSS (K-ÇSS)) 13 yıllık (2012 2024) süreçte dokuz alana ayrılmıştır. Nisan 2025’te sekiz LLM test edilmiştir: ChatGPT-4o, ChatGPT-4o mini (OpenAI), Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini 2.0 Flash (Google DeepMind), Copilot (Microsoft), DeepSeek-V3 (DeepSeek) ve Qwen 2.5-Max (Alibaba Cloud). Her soru resmi web arayüzleri aracılığıyla bağımsız olarak gönderilmiştir. Doğruluk oranları modeller, alanlar, yıllar ve soru türleri arasında Pearson ki-kare testiyle karşılaştırılmış, etki büyüklükleri Cramér’s V ve Phi katsayılarıyla hesaplanmıştır. Bulgular: Doğruluk oranı alanlara göre anlamlı farklılık göstermiştir (χ²(8, N = 1440) = 38.20, p < .001, Cramér’s V = .163). Gemini 2.5 Pro en yüksek performansı göstermiş, altı alanda %100, diğerlerinde ≥%87.5 doğruluk elde etmiştir. ChatGPT-4o mini ve Qwen 2.5-Max, özellikle Periodonsiyum ve Periodontal Tedavi alanlarında düşük performans sergilemiştir. Yıllara göre analizde 2012–2024 arasında istikrarlı sonuçlar elde edilmiştir (χ²(12, N = 1440) = 14.51, p = .269). ÇSS ve K-ÇSS arasında fark bulunmamıştır (χ²(1, N = 1440) = 1.42, p = .233). Sonuç: Periodontolojide LLM doğruluğu modele ve alana bağlıdır. Gemini 2.5 Pro gibi ileri sistemler eğitim ve klinik karar desteğinde umut vaat etmektedir; ancak akıl yürütme ve hesaplama gerektiren alanlardaki zayıflıklar uzman gözetiminin gerekliliğini göstermektedir. Anahtar Kelimeler: Büyük Dil Modelleri, Diş Hekimliği Eğitimi, Periodontoloji, Yapay Zekâ