Add Turkish language evals: logical reasoning and grammar#1647
Add Turkish language evals: logical reasoning and grammar#1647kayametehan wants to merge 3 commits intoopenai:mainfrom
Conversation
- turkish-logical-reasoning: 30 questions covering multi-step deductions, liar puzzles, syllogisms, arithmetic word problems, clock/time logic, set theory and trick questions presented in Turkish - turkish-grammar: 20 questions on Turkish morphology, verb conjugation, sentence structure analysis and word class identification Both evals use ModelBasedClassify with cot_classify for flexible answer grading.
Add counterintuitive and advanced reasoning problems including: - Monty Hall problem - Birthday paradox - Russell/Barber paradox - Bridge torch problem (17 min optimal) - Look-and-say sequence - Zeno's paradox refutation - Simpson's paradox - Blue eyes island (common knowledge logic) - Gambler's fallacy - Two-egg building problem (14 attempts) - Liar chain deduction - Condorcet jury theorem - Hat/prisoner probability updates - Clock accuracy paradox Total: 55 questions
There was a problem hiding this comment.
Pull request overview
Adds Turkish-language evaluation coverage to the registry by introducing two new model-graded (ModelBasedClassify / cot_classify) eval suites: one for Turkish logical reasoning and one for Turkish grammar/morphology.
Changes:
- Register new evals
turkish-logical-reasoningandturkish-grammarinevals/registry/evals/. - Add Turkish logical reasoning dataset (55 samples) under
evals/registry/data/turkish-logical-reasoning/. - Add Turkish grammar dataset (20 samples) under
evals/registry/data/turkish-grammar/.
Reviewed changes
Copilot reviewed 4 out of 4 changed files in this pull request and generated 5 comments.
| File | Description |
|---|---|
| evals/registry/evals/turkish-logical-reasoning.yaml | Registers the Turkish logical reasoning eval using ModelBasedClassify with fact grading. |
| evals/registry/evals/turkish-grammar.yaml | Registers the Turkish grammar eval using ModelBasedClassify with fact grading. |
| evals/registry/data/turkish-logical-reasoning/samples.jsonl | Adds 55 Turkish logical reasoning prompts + ideals for model-graded evaluation. |
| evals/registry/data/turkish-grammar/samples.jsonl | Adds 20 Turkish grammar prompts + ideals for model-graded evaluation. |
💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Eğer bugün yağmur yağarsa Ahmet şemsiyesini alır. Ahmet şemsiyesini alırsa Buse da ona eşlik eder. Buse Ahmet'e eşlik etmemiştir. Bugün yağmur yağmış mıdır?"}], "ideal": "Hayır"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Üç kişiden tam biri yalancıdır, diğer ikisi her zaman doğru söyler. Aylin 'Berk doğrucu' diyor. Berk 'Ceren yalancı' diyor. Ceren ise 'Ben doğrucuyum' diyor. Yalancı kimdir?"}], "ideal": "Ceren"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "5 litrelik ve 3 litrelik iki kap var, sınırsız su kaynağı mevcut. Kapların üzerinde herhangi bir ölçü işareti yok. Tam 4 litre elde etmek için gerçekleştirilmesi gereken minimum adım sayısı kaçtır?"}], "ideal": "6"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Saat tam 3'ü 40 dakika geçeyi gösteriyor. Bu anda saat akrebi ile yelkovan arasındaki açı kaç derecedir?"}], "ideal": "130"} |
There was a problem hiding this comment.
"Saat tam 3'ü 40 dakika geçeyi gösteriyor" ifadesinde yazım hatası var ("geçeyi" -> "geçiyor"). Bu tür küçük hatalar modelin soruyu yanlış yorumlamasına veya değerlendirme tutarsızlığına yol açabilir; metni düzeltin.
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Saat tam 3'ü 40 dakika geçeyi gösteriyor. Bu anda saat akrebi ile yelkovan arasındaki açı kaç derecedir?"}], "ideal": "130"} | |
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Saat tam 3'ü 40 dakika geçiyor. Bu anda saat akrebi ile yelkovan arasındaki açı kaç derecedir?"}], "ideal": "130"} |
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Adil bir para 6 kez atıldığında tam 3 tura 3 yazı gelme olasılığı mı, yoksa arka arkaya 6 tura gelme olasılığı mı daha yüksektir?"}], "ideal": "3 tura 3 yazı daha olasıdır; olasılığı 20/64, arka arkaya 6 tura ise 1/64'tür"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir hapishanede 3 mahkum var; içlerinden biri affedilecek. Gardiyan kimin affedileceğini biliyor. Mahkum A, gardiyandan 'diğer ikisinden biri affedilmeyecekse onun adını söyle' diye rica ediyor; gardiyan 'B affedilmeyecek' diyor. Bu bilgiden sonra A'nın affedilme olasılığı 1/3'ten 1/2'ye yükselmiş midir?"}], "ideal": "Hayır, A'nın olasılığı hâlâ 1/3'tür; C'nin olasılığı 2/3'e yükselmiştir"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir odada 23 kişi var. Her kişi diğer herkese birer el sıkışıyor. Toplam kaç el sıkışması gerçekleşir?"}], "ideal": "253"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir lokomotif saatte 60 km hızla gidiyor. Saatte 60 km hızla gelen bir lokomotife tam 1 saat uzaklıktan hareket ediyor. İki lokomotif arasında tam ortada duran ve saatte 80 km uçan bir arı, iki lokomotif birbirine değene kadar ileri geri uçuyor. Arı toplam kaç km yol yapar?"}], "ideal": "80"} |
There was a problem hiding this comment.
Bu sorudaki "tam 1 saat uzaklıktan" ifadesi belirsiz: trenlerin arası 60 km mi (bir trenin 1 saatte aldığı yol) yoksa çarpışmaya kalan süre 1 saat mi kastediliyor? Bu belirsizlik farklı doğru sonuçlar (örn. 40 km vs 80 km) üretebilir. Soruyu mesafeyi (km) veya çarpışmaya kalan süreyi açıkça belirtecek şekilde yeniden yazın ve ideal cevabı buna göre güncelleyin.
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir lokomotif saatte 60 km hızla gidiyor. Saatte 60 km hızla gelen bir lokomotife tam 1 saat uzaklıktan hareket ediyor. İki lokomotif arasında tam ortada duran ve saatte 80 km uçan bir arı, iki lokomotif birbirine değene kadar ileri geri uçuyor. Arı toplam kaç km yol yapar?"}], "ideal": "80"} | |
| {"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "İki lokomotif birbirine doğru, her biri saatte 60 km hızla gitmektedir ve 1 saat sonra çarpışacakları bir uzaklıktadır. İki lokomotif arasında tam ortada duran ve saatte 80 km uçan bir arı, lokomotifler birbirine değene kadar ileri geri uçuyor. Arı toplam kaç km yol yapar?"}], "ideal": "80"} |
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Gelecek' kelimesi 'Gelecek hafta tatil var' cümlesinde hangi sözcük türüdür?"}], "ideal": "Sıfat"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Sararmak' fiilinde '-ar-' eki ne işlevi üstlenmektedir?"}], "ideal": "Renk isminden fiil türeten yapım eki"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Uçurtma' kelimesindeki '-ma' eki yapım mı çekim mi ekidir?"}], "ideal": "Yapım eki"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Özne belirginliği; birincisinde özne vurgulanmıştır"} |
There was a problem hiding this comment.
"O kitabı okudum" ile "Kitabı okudum" arasındaki fark öznenin vurgulanmasıyla ilgili değil; her iki cümlede de özne örtük olarak aynıdır (ben). Fark, nesnenin belirginliği/işaretlenmesi ("o" gösterme sıfatı ile hangi kitabın kastedildiği) ve buna bağlı vurgu/topikleşme ile ilgilidir. İdeal cevabı bu şekilde düzeltin.
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Özne belirginliği; birincisinde özne vurgulanmıştır"} | |
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Nesnenin belirginliği/işaretlenmesi; 'o' hangi kitabın kastedildiğini belirtir"} |
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Sararmak' fiilinde '-ar-' eki ne işlevi üstlenmektedir?"}], "ideal": "Renk isminden fiil türeten yapım eki"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Uçurtma' kelimesindeki '-ma' eki yapım mı çekim mi ekidir?"}], "ideal": "Yapım eki"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Özne belirginliği; birincisinde özne vurgulanmıştır"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Demek' fiilinin geniş zaman üçüncü tekil şahıs çekimi 'der' mi 'diyor' mu, yoksa her ikisi de doğru mu?"}], "ideal": "Her ikisi de doğrudur"} |
There was a problem hiding this comment.
Soru "geniş zaman üçüncü tekil" çekimini soruyor; "demek" için geniş zaman 3. tekil "der"dir. "Diyor" şimdiki zaman (-yor) çekimidir, bu yüzden "her ikisi de doğrudur" ideal cevabı hatalı görünüyor. İdeal cevabı "der" (ve istenirse "diyor"un şimdiki zaman olduğu notu) olacak şekilde güncelleyin.
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Demek' fiilinin geniş zaman üçüncü tekil şahıs çekimi 'der' mi 'diyor' mu, yoksa her ikisi de doğru mu?"}], "ideal": "Her ikisi de doğrudur"} | |
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Demek' fiilinin geniş zaman üçüncü tekil şahıs çekimi 'der' mi 'diyor' mu, yoksa her ikisi de doğru mu?"}], "ideal": "Der"} |
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Hangi' kelimesi cümlede hem soru sıfatı hem de soru zamiri olarak kullanılabilir mi?"}], "ideal": "Evet, kullanım yerine göre işlevi değişir"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Düşünmek' fiilinin edilgen çatısı nedir?"}], "ideal": "Düşünülmek"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Yaşlı adam yavaşça yürüdü.' cümlesinde kaç tane zarf tümleci vardır?"}], "ideal": "1"} | ||
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Ne kadar çok çalışırsan o kadar başarılı olursun.' cümlesi hangi cümle türüdür?"}], "ideal": "Bağlı cümle (koşul-sonuç ilişkili birleşik cümle)"} |
There was a problem hiding this comment.
"Ne kadar çok çalışırsan o kadar başarılı olursun" yapısı bağlaçla kurulmuş "bağlı cümle" değil; -sa/-se ile kurulan koşul yan cümleciği içerdiği için genelde "şartlı (koşullu) birleşik cümle" olarak sınıflandırılır. İdeal cevabı bu sınıflandırmaya göre düzeltin.
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Ne kadar çok çalışırsan o kadar başarılı olursun.' cümlesi hangi cümle türüdür?"}], "ideal": "Bağlı cümle (koşul-sonuç ilişkili birleşik cümle)"} | |
| {"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Ne kadar çok çalışırsan o kadar başarılı olursun.' cümlesi hangi cümle türüdür?"}], "ideal": "Şartlı (koşullu) birleşik cümle"} |
- grammar/9: nesne belirginliği (object specificity), not özne - grammar/10: geniş zaman 'der', 'diyor' şimdiki zamandır - grammar/18: şartlı birleşik cümle, not bağlı cümle - reasoning/7: 'geçiyor' yazım düzeltmesi (geçeyi → geçiyor) - reasoning/53: mesafeyi netleştir (120 km), belirsiz '1 saat' ifadesi kaldırıldı
There was a problem hiding this comment.
Pull request overview
Copilot reviewed 4 out of 4 changed files in this pull request and generated no new comments.
💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.
Overview
Adds two new eval sets in Turkish, a language not currently covered beyond basic character recognition in the registry.
Evals added
turkish-logical-reasoning(55 questions)Tests multi-step logical deduction in Turkish. Covers:
turkish-grammar(20 questions)Tests Turkish morphology and syntax. Covers:
Eval type
Both use
ModelBasedClassifywithcot_classifyfor flexible grading of natural language answers.