Skip to content

Add Turkish language evals: logical reasoning and grammar#1647

Open
kayametehan wants to merge 3 commits intoopenai:mainfrom
kayametehan:add-turkish-evals
Open

Add Turkish language evals: logical reasoning and grammar#1647
kayametehan wants to merge 3 commits intoopenai:mainfrom
kayametehan:add-turkish-evals

Conversation

@kayametehan
Copy link
Copy Markdown

Overview
Adds two new eval sets in Turkish, a language not currently covered beyond basic character recognition in the registry.

Evals added

turkish-logical-reasoning (55 questions)
Tests multi-step logical deduction in Turkish. Covers:

  • Syllogisms and deductive chains
  • Liar/truth-teller puzzles
  • Arithmetic and rate word problems
  • Classic counterintuitive problems: Monty Hall, Birthday paradox, Simpson's paradox, Zeno's paradox, Blue eyes island (common knowledge)
  • Gambler's fallacy, Barber/Russell paradox
  • Combinatorics: handshakes, tournament matches, committee selection
  • Algorithmic puzzles: Tower of Hanoi, bridge-torch, two-egg building

turkish-grammar (20 questions)
Tests Turkish morphology and syntax. Covers:

  • Inflectional/derivational morphology
  • Verb conjugation (tense, voice, polarity)
  • Case suffixes and vowel harmony edge cases
  • Sentence structure and word class analysis

Eval type
Both use ModelBasedClassify with cot_classify for flexible grading of natural language answers.

- turkish-logical-reasoning: 30 questions covering multi-step deductions,
  liar puzzles, syllogisms, arithmetic word problems, clock/time logic,
  set theory and trick questions presented in Turkish
- turkish-grammar: 20 questions on Turkish morphology, verb conjugation,
  sentence structure analysis and word class identification

Both evals use ModelBasedClassify with cot_classify for flexible answer grading.
Add counterintuitive and advanced reasoning problems including:
- Monty Hall problem
- Birthday paradox
- Russell/Barber paradox
- Bridge torch problem (17 min optimal)
- Look-and-say sequence
- Zeno's paradox refutation
- Simpson's paradox
- Blue eyes island (common knowledge logic)
- Gambler's fallacy
- Two-egg building problem (14 attempts)
- Liar chain deduction
- Condorcet jury theorem
- Hat/prisoner probability updates
- Clock accuracy paradox
Total: 55 questions
Copilot AI review requested due to automatic review settings April 23, 2026 17:41
Copy link
Copy Markdown

Copilot AI left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Pull request overview

Adds Turkish-language evaluation coverage to the registry by introducing two new model-graded (ModelBasedClassify / cot_classify) eval suites: one for Turkish logical reasoning and one for Turkish grammar/morphology.

Changes:

  • Register new evals turkish-logical-reasoning and turkish-grammar in evals/registry/evals/.
  • Add Turkish logical reasoning dataset (55 samples) under evals/registry/data/turkish-logical-reasoning/.
  • Add Turkish grammar dataset (20 samples) under evals/registry/data/turkish-grammar/.

Reviewed changes

Copilot reviewed 4 out of 4 changed files in this pull request and generated 5 comments.

File Description
evals/registry/evals/turkish-logical-reasoning.yaml Registers the Turkish logical reasoning eval using ModelBasedClassify with fact grading.
evals/registry/evals/turkish-grammar.yaml Registers the Turkish grammar eval using ModelBasedClassify with fact grading.
evals/registry/data/turkish-logical-reasoning/samples.jsonl Adds 55 Turkish logical reasoning prompts + ideals for model-graded evaluation.
evals/registry/data/turkish-grammar/samples.jsonl Adds 20 Turkish grammar prompts + ideals for model-graded evaluation.

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Eğer bugün yağmur yağarsa Ahmet şemsiyesini alır. Ahmet şemsiyesini alırsa Buse da ona eşlik eder. Buse Ahmet'e eşlik etmemiştir. Bugün yağmur yağmış mıdır?"}], "ideal": "Hayır"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Üç kişiden tam biri yalancıdır, diğer ikisi her zaman doğru söyler. Aylin 'Berk doğrucu' diyor. Berk 'Ceren yalancı' diyor. Ceren ise 'Ben doğrucuyum' diyor. Yalancı kimdir?"}], "ideal": "Ceren"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "5 litrelik ve 3 litrelik iki kap var, sınırsız su kaynağı mevcut. Kapların üzerinde herhangi bir ölçü işareti yok. Tam 4 litre elde etmek için gerçekleştirilmesi gereken minimum adım sayısı kaçtır?"}], "ideal": "6"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Saat tam 3'ü 40 dakika geçeyi gösteriyor. Bu anda saat akrebi ile yelkovan arasındaki açı kaç derecedir?"}], "ideal": "130"}
Copy link

Copilot AI Apr 23, 2026

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

"Saat tam 3'ü 40 dakika geçeyi gösteriyor" ifadesinde yazım hatası var ("geçeyi" -> "geçiyor"). Bu tür küçük hatalar modelin soruyu yanlış yorumlamasına veya değerlendirme tutarsızlığına yol açabilir; metni düzeltin.

Suggested change
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Saat tam 3'ü 40 dakika geçeyi gösteriyor. Bu anda saat akrebi ile yelkovan arasındaki açı kaç derecedir?"}], "ideal": "130"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Saat tam 3'ü 40 dakika geçiyor. Bu anda saat akrebi ile yelkovan arasındaki açı kaç derecedir?"}], "ideal": "130"}

Copilot uses AI. Check for mistakes.
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Adil bir para 6 kez atıldığında tam 3 tura 3 yazı gelme olasılığı mı, yoksa arka arkaya 6 tura gelme olasılığı mı daha yüksektir?"}], "ideal": "3 tura 3 yazı daha olasıdır; olasılığı 20/64, arka arkaya 6 tura ise 1/64'tür"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir hapishanede 3 mahkum var; içlerinden biri affedilecek. Gardiyan kimin affedileceğini biliyor. Mahkum A, gardiyandan 'diğer ikisinden biri affedilmeyecekse onun adını söyle' diye rica ediyor; gardiyan 'B affedilmeyecek' diyor. Bu bilgiden sonra A'nın affedilme olasılığı 1/3'ten 1/2'ye yükselmiş midir?"}], "ideal": "Hayır, A'nın olasılığı hâlâ 1/3'tür; C'nin olasılığı 2/3'e yükselmiştir"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir odada 23 kişi var. Her kişi diğer herkese birer el sıkışıyor. Toplam kaç el sıkışması gerçekleşir?"}], "ideal": "253"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir lokomotif saatte 60 km hızla gidiyor. Saatte 60 km hızla gelen bir lokomotife tam 1 saat uzaklıktan hareket ediyor. İki lokomotif arasında tam ortada duran ve saatte 80 km uçan bir arı, iki lokomotif birbirine değene kadar ileri geri uçuyor. Arı toplam kaç km yol yapar?"}], "ideal": "80"}
Copy link

Copilot AI Apr 23, 2026

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Bu sorudaki "tam 1 saat uzaklıktan" ifadesi belirsiz: trenlerin arası 60 km mi (bir trenin 1 saatte aldığı yol) yoksa çarpışmaya kalan süre 1 saat mi kastediliyor? Bu belirsizlik farklı doğru sonuçlar (örn. 40 km vs 80 km) üretebilir. Soruyu mesafeyi (km) veya çarpışmaya kalan süreyi açıkça belirtecek şekilde yeniden yazın ve ideal cevabı buna göre güncelleyin.

Suggested change
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "Bir lokomotif saatte 60 km hızla gidiyor. Saatte 60 km hızla gelen bir lokomotife tam 1 saat uzaklıktan hareket ediyor. İki lokomotif arasında tam ortada duran ve saatte 80 km uçan bir arı, iki lokomotif birbirine değene kadar ileri geri uçuyor. Arı toplam kaç km yol yapar?"}], "ideal": "80"}
{"input": [{"role": "system", "content": "Verilen Türkçe mantık sorusunu dikkatlice analiz edin. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "İki lokomotif birbirine doğru, her biri saatte 60 km hızla gitmektedir ve 1 saat sonra çarpışacakları bir uzaklıktadır. İki lokomotif arasında tam ortada duran ve saatte 80 km uçan bir arı, lokomotifler birbirine değene kadar ileri geri uçuyor. Arı toplam kaç km yol yapar?"}], "ideal": "80"}

Copilot uses AI. Check for mistakes.
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Gelecek' kelimesi 'Gelecek hafta tatil var' cümlesinde hangi sözcük türüdür?"}], "ideal": "Sıfat"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Sararmak' fiilinde '-ar-' eki ne işlevi üstlenmektedir?"}], "ideal": "Renk isminden fiil türeten yapım eki"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Uçurtma' kelimesindeki '-ma' eki yapım mı çekim mi ekidir?"}], "ideal": "Yapım eki"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Özne belirginliği; birincisinde özne vurgulanmıştır"}
Copy link

Copilot AI Apr 23, 2026

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

"O kitabı okudum" ile "Kitabı okudum" arasındaki fark öznenin vurgulanmasıyla ilgili değil; her iki cümlede de özne örtük olarak aynıdır (ben). Fark, nesnenin belirginliği/işaretlenmesi ("o" gösterme sıfatı ile hangi kitabın kastedildiği) ve buna bağlı vurgu/topikleşme ile ilgilidir. İdeal cevabı bu şekilde düzeltin.

Suggested change
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Özne belirginliği; birincisinde özne vurgulanmıştır"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Nesnenin belirginliği/işaretlenmesi; 'o' hangi kitabın kastedildiğini belirtir"}

Copilot uses AI. Check for mistakes.
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Sararmak' fiilinde '-ar-' eki ne işlevi üstlenmektedir?"}], "ideal": "Renk isminden fiil türeten yapım eki"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Uçurtma' kelimesindeki '-ma' eki yapım mı çekim mi ekidir?"}], "ideal": "Yapım eki"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'O kitabı okudum' ile 'Kitabı okudum' cümleleri arasındaki fark ne bakımından önemlidir?"}], "ideal": "Özne belirginliği; birincisinde özne vurgulanmıştır"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Demek' fiilinin geniş zaman üçüncü tekil şahıs çekimi 'der' mi 'diyor' mu, yoksa her ikisi de doğru mu?"}], "ideal": "Her ikisi de doğrudur"}
Copy link

Copilot AI Apr 23, 2026

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Soru "geniş zaman üçüncü tekil" çekimini soruyor; "demek" için geniş zaman 3. tekil "der"dir. "Diyor" şimdiki zaman (-yor) çekimidir, bu yüzden "her ikisi de doğrudur" ideal cevabı hatalı görünüyor. İdeal cevabı "der" (ve istenirse "diyor"un şimdiki zaman olduğu notu) olacak şekilde güncelleyin.

Suggested change
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Demek' fiilinin geniş zaman üçüncü tekil şahıs çekimi 'der' mi 'diyor' mu, yoksa her ikisi de doğru mu?"}], "ideal": "Her ikisi de doğrudur"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Demek' fiilinin geniş zaman üçüncü tekil şahıs çekimi 'der' mi 'diyor' mu, yoksa her ikisi de doğru mu?"}], "ideal": "Der"}

Copilot uses AI. Check for mistakes.
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Hangi' kelimesi cümlede hem soru sıfatı hem de soru zamiri olarak kullanılabilir mi?"}], "ideal": "Evet, kullanım yerine göre işlevi değişir"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Düşünmek' fiilinin edilgen çatısı nedir?"}], "ideal": "Düşünülmek"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Yaşlı adam yavaşça yürüdü.' cümlesinde kaç tane zarf tümleci vardır?"}], "ideal": "1"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Ne kadar çok çalışırsan o kadar başarılı olursun.' cümlesi hangi cümle türüdür?"}], "ideal": "Bağlı cümle (koşul-sonuç ilişkili birleşik cümle)"}
Copy link

Copilot AI Apr 23, 2026

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

"Ne kadar çok çalışırsan o kadar başarılı olursun" yapısı bağlaçla kurulmuş "bağlı cümle" değil; -sa/-se ile kurulan koşul yan cümleciği içerdiği için genelde "şartlı (koşullu) birleşik cümle" olarak sınıflandırılır. İdeal cevabı bu sınıflandırmaya göre düzeltin.

Suggested change
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Ne kadar çok çalışırsan o kadar başarılı olursun.' cümlesi hangi cümle türüdür?"}], "ideal": "Bağlı cümle (koşul-sonuç ilişkili birleşik cümle)"}
{"input": [{"role": "system", "content": "Verilen Türkçe dil bilgisi sorusunu cevaplayın. Yalnızca kısa ve net bir cevap verin."}, {"role": "user", "content": "'Ne kadar çok çalışırsan o kadar başarılı olursun.' cümlesi hangi cümle türüdür?"}], "ideal": "Şartlı (koşullu) birleşik cümle"}

Copilot uses AI. Check for mistakes.
- grammar/9: nesne belirginliği (object specificity), not özne
- grammar/10: geniş zaman 'der', 'diyor' şimdiki zamandır
- grammar/18: şartlı birleşik cümle, not bağlı cümle
- reasoning/7: 'geçiyor' yazım düzeltmesi (geçeyi → geçiyor)
- reasoning/53: mesafeyi netleştir (120 km), belirsiz '1 saat' ifadesi kaldırıldı
Copy link
Copy Markdown

Copilot AI left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Pull request overview

Copilot reviewed 4 out of 4 changed files in this pull request and generated no new comments.


💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants