Geçen hafta zaman çizelgemde bir cümle gördüm: "Yeni model X, GPT-5.5'i geçti." Altında bir tablo, tabloda yeşil bir hücre, hücrede iki puanlık bir fark. Refleksif olarak bir an heyecanlandım — sonra durdum. Neyi geçti? Hangi testte, kaç örnekle, kimin ölçtüğü, modelin o testi daha önce görüp görmediği belli değildi. İki puanlık o yeşil hücre, bir mühendislik zaferi de olabilirdi, bir pazarlama cümlesi de, ölçüm gürültüsü de. Cümleyi okumak için elimde bir gramer yoktu.
Bu yazı o grameri kurmakla ilgili.
Önceki dört yazıda modelin içine baktık: kavramları (token, embedding, parametre), mimariyi (attention, RoPE, GQA), eğitimi (pretraining → SFT → DPO → GRPO) ve çalıştırmayı (KV cache, speculative decoding, quantization) söktük. Dörtleme "model nasıl çalışıyor?" sorusunu yanıtladı. Bu yazı yeni bir damar açıyor: modeli nasıl ölçüyoruz? Ve daha sinir bozucu olanı: neden bu ölçümün büyük kısmı tiyatro?
İddia şu: 2026'da "şu model şunu geçti" cümlelerinin çoğu, dikkatli okunduğunda söylendiği şeyi söylemiyor. Benchmark'lar doyuyor, contamination skorları şişiriyor, Arena stil ödüllendiriyor, reasoning modelleri aynı modelden bambaşka sayılar üretiyor, üç ayrı liderlik tablosu aynı hafta üç farklı "en iyi" ilan ediyor. Bunların hiçbiri sektörün çöktüğü anlamına gelmiyor — sadece bir skorun, yanında üç beş soru sorulmadan okunamayacağı anlamına geliyor.
On iki katman var. Sırayla.
1. Benchmark Hayvanat Bahçesi — Neyi Ölçüyoruz?
Bir LLM'i değerlendirmek için icat edilmiş test listesi uzun ve her birinin ölçtüğü şey farklı. Hızlı bir tur:
- MMLU (Hendrycks 2020) — 57 konuda çoktan seçmeli bilgi + problem çözme. Yıllarca "genel yetenek" göstergesi sayıldı.
- GSM8K (Cobbe 2021) — ilkokul matematik kelime problemleri, çok adımlı aritmetik.
- MATH (Hendrycks 2021) — yarışma matematiği, adım adım çözümlü.
- HumanEval / MBPP (2021) — docstring'den Python fonksiyonu üret, birim testlerle kontrol et.
- HellaSwag / ARC / WinoGrande (2018-19) — sağduyu, fen sınavı, zamir çözümleme.
- BBH (BIG-Bench Hard, 2022) — BIG-Bench'in 23 en zor görevi.
- GPQA Diamond (Rein 2023) — PhD'li uzmanların yazdığı, kasıtlı "Google-proof" fen soruları.
- IFEval (2023) — talimat takibi, ama kod ile doğrulanabilir talimatlarla ("400 kelimeden fazla yaz").
- MT-Bench / AlpacaEval 2 (2023-24) — bir LLM'i hakem yapıp sohbet kalitesini puanlama.
Bu listenin atası, tek bir skora karşı yazılmış bir manifesto: Stanford'dan Liang ve ekibinin HELM'i (2022). HELM'in derdi, herkesin farklı testlerde farklı sayılar yayınlayıp karşılaştırılamaz hale gelmesiydi:
> "Prior to HELM, models on average were evaluated on just 17.9% of the core HELM scenarios, with some prominent models not sharing a single scenario in common. We improve this to 96.0%."
HELM tek bir doğruluk sayısı yerine yedi metrik (accuracy, calibration, robustness, fairness, bias, toxicity, efficiency) ölçmeyi önerdi — çünkü "en doğru model" aynı zamanda en az kalibre, en toksik model olabilir. Bu, yazının ilk dersi: tek eksen yanıltır. Ama hayvanat bahçesindeki testlerin asıl sorunu başka — hepsi yaşlanıyor.
2. Satürasyon — Benchmark'ların Ömrü Vardır
HellaSwag 2019'da çıktığında makalesi şunu söylüyordu:
> "Though its questions are trivial for humans (>95% accuracy), state-of-the-art models struggle (<48%)."
Bugün frontier modeller HellaSwag'da ~%95+. Aynı hikâye MMLU için de geçerli: 2020'de en iyi model (GPT-3) %43.9'du, yaratıcıların tahmin ettiği insan-uzman tavanı %89.8. 2023'te GPT-4 %86.4'e geldi, 2024'te modeller %90'ı geçti, 2025'te MMLU "daha zor alternatifler lehine kısmen emekliye ayrıldı." Bir test, frontier modelleri ayırt edemez hale geldiğinde ölür. Buna benchmark satürasyonu deniyor.

Yukarıdaki grafikte üst şeritte (≥%85) sıkışan eğriler doymuş benchmark'lar. Asıl sürpriz mor çizgide: GPQA Diamond. 2023'te "PhD-seviyesi, Google-proof, doymaz" diye lanse edilmişti — uzmanlar %65, GPT-4 sadece %39 alıyordu:
> "experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy ... while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are 'Google-proof'). ... our strongest GPT-4 based baseline achieving 39% accuracy."
Mayıs 2026 itibarıyla Gemini 3.1 Pro GPQA Diamond'da %94.1. "Çözülemez" denen test ~2.5 yılda insan-uzman tavanının çok üstüne çıktı. Aynı kader MATH'in de başına geldi: 2021 makalesi açıkça "ölçekleme bunu çözmeyecek" demişti —
> "scaling is not currently solving MATH."
— ve ~3 yıl sonra reasoning modelleri MATH'i pratikte çözdü. Benchmark tahminleri ne kadar hızlı eskiyor, bundan iyi örnek yok.
Burada iki ince nokta var. Birincisi: doygunluğa yaklaşan benchmark'ta kalan 1-2 puan gürültü olabilir. MadryLab'in GSM8K-Platinum çalışması, GSM8K'nın ~%95 platosunun büyük kısmının etiket gürültüsü olduğunu gösterdi — test setini temizleyince Claude 3.7 (2 hata) ile Llama 405B (17 hata) arasında 8 kat fark ortaya çıktı; orijinal gürültülü test bunu tamamen gizliyordu. İkincisi: testin kendisi hatalı olabilir. MMLU'nun elle incelenen bir analizinde soruların ~%6.5'i hatalı çıktı (Virology alt-kümesinde %57). Yani MMLU'da %100 zaten imkânsız. Yüksek skoru mutlak okumak, testin kusursuz olduğunu varsaymaktır — ki değil.
3. Yeni Nesil — Doymasın Diye Tasarlananlar
Klasikler doyunca yarış daha zor testlere kaydı. Üçü öne çıkıyor.
Humanity's Last Exam (HLE) — Center for AI Safety + Scale AI, 2025 (Ocak 2026'da Nature'da yayınlandı). 1.000'den fazla uzmanın yazdığı 2.500 soru, "kapalı-uçlu akademik sınavların sonuncusu" olacak şekilde tasarlandı. Neden? Makale doğrudan söylüyor:
> "LLMs now achieve over 90% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities."
HLE'de en iyi skor hâlâ düşük: Gemini 3.1 Pro %44.7, hemen arkasında GPT-5.5 (~%44), GPT-4o ise sadece %2.7. (Üstelik lastexam.ai ile artificialanalysis.ai farklı hakem modelleriyle farklı tepe skorlar veriyor — bu bile başlı başına bir "eleştirel oku" dersi.) Ama asıl çarpıcı veri ikinci sütunda — kalibrasyon hatası çoğu modelde %50'nin üzerinde. Yani modeller yanlış olduklarında bile aşırı kendinden emin. Skorun yanındaki bu sayı, "model bilmediğini biliyor mu?" sorusunun yanıtı ve çoğu zaman "hayır."
ARC-AGI — François Chollet'in 2019'daki "On the Measure of Intelligence"ından doğdu. Tezi: skill ≠ zekâ.
> "skill is heavily modulated by prior knowledge and experience: unlimited priors or unlimited training data allow experimenters to 'buy' arbitrary levels of skills for a system, in a way that masks the system's own generalization power."
ARC-AGI prensibi "insan için kolay, AI için zor." ARC-AGI-1, GPT-3 ile 2020'de %0'dı, GPT-4o ile 2024'te ancak %5'e gelmişti — sonra o3 geldi (buna 9. bölümde döneceğiz). Önemli olan Chollet'in uyarısı:
> "Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don't think o3 is AGI yet. o3 still fails on some very easy tasks."
SWE-bench Verified — gerçek GitHub issue'larını çözme testi. Orijinal SWE-bench (2023) o kadar zordu ki en iyi model Claude 2 "issue'ların yalnızca %1.96'sını" çözebiliyordu. Ama "Verified" kısmı, bu yazının en sağlam derslerinden birini barındırıyor — bir sonraki bölümlerde göreceğimiz "verified" kavramının ne demek olduğunu. Kısaca: OpenAI orijinal SWE-bench'i insan denetçilerle elekten geçirdiğinde örneklerin %68.3'ünü attı — çünkü ya soru yetersiz tanımlıydı ya da birim testleri doğru çözümleri haksız yere yanlış sayıyordu. Üçte ikisi bozuktu. Bir benchmark, kaynağında kırık olabilir.
4. Long-Context Yanılsaması — "1 Milyon Token" Ne Demek?
Modeller "1M token bağlam" diye reklam yapıyor. Bu sayı neredeyse her zaman yanıltıcı.
En yaygın test NIAH (Needle in a Haystack): uzun bir metnin içine bir cümle ("iğne") saklayıp modelden onu bulmasını istemek. Sorun, NIAH'ın gerekli ama yetersiz olması — tek bir gerçeği kelimesi kelimesine geri getirmeyi ölçüyor, bağlam üzerinde akıl yürütmeyi değil. NVIDIA'nın RULER makalesi bunu açıkça söylüyor:
> "While these models all claim context sizes of 32K tokens or greater, only half of them can maintain satisfactory performance at the length of 32K. Moreover, almost all models fall below the threshold before reaching the claimed context lengths."
RULER'ın "etkin bağlam uzunluğu" tablosu yıkıcı: Yi-34B 200K reklam ediyor ama etkin bağlamı 32K; DBRX 32K diyor, 8K'da çöküyor. Reklamlanan pencere ile gerçekte işe yarayan pencere apayrı şeyler.

Üstüne bir de "lost in the middle" var. Liu ve ekibinin 2023'teki bulgusu, yukarıdaki heatmap'in şeklini açıklıyor:
> "performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts, even for explicitly long-context models."
En kötü senaryoda GPT-3.5'in çok-belgeli QA performansı, ilgili bilgi ortaya konunca hiç belge verilmemiş halinden daha düşük çıkabiliyor. Yani cevabı uzun bir bağlamın ortasına koymak, modele hiç bağlam vermemekten beter olabilir. "1M token" satın aldığını sandığın şey, ortada bir kör nokta ile geliyor.
5. Contamination — Test Sızıntısı
Şimdi en sinsi soruna geliyoruz. Bir model test sorusunu eğitim verisinde gördüyse, o testteki yüksek skoru "anlama" değil, "hatırlama" olabilir.

Sainz ve ekibinin 2023'teki "NLP Evaluation in Trouble" manifestosu tanımı tek cümlede veriyor:
> "The worst kind of data contamination happens when a Large Language Model (LLM) is trained on the test split of a benchmark, and then evaluated in the same benchmark. ... Contamination causes an overestimation of the performance of a contaminated model."
Bu teorik bir endişe değil. Scale AI'ın GSM1k çalışması, GSM8K'yı birebir aynalayan 1.000 yeni soru yazıp ölçtü: bazı model ailelerinde %8'e varan düşüş ve modelin GSM8K örneklerini üretme olasılığı ile şişen skoru arasında pozitif korelasyon (Spearman r²=0.36). Yani "test setini hatırlama" eğilimi, şişen skorla doğrudan ölçülebiliyor.
Daha da rahatsız edici olan: yaygın savunma olan n-gram filtreleme yetersiz. LMSYS'in "rephrasing is all you need" çalışması, test sorularını basitçe parafraz ederek veya başka dile çevirerek bu filtreyi atlattı —
> "simple variations of test data (e.g., paraphrasing, translation) can easily bypass these decontamination measures ... a 13B model can easily overfit a test benchmark and achieve drastically high performance, on par with GPT-4."
13 milyar parametreli bir model, test setini parafrazla ezberleyerek GPT-4'e yetişiyor. Üstelik aynı çalışma RedPajama ve StarCoder gibi pretraining setlerinde HumanEval'in %8-18'inin zaten mevcut olduğunu buldu.
Savunma olarak icat edilen canary string (BIG-bench'in 26b5c67b-... GUID'i) bile pratikte sızıyor: fikir, bu işareti taşıyan belgeleri eğitimden silmekti; ama RLHF öncesi GPT-4-base ve Claude 3.5 Sonnet'in bu string'i üretebildiği keşfedildi — yani işaretli belgeler yine de eğitime girmişti. Önleme bile garanti değil.
Tasarımla bağışıklığın en temiz örneği LiveCodeBench: yalnızca modelin eğitim kesim tarihinden sonra yayınlanan problemlerde değerlendiriyor. Sonuç, contamination'ın tek grafikte kanıtı:
> "DeepSeek-Instruct performs considerably worse on problems released since September 2023 (its release date!) – indicating potential contamination for the earlier problems."
Aynı model, kesim tarihinden önceki problemlerde yüksek, sonrakilerde düşük. Pratik kural: bir kod modelinin skoruna bakarken, modelin cutoff'undan sonraki pencereye bak.
6. Arena ELO — İnsan Tercihi Ölçmek
Statik testlerin contamination sorunu olunca, alternatif insan tercihine döndü: LMSYS'in Chatbot Arena'sı (bugün lmarena.ai). İki anonim modele aynı soruyu sorarsın, daha iyi cevabı seçersin, kimliğini oydan sonra görürsün. Mart 2024'te 90 bin kullanıcıdan 240 bin oy toplamışlardı.

İlk myth-busting: herkes "Elo" diyor ama LMSYS teknik olarak Bradley-Terry kullanıyor, çünkü kendi sözleriyle:
> "We made this change because the BT coefficients are better for the purpose of statistical estimation."
Ve daha önemlisi: bir Arena skoru tek bir sayı değil, bir nokta kestirimi artı güven aralığıdır. İki modelin güven aralıkları çakışıyorsa, "1. vs 2." farkı istatistiksel olarak anlamsız olabilir. Eleştirel okuma kuralı: sıraya değil, güven aralığına bak.
İkinci sorun stil. LMSYS'in kendi "style control" analizi itiraf ediyor: uzun ve markdown'lı cevaplar daha çok oy kazanıyor. Uzunluk ve biçimi kontrol edince sıralama değişti —
> "GPT-4o-mini and Grok-2-mini drop below most frontier models, and Claude 3.5 Sonnet, Opus, and Llama-3.1-405B rise substantially."
"it's not just what you say, but how you say it" diyorlar. İnsan, kendinden daha akıllı iki cevabı yargılayamadığında yüzeysel sinyallere (uzunluk, biçim, kendinden emin ton) düşüyor.
En sert eleştiri 2025'ten, manidar biçimde Goodhart's Law epigrafıyla açılan "The Leaderboard Illusion": Meta'nın Llama-4 öncesi Arena'da gizlice 27 varyant test ettiği, Google ve OpenAI'nin tüm Arena verisinin sırasıyla ~%19.2 ve %20.4'üne eriştiği (83 açık model toplam %29.7), ve ekstra veriyle Arena dağılımında %112'ye varan göreli kazanç sağlandığı tespit edildi. (LMSYS bazı iddialara itiraz etti; varyant testinin meşru olduğunu savundu — tartışma sürüyor.) Ama Goodhart'ın yasası ortada: bir metrik hedef haline gelince, iyi bir metrik olmaktan çıkar.
7. Çok-Dillilik ve Türkçe — Skorlar Hangi Dilde?
İngilizce benchmark'lar dünyanın geri kalanını ölçmüyor. En çok atıf alan çok-dilli reasoning testi MGSM bile Türkçe içermiyor (10 dili var, Türkçe yok) — Türkçe-özel değerlendirme ihtiyacının en sade kanıtı. FLORES-200, XNLI ve TyDiQA Türkçe'yi kapsıyor ama yüzeysel.

Son iki yılda Türkçe'ye-özgü, native-yazılmış (otomatik-çeviri değil) benchmark'lar çıktı. TurkishMMLU (Yüksel, Köksal ve ekibi, 2024) lise müfredatından 10.000+ soruyla ilk native Türkçe MMLU'yu kurdu. Neden çeviri değil:
> "While existing benchmarks employ automatic translation for multilingual evaluation, this approach is error-prone and potentially introduces culturally biased questions, especially in social sciences."
En iyi model GPT-4o %83.1; ama matematik tüm modeller için en zayıf kategori. TR-MMLU (Bayram ve ekibi, 2025) Türkiye'ye-özgü gerçek sınavları kullandı (TUS, KPSS, Ehliyet, AÖF). En güncel olanı TurkBench (SIGTURK 2026): 21 alt-görev, 6 kategori, 8.151 örnek.
İki ders çıkıyor. Birincisi, Türkçe-promptlu matematik herkeste çöküyor — radar grafiğinin "Muhakeme" ekseninin neden içeri göçtüğü bu. İkincisi ve daha şaşırtıcı: Türkçe fine-tune otomatik üstünlük getirmiyor. TurkBench'te Türkçe-adapte gemma-3-12b-TR (%71.2), taban model gemma-3-12b-it (%71.0) ile neredeyse başabaş; Türkçe-özel küçük modeller (Kumru-2B %27.3) genel-amaçlı büyük modellerin çok gerisinde. Taban-model ölçeği, dil-adaptasyonunu yeniyor. (Trendyol-LLM'in evrimi de bunu doğruluyor: LLaMA2 tabanından Qwen2.5 tabanına geçtiler — "en iyi tabanı al, Türkçe ile devam-eğit.")
8. Reasoning Paradigması — Aynı Modelden Farklı Cevaplar
2022'den itibaren bir dizi prompt tekniği, modelin skorunu eğitime dokunmadan değiştirdi. Hepsi inference anında çalışıyor.
Chain-of-Thought (Wei 2022): cevaptan önce ara adımları yazdır. PaLM 540B'de GSM8K'yı sadece prompt biçimiyle ~%17'den ~%57'ye çıkardı. Eleştirel sonuç: iki makale "GSM8K skoru" diye 40 puan farklı sayı verebilir — fark sadece CoT kullanılıp kullanılmadığıdır.
Self-consistency (Wang 2022): tek cevap yerine N farklı zincir üret, çoğunluk oyunu al.

GSM8K'da +%17.9 kazandırdı, herhangi bir verifier veya ek eğitim olmadan — sadece örnekleme ve sayma. Ama dikkat: "cons@64" diye etiketlenen bir skor, pass@1'in 64 katı inference compute'u harcadı. N, sonucun bir parçası.
Tree of Thoughts (Yao 2023) bunu ağaç aramasına çevirdi: Game-of-24'te aynı GPT-4, CoT ile %4 çözerken ToT ile %74. Yetmiş puanlık fark, modelden değil, inference-zamanı arama stratejisinden. ReAct (Yao 2022) akıl yürütmeyi araç kullanımıyla (Wikipedia API gibi) iç içe geçirdi — bugünkü ajanların atası. Lightman ve ekibinin "Let's Verify Step by Step" çalışması (2023) ödülü her adıma verdi (process reward) ve MATH'in temsili alt-kümesinde %78'e ulaştı.
Ortak tema: aynı ağırlıklar, farklı inference ayarı, bambaşka skor. "Modelin skoru" bir skaler değil; inference bütçesi üzerinde bir eğri.
9. Test-Time Compute — "Daha Çok Düşün, Daha Çok Çöz"
2024 sonunda OpenAI o1 ile bu eğri resmîleşti. Tek bir cümle bütün benchmark okumayı değiştiriyor — aynı modelin AIME 2024'teki skoru:
> "o1 averaged 74% (11.1/15) with a single sample per problem, 83% (12.5/15) with consensus among 64 samples, and 93% (13.9/15) when re-ranking 1000 samples with a learned scoring function."

"o1 AIME'de %93" ve "o1 AIME'de %74" cümlelerinin ikisi de doğru ve aynı modeli anlatıyor — sadece harcanan inference compute farklı. Hangi sayıya baktığını bilmeyen okuyucu iki modeli karşılaştıramaz. DeepSeek-R1 bunun açık-kaynak kanıtı: pure-RL (GRPO) ile AIME pass@1'i %15.6'dan %71'e çıkardı, çoğunluk oyuyla %86.7'ye. Eğitim sırasında modelin kendi kendine "düşünme süresini" uzatması ("aha moment") OpenAI'ye özel bir sır değil, RL-eğitimli reasoning modellerinin genel özelliği.
Asıl mesele compute'un bedeli. o3'ün ARC-AGI atılımı bunu çıplak gösteriyor: yüksek-verim modunda %75.7, görev başına ~4.560. Aynı insan, aynı görevi ~$5'a çözüyor. Chollet bu yüzden bir kural koydu:
> "Due to variable inference budget, efficiency (e.g., compute cost) is now a required metric when reporting performance."
11.8 puanlık kazanç 172× compute'a mal oluyorsa, o skorun yanında $/görev yazmıyorsa, skor yarım söylenmiş demektir.
Ve "kim test setine erişti?" sorusunun ders kitabı vakası: FrontierMath. o3'ün %25'i duyuruldu (önceki en iyi ~%2). Sonra çıktı ki benchmark'ı yapan Epoch AI tamamen OpenAI tarafından fonlanmış, OpenAI problemlerin çoğuna + çözümlere özel erişime sahipti, fonlama ilk makalede açıklanmamıştı, ve zorluk-dağılımı gizliydi (çözülen %25 büyük ihtimalle en kolay katmandı). "Eğitmeyeceğiz" sözü yalnızca sözlüydü. Tek bir "%25" sayısı, üç ayrı confounder'ı (örnek bütçesi, zorluk dağılımı, test-seti erişimi + fon çıkar çatışması) gizledi.
Bir not da şeffaflık üzerine: o1 ham düşünce zincirini kullanıcıya göstermiyor, sadece bir özet veriyor. Yani bir reasoning modelinin benchmark cevabına nasıl ulaştığı dışarıdan denetlenemiyor.
10. Agent Yetenekleri — İnsan Tavanı Hâlâ Çok Yukarıda
Statik MCQ benchmark'ları doyarken, ajan benchmark'larında tam tersi manzara var: insan tavanı yüksek, model düşükten başlıyor, aradaki boşluk (headroom) görünür.

WebArena (2023) gerçekçi web sitelerinde görev tamamlama ölçüyor: lansmanında en iyi GPT-4 ajanı %14.41, insan %78.24. OSWorld gerçek bilgisayar ortamında: insan %72.36, en iyi model (lansmanda) %12.24. GAIA (Mialon, LeCun ve ekibi) "genel asistan" görevleri için kasıtlı tersine bir benchmark:
> "human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills."
2026'ya gelindiğinde bu skorlar 4-6 kat arttı (grafikteki koyu çubuklar) ama WebArena ve OSWorld'de hâlâ insan tavanının altında. Üstelik bir uyarı: ajan skorları scaffold'a aşırı bağlı — aynı model, farklı ajan sarmalayıcısıyla çok farklı skor alır (SWE-bench'te GPT-4'ün skoru kötü scaffold'da %2.7, iyi scaffold'da %28.3 — ~10 kat). Bu dönemin standartlaşması Anthropic'in Model Context Protocol'ü (MCP, Kasım 2024) ile geldi; "AI için USB-C portu" benzetmesiyle araç kullanımını protokolleştirdi. GAIA'nın 300 cevabını gizli tutması da contamination'a karşı bir tasarım — leaderboard submission'ı zorunlu, ezber zorlaştırılmış.
11. Safety Eval — Güvenlik de Metodoloji-Bağımlı
Güvenlik skorları da en az yetenek skorları kadar metodoloji-bağımlı. HarmBench (Mazeika 2024) otomatik red-teaming'i standartlaştırdı: 18 saldırı × 33 model/savunma matrisi. JailbreakBench (Chao, Debenedetti, Robey 2024) jailbreak'leri tekrarlanabilir kıldı — çünkü önceki çalışmalar karşılaştırılamazdı:
> "there is no clear standard of practice regarding jailbreaking evaluation. ... existing works compute costs and success rates in incomparable ways. ... numerous works are not reproducible, as they withhold adversarial prompts, involve closed-source code, or rely on evolving proprietary APIs."
Yani "modelimiz %X güvenli" cümlesi de, hangi saldırı setine karşı, hangi tehdit modeliyle ölçüldüğü sorulmadan okunamaz. Tek bir güvenlik sayısı yok; saldırı-savunma birlikte evriliyor.
12. Peki Bir İddiayı Nasıl Okumalı?
Bütün bunları tek bir karar akışına indirgeyebiliriz. "Şu model şu benchmark'ta SOTA" cümlesini gördüğünde, sırayla sor:

- Bağımsız doğrulama var mı? Skor modelin kendi blogundan mı, yoksa üçüncü taraf bir liderlik tablosundan mı? Sadece üreticinin sayısıysa — pazarlama.
- Contamination kontrol edildi mi? Test cutoff sonrası mı (LiveCodeBench), canary'li mi, private holdout mu? Değilse — şüpheli.
- Skor pass@1 mi? pass@k, cons@64, best-of-1000 sayıyı şişirir ve genelde elinde olmayan bir verifier gerektirir. Karşılaştırdığın iki sayının
@k'si aynı mı? - Ayar eşit mi? Few-shot mu zero-shot mu, CoT var mı, ne kadar test-time compute / $ harcandı? o3'ün 172× compute farkını hatırla.
- Arena ise stil/uzunluk bias'ı düzeltildi mi? Ham Elo mu, style-controlled mı? Güven aralıkları çakışıyor mu?
Bu sorulardan herhangi birine "hayır" çıkıyorsa, skor "güvenilir" değil "şüpheli" ya da "pazarlama" kutusuna düşer. Ve son bir hatırlatma — Mayıs 2026 itibarıyla üç ciddi liderlik tablosu aynı hafta üç farklı "en iyi model" gösteriyor: Artificial Analysis'te GPT-5.5, LMArena'da Claude Opus 4.6/4.7-thinking, llm-stats'te Claude Mythos Preview. Hiçbiri yalan söylemiyor; sadece farklı şeyler ölçüyorlar (agentic+akademik kompozit vs insan tercihi vs kod-ağırlıklı kompozit). "En iyi model" sorusunun cevabı, "neyi ölçtüğüne bağlı"dan ibaret.
13. Yaygın Yanlış Anlamalar
> Hızlı liste
>
> - "Yüksek benchmark skoru = daha iyi model." Doymuş benchmark'ta %90+ skorlar arasındaki fark gürültü olabilir (GSM8K-Platinum: gürültü 8× gerçek farkı gizledi). Headroom (tavana mesafe) mutlak skordan önemli.
> - "%100 mümkün." MMLU'nun ~%6.5'i hatalı; bazı testlerde tavan zaten %100'ün altında. Skoru testin kusursuz olduğunu varsayarak okuma.
> - "GPQA gibi zor testler doymaz." GPQA Diamond ~2.5 yılda %39→%94. Her "doymaz" benchmark doyuyor; soru ne zaman, ne hızla.
> - "Bir modelin tek bir skoru vardır." o1 AIME'de hem %74 hem %93 — fark sadece inference bütçesi. Daima @k'yi ve seçim yöntemini (greedy/majority/verifier) sor.
> - "Daha çok compute hep daha iyi skor, bedava." o3'te +11.8 puan = 172× compute = 4.560/görev. Skorun yanında $/görev yoksa yarım söylenmiştir.
> - "Arena en objektif çünkü insanlar oyluyor." İnsan uzun/biçimli/kendinden emin cevabı kayırır (style bias); kendinden akıllı cevabı yargılayamaz. Style-controlled sıralamaya bak.
> - "Contamination nadir bir kaza." Varsayılan kabul et: web-ölçek veri test setlerini içerir. 13B model parafrazla GPT-4'e yetişebiliyor; private/cutoff-sonrası split olmadan skor şişmiş olabilir.
> - "Türkçe için özel-eğitilmiş model otomatik daha iyidir." Çoğu zaman değil — taban-model ölçeği dil-adaptasyonunu yeniyor (TurkBench).
> - "Liderlik tablosunda 1. olan en iyidir." Hangi tablo? Üç tracker üç farklı #1 veriyor. Ölçtükleri şey farklı.
14. Kapanış
Açılışta zaman çizelgemdeki o iki puanlık yeşil hücreyi okuyamadığımı söylemiştim. Artık bir grameri var: hangi benchmark (doymuş mu, frontier mı?), bağımsız mı doğrulanmış, contamination kontrol edilmiş mi, pass@1 mi pass@k mi, kaç dolar/görev, Arena ise stil düzeltilmiş mi, ve hangi tabloda. Bu soruların hiçbiri "model kötü" demek değil — modeller gerçekten, ölçülebilir biçimde, hızla iyileşiyor. Sadece "X, Y'yi geçti" cümlesinin, arkasındaki ölçüm bilinmeden bir anlam taşımadığını söylüyor.
Benchmark'lar haritadır, arazi değil. Goodhart'ın yasası tam burada ısırıyor: bir metrik hedef olunca iyi bir metrik olmaktan çıkıyor. Modeller benchmark'a göre optimize edildikçe, benchmark modelin gerçek yeteneğini ölçmeyi bırakıyor — ve yeni, daha zor bir benchmark gerekiyor. MMLU→MMLU-Pro→HLE; ARC-AGI-1→2→3; SWE-bench→Verified→Pro. Koşu bandı dönüyor ve hızlanıyor.
Kaynakça
Klasik benchmark'lar + satürasyon
- Liang et al. 2022, Holistic Evaluation of Language Models (HELM) — arxiv.org/abs/2211.09110
- Hendrycks et al. 2020, MMLU — arxiv.org/abs/2009.03300
- Wang et al. 2024, MMLU-Pro — arxiv.org/abs/2406.01574
- Cobbe et al. 2021, GSM8K / Training Verifiers — arxiv.org/abs/2110.14168 · GSM8K-Platinum — gradientscience.org/gsm8k-platinum
- Hendrycks et al. 2021, MATH — arxiv.org/abs/2103.03874
- Chen et al. 2021, HumanEval / Codex — arxiv.org/abs/2107.03374
- Zellers et al. 2019, HellaSwag — arxiv.org/abs/1905.07830
- Sakaguchi et al. 2019, WinoGrande — arxiv.org/abs/1907.10641
- Suzgun et al. 2022, BIG-Bench Hard — arxiv.org/abs/2210.09261
- Rein et al. 2023, GPQA — arxiv.org/abs/2311.12022
- Zhou et al. 2023, IFEval — arxiv.org/abs/2311.07911
- Zheng et al. 2023, MT-Bench / LLM-as-a-Judge — arxiv.org/abs/2306.05685
- Dubois et al. 2024, Length-Controlled AlpacaEval — arxiv.org/abs/2404.04475
Yeni nesil + long-context
- Phan et al. 2025, Humanity's Last Exam — arxiv.org/abs/2501.14249 · lastexam.ai
- Chollet 2019, On the Measure of Intelligence (ARC) — arxiv.org/abs/1911.01547 · ARC Prize / o3 — arcprize.org/blog/oai-o3-pub-breakthrough
- Jimenez et al. 2023, SWE-bench — arxiv.org/abs/2310.06770 · SWE-bench Verified — openai.com/index/introducing-swe-bench-verified
- Liu et al. 2023, Lost in the Middle — arxiv.org/abs/2307.03172
- Hsieh et al. 2024, RULER — arxiv.org/abs/2404.06654
- Bai et al. 2023, LongBench — arxiv.org/abs/2308.14508 · Zhang et al. 2024, ∞Bench — arxiv.org/abs/2402.13718
Arena + contamination
- Chiang et al. 2024, Chatbot Arena — arxiv.org/abs/2403.04132 · Style Control — lmsys.org/blog/2024-08-28-style-control
- Singh et al. 2025, The Leaderboard Illusion — arxiv.org/abs/2504.20879
- Sainz et al. 2023, NLP Evaluation in Trouble — aclanthology.org/2023.findings-emnlp.722
- Zhang et al. 2024, GSM1k — arxiv.org/abs/2405.00332
- Yang et al. 2023, Rephrased Samples / llm-decontaminator — arxiv.org/abs/2311.04850
- Jain et al. 2024, LiveCodeBench — arxiv.org/abs/2403.07974 · White et al. 2024, LiveBench — arxiv.org/abs/2406.19314
Reasoning + test-time compute
- Wei et al. 2022, Chain-of-Thought — arxiv.org/abs/2201.11903
- Wang et al. 2022, Self-Consistency — arxiv.org/abs/2203.11171
- Yao et al. 2023, Tree of Thoughts — arxiv.org/abs/2305.10601 · Yao et al. 2022, ReAct — arxiv.org/abs/2210.03629
- Lightman et al. 2023, Let's Verify Step by Step (PRM) — arxiv.org/abs/2305.20050
- OpenAI 2024, Learning to Reason with LLMs (o1) — openai.com/index/learning-to-reason-with-llms
- DeepSeek-AI 2025, DeepSeek-R1 — arxiv.org/abs/2501.12948
- Snell et al. 2024, Scaling Test-Time Compute — arxiv.org/abs/2408.03314
- Anthropic, Claude's extended thinking — anthropic.com/research/visible-extended-thinking
Agent + safety + multilingual + Türkçe
- Zhou et al. 2023, WebArena — arxiv.org/abs/2307.13854
- Xie et al. 2024, OSWorld — arxiv.org/abs/2404.07972
- Mialon et al. 2023, GAIA — arxiv.org/abs/2311.12983
- Anthropic 2024, Model Context Protocol — modelcontextprotocol.io · Computer use — anthropic.com/news/developing-computer-use
- Mazeika et al. 2024, HarmBench — arxiv.org/abs/2402.04249 · Chao et al. 2024, JailbreakBench — arxiv.org/abs/2404.01318
- Yüksel et al. 2024, TurkishMMLU — arxiv.org/abs/2407.12402 · Bayram et al. 2025, TR-MMLU — arxiv.org/abs/2501.00593
- TurkBench (SIGTURK 2026) — arxiv.org/abs/2601.07020 · Trendyol-LLM — huggingface.co/Trendyol
Canlı leaderboard'lar (Mayıs 2026 snapshot)
- Artificial Analysis — artificialanalysis.ai/leaderboards/models
- LMArena / Arena — lmarena.ai · llm-stats — llm-stats.com
Finis