Bir LLM'i Sıfırdan Eğitmek — Pretraining, RLHF, DPO, GRPO (2026)

Şu cümleyi yüksek sesle oku: "Trained on 15.6T tokens with FSDP on 16K H100, then SFT on UltraChat, then DPO on UltraFeedback, then GRPO with verifiable rewards." Llama 3.1'in Hugging Face kartının ilk satırı. Bütün kavramlar içine sıkıştırılmış, ama hiçbiri açıklanmamış — okuyan ya iki saniye duraklar, ya da bir anda anlamış gibi yapıp devam eder.

İki yıl önce bu cümleyi ilk okuduğumda kafamda hiçbir şey kıpırdamamıştı. Yapay zekanın hangi parçası bu adamı yiyor, hangi parçası modeli yiyor, hangisi para — ayırt edemiyordum. Sonra kelimeleri tek tek sözlüğe yatırdım. Her biri bir hafta sonu çıktı. Bu yazı, o sözlük çalışmasının tek dosyaya sığdırılmış hâli — sonunda cümleye geri döndüğünde her kelime ağırlığını taşıyor, daha iyisi "bu kadar mı, gerçekten?" diyebiliyorsun.

Önceki iki yazıda kavramları çevirdik (token, parametre, embedding) ve mimariyi söktük (attention, RoPE, GQA). Bu yazı üçleyi tamamlıyor: inşaat. Bir LLM eğitiminin gerçek zinciri — veri toplama, optimizer ayarı, ödül mimarisi, ve son birkaç yılın "her şey değişti" anlatısı.

Mayıs 2026 itibarıyla bir LLM eğitiminin dört evresi şu:

Bir LLM'i sıfırdan eğitmenin dört evresi — Pretraining → SFT → Preference Tuning → Reasoning RL

Her evrenin tek paragraflık özeti:

Pretraining: Trilyonlarca token üzerinde, "bir sonraki token'ı tahmin et" oyunu. Aylar süren GPU eğitimi. Llama 3.1 405B için 15.6 trilyon token, 3.8 × 10²⁵ FLOPs, 16K H100 GPU üzerinde — Meta'nın 2024 paper'ı bütün rakamları açık veriyor. Çıktı: dili biliyor ama henüz asistan olmayan bir base model.

SFT (Supervised Fine-Tuning): Base model "internet rüya görüyor" durumunda; bu rüyayı asistan davranışına çevirmek için 100K-1M kuralı talimat üzerinde mini bir fine-tune. InstructGPT (Ouyang 2022) bu pipeline'ı resmi olarak tanımlayan paper.

Preference Tuning: SFT modeli güzel cevap veriyor ama bazen güvensiz, bahaneci, döngüsel. İnsana hangi cevabı tercih ettiğini soralım, modeli ona göre ayarlayalım. RLHF (PPO) klasik yol; DPO (Rafailov 2023) son üç yılın açık-kaynak standardı; ikisinin pratik farkı dramatik.

Reasoning RL: Modeli "düşünmeye" itecek son ayar. Matematik veya kod gibi cevabın doğruluğunun otomatik kontrol edilebildiği alanlarda, GRPO (DeepSeek 2024-25) ile pure-RL eğitim. R1-Zero'nun meşhur "aha anı" bu evrede çıkıyor.

Önemli sezgi: pretraining "ne biliyor"u, SFT "nasıl konuşur"u, preference "neyi söylemez"i, reasoning RL "nasıl düşünür"ü öğretir. Her evre bir öncekinin üstüne yazar — parametre sayısı değişmez, sadece ağırlıklar yeniden şekillenir.

Hadi tek tek girelim.

1. Pretraining — Veri Cehennemi

Bütün uygulamalı yapay zeka tarihinde, en az glamour'a sahip iş bu evrede. İşin %80'i veri temizliği, %15'i mühendislik, %5'i araştırma. Ve maliyetin de %80'i burada.

Veriyi nereden topluyorsun

Modern bir LLM'in pretraining karışımı kabaca üç gruba ayrılır:

Web: Common Crawl. Aylık ~3 milyar URL'lik snapshot'lar; ham boyut petabyte. Bu kadarını veriye dönüştürmek başlı başına bir endüstri.
Yapılandırılmış kaynaklar: GitHub (kod), ArXiv (bilim), Stack Exchange (soru-cevap), Wikipedia, kitaplar, lisanslı içerik.
Sentetik veri: Yeni standardın yarıdan çoğu. Phi-4 raporu açık söylüyor: 50 farklı sentetik dataset tipi, ~400 milyar token sentetik (toplam ~10T token'in büyük kısmı sentetik + rewritten web).

HuggingFace'in 2024'te yayınladığı FineWeb bu çağın açık-kaynak referansı: 15 trilyon token, 96 Common Crawl snapshot'tan. FineWeb-Edu (eğitsel kalite classifier ile filtrelenmiş) ise 1.3 trilyon token. Penedo et al. paper'ı filtrenin ampirik olarak tasarlandığını söylüyor — her aşamada 28B token ablation modeli (1.8B parametre) eğitilip karşılaştırılıyor. Sezgiyle değil, ölçümle.

Filtreleme pipeline'ı

FineWeb'in akışını yan yana yazdığında neyi temizlediğin ortaya çıkıyor:

Text extraction: trafilatura ile WARC dosyalarından. WET verisi (Common Crawl'ın hazır text dump'ı) daha kötü.
Base filtering: URL blocklist, dil tespiti (fastText, İngilizce > 0.65), Gopher kalite filtreleri, tekrar filtreleri. Bu adımdan sonra ~36T token kalıyor.
Deduplication: MinHash, 5-gram, 112 hash function, 14 bucket × 8 hash/bucket, ~%75 benzerlik eşiği. Aynı bucket'ta 8 MinHash'i çakışan dokümanlar duplicate sayılıyor.
Per-snapshot dedup — snapshot-arası global dedup yapılmıyor. Çünkü global dedup eski snapshot'larda kalan veriyi düşük kaliteye sürüklüyor. Penedo et al. bunu somut bir ablasyonla göstermiş: "this older crawl taken in isolation, the data from it that was kept (10% of the original data) was actually of worse quality than the 90% of data that was removed."
Heuristic filters (50+ aday'dan 3 tanesi seçilmiş): terminal punctuation oranı, tekrar eden satır oranı, kısa satır oranı.

Bu listede yapay zeka yok. KenLM, fastText, MinHash — bunların hepsi 2010'lar teknolojisi. Modern LLM'lerin verisi, modern olmayan araçlarla temizleniyor. Bu açıdan, "veri mühendisliği" "ML mühendisliği"nden ayrı bir disiplin.

Veri karışımı

Aynı 10-15 trilyon token üzerinde eğitilse bile, karışım modelin karakterini belirler. Üç farklı strateji:

Llama 3.1 405B (Meta paper, §3.1.3): %50 genel bilgi, %25 matematik + reasoning, %17 kod, %8 çok dilli. 15.6T token.
DeepSeek-V3: 14.8T token, ağırlık benzer ama kod payı %22'ye çıkmış — DeepSeek'in coding karakteri buradan.
Phi-4: 14B dense, ~10T token, ama bunun %40'tan fazlası sentetik. "Quality over scale" tezi paper'ın açılış cümlesi.

Phi-4'ün cüretkâr hamlesi MMLU 84.8, MATH 80.4, HumanEval 82.6 ile karşılık buldu — 14 milyar parametreyle 70B-sınıfı eval skorları. Microsoft'un 2024 raporu sonucu açık söylüyor: "Models trained only with synthetic data underperformed on the knowledge-heavy benchmarks and demonstrated increased hallucinations." Yani sentetik tek başına çözüm değil — karışıma giren bir bileşen.

Chinchilla — token bütçesi de parametreye sığar mı?

2022'de DeepMind'ın Chinchilla paper'ı (Hoffmann et al.) o güne kadarki tüm ölçek anlayışını ters çevirdi. Önceki büyük modeller (GPT-3, Gopher) parametre kadar veriyle eğitilmemişti. Pratik kural: her parametre için ~20 eğitim token'ı.

Chinchilla 70B → 1.4T token = 20×. Gopher 280B → 300B token = ~1×. Aynı compute bütçesinde, Chinchilla MMLU 67.5 ile Gopher'ı 7 puan geçti. Paper'ın açılış cümlesi tüm sektörü utandırdı: "current large language models are significantly undertrained."

Chinchilla'dan 2026'ya — parametre vs token grafiği

2026'da iş daha da değişti. Llama 3.1 405B → 15.6T token ≈ 38 token / parametre. DeepSeek-V3 671B → 14.8T token ≈ 22 token / parametre. Llama 3 8B → 15T token = 1875 token / parametre. Hangisi doğru?

Cevap: "compute-optimal" Chinchilla'nın resmidir, "inference-optimal" 2026'nın resmidir. Çünkü modeli bir kez eğitiyorsun ama trilyonlarca kez inference koşturuyorsun. Eğitim sırasında biraz daha fazla data harcayıp daha küçük model üretmek, üretim sırasında her sorguda kazanılan saniyelerle geri ödüyor. "Over-train" diye anılan bu strateji bugün 8B-30B sınıfında varsayılan.

Phi-4 14B + 10T token ≈ 715 token / parametre — bu sayı 2022'de "delilik" sayılırdı; 2026'da "kalite > ölçek"in matematiksel ifadesi.

Sentetik veri çağı — ve "Model Collapse"

Sentetik veriyi savunmak kolay (Phi-4 kadar konuşur). Karşıt argüman da güçlü: Shumailov et al. 2023 ve Nature 2024 paper'ı Model Collapse olgusunu kanıtladı. "use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear."

Yani: dağılımın "kuyrukları" (nadir, sürpriz pattern'ler) kayboluyor. Photocopy of a photocopy. Outputs become more generic. Edges get sanded down.

Communications of the ACM, Mart 2026'da bir blog yazısı yayınladı: "Model Collapse Is Already Happening, We Just Pretend It Isn't." Web içeriğinin %50'sinden fazlasının AI üretimi olduğu tahmin ediliyor. Anthropic crawler'ı için crawl-to-refer oranı 38,000:1 — yani 38 bin sayfa indirilip bir tane referans veriliyor. Sonuç: sentetik dolaşımı veriyi yiyor.

Önemli ayrım: replace (sentetiği gerçeğin yerine koy → çöküş kaçınılmaz) vs accumulate (sentetiği gerçeğe ekle → çöküş kaçınılabilir). Phi-4 başarısı accumulate stratejisinde; pure-replace cyclical training'de model çöker.

Bu konuda Karpathy'nin gözlemi şu: "Regarding model collapse when training a model on its own output, I felt that was pretty intuitive: you cannot create information from nothing. A model will never be perfect, so every training run loses information."

Sektör 2026'da iki gerçeği birlikte tutmaya çalışıyor: sentetik veri büyümeyi sürdürüyor, ama gerçek insan verisinin değeri sürekli artıyor. "Towards AI" Mart 2026 yazısında: "There is a conversation happening in every serious AI lab right now, and it is not about model architecture or compute budgets. It is about data."

2. Loss, Optimizer ve Sayısal Hassasiyet — Motorun İçi

Veri var, model mimarisi (transformer) var. Eğitim cümlesi şu: "modeli, eğitim verisi üzerinde cross-entropy loss'u minimize edecek şekilde gradient descent ile güncelle." Üç kelimelik motor.

Cross-entropy & perplexity

Her token'da modelin tahmini bir olasılık dağılımı (vocab boyutu kadar). Doğru token için modelin verdiği olasılık p. Cross-entropy loss = -log(p). Bütün dataset üzerinde ortalama.

Perplexity = exp(loss). Pratik tercüme: modelin "kafası bir token'ı tahmin ederken kaç eşit-olasılıkçı seçenek arasında karar veriyor gibi"? Loss 2.5 → perplexity ~12. Yani model her token'da sanki 12 seçenek arasında atış yapıyor. Loss 1.5 → perplexity ~4.5. Daha az şaşkınlık, daha iyi model.

AdamW: SGD'nin moderni

LLM eğitiminin %99'unda kullanılan optimizer: AdamW. Momentum (geçmiş gradient'ları hatırla) + adaptive LR (her parametre için ayrı ölçek) + decoupled weight decay (L2 regularization'ı gradient'tan ayır).

Pratik default'lar (InstructGPT paper'ından, SFT için): β1=0.9, β2=0.95, weight_decay=0.1, LR ~ 1e-5. Pretraining için LR daha yüksek (3e-4 - 6e-4 civarı, batch'a göre); Phi-4 raporu peak LR=0.0003, weight decay=0.1.

Learning rate schedule — cosine vs WSD

Önceki standart cosine decay: warmup (LR'yi sıfırdan zirvelere çıkar) sonra cosine eğrisiyle minimuma in. Sorun: cycle'ı önceden sabitlemen gerek, ortada durup "şimdi daha çok train edeyim" diyemiyorsun.

WSD (Warmup-Stable-Decay), Mart 2024'te MiniCPM paper'ıyla popülerleşti. Üç faz: warmup → uzun, sabit yüksek LR → final decay. Stable phase'in uzunluğunu istediğin kadar uzatabiliyorsun, sonra "tamam yeter" deyip son decay'ı başlatıyorsun. Continuous training için ideal. MiniCPM "data-model scaling law'u extensive retraining olmadan çıkardık" diye iddia ediyor — WSD bu işin temeli.

Mixed precision — FP32'den FP8'e yolculuk

Eğitim sayıları gerçekten ne hassasiyette tutuluyor?

FP32 (32 bit): klasik. Her ağırlık 4 byte. 7B model → 28 GB sadece ağırlık.
BF16 (16 bit, "brain float"): forward + backward'da kullanılır, master copy FP32'de. Tipik mixed precision recipe'i. Bellek yarıya iner, kalite neredeyse değişmez. Bugün varsayılan.
FP8: Hopper (H100) ve Blackwell GPU'larda donanım desteği var. NVIDIA Transformer Engine "E4M3 forward + E5M2 backward" hibridini standartlaştırdı.

Aynı ağırlıkları daha az bit ile saklamak — quantization noise'un büyümesi

FP8 artık egzotik değil. Microsoft'un FP8-LM paper'ı (Aralık 2023): "during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 39% reduction in real memory usage but also ran 75% faster than the widely adopted BF16 framework." DeepSeek-V3 (Aralık 2024) ise tamamı FP8 ile eğitilen ilk büyük açık modeldi — 671B parametreyi 2.788M H800 GPU saatinde, hiç irreversible loss spike olmadan. Paper'ın kendi vurgusu: "we did not experience any irrecoverable loss spikes or perform any rollbacks."

Blackwell GPU'larda MXFP8 (microscaling FP8) ve NVFP4 (4-bit) eğitim desteği geldi. 2026'da büyük açık model eğitimi pratiğinde FP8 + BF16 master + FSDP stack'i artık fiilen standart.

Loss spike'lar — gerçekte ne oluyor

İdealdeki loss eğrisi düzgün iner. Gerçekte:

Loss eğrisi — küçük modelde düz, büyük modelde tetik tetik

Sol panelde yukarıda gerçek bir nanoGPT koşusunun loss'u. 10M parametre, TinyShakespeare, ~1500 step. Warmup → cosine decay. Spike yok. Çünkü 10M parametre.

Sağ panel şematik. PaLM (540B, Google) eğitim sırasında "12 ila 20 arası" spike yaşadı (paper raporu). BLOOM (176B, BigScience) 25+. GLM-130B (Tsinghua) 3 emergency rollback yapmak zorunda kaldı. Sebep çeşitli: çok yüksek LR, kötü batch (toxik veri bombası), sayısal taşma, "death by NaN."

Pratik müdahale: önceki checkpoint'e geri dön, problematik batch'i atla, LR'yi düşür, devam et. DeepSeek-V3'ün "no rollbacks" iddiası bu sektörel deneyime kıyasla ciddi bir mühendislik başarısı.

Llama 3 paper'ı 405B'nin 54 günlük eğitim koşusunda "unexpected interruption'ların %78'i hardware kaynaklı" diyor. Yani bilgisayar yandı, GPU çöktü, network koptu — loss spike'lardan önce gelen problem. Tablo 5'te detay var: 419 unexpected interruption, 148'i GPU + HBM3 hatası.

Distributed training — DP, TP, PP, FSDP

Tek GPU'da 7B model BF16 olarak 14 GB ağırlık + ek bellek = 20 GB+ → yüksek-end consumer GPU'ya zar zor sığar. 70B'yi tek GPU'da eğitemezsin. Dağıtmak şart.

4 GPU üstünde dağıtık eğitim — DP / TP / PP / FSDP

DP (Data Parallel): Her GPU modelin tam kopyasını tutar. Veri parçalanır, gradient all-reduce ile birleşir. Basit ama 4× redundant bellek.
TP (Tensor Parallel): Her layer'ın matrisi sütun veya satır olarak GPU'lar arası bölünür. Megatron-LM klasik implementasyon.
PP (Pipeline Parallel): Model katmanlara dilimlenir, GPU 0 katman 1-20'yi, GPU 1 katman 21-40'ı tutar. Forward/backward stage-by-stage. Pipeline bubble sorunu ile yaşa.
FSDP / ZeRO-3: Microsoft'un ZeRO paper'ının (Rajbhandari 2020) PyTorch'a native gelmiş hali. Parametre + gradient + optimizer state'i GPU'lara böl, ihtiyacın olduğu anda all-gather, kullan, at.

ZeRO'nun pazarlığı çok güzel: 7.5B parametre, 64-DP üzerinde standart DP 120 GB ister; ZeRO Stage 3 1.88 GB. 64× azalma. Communication overhead'i sadece 1.5× baseline DP. Bu yüzden Llama 3 paper'ı 16K H100'de 4D paralelizm kullanıyor (TP × CP × PP × DP). MFU (Model FLOPs Utilization) %38-43.

Bütün bunlar olmadan bir 405B modelin ağırlık ve optimizer state'i tek bir GPU'ya sığmaz. ZeRO-3 / FSDP modern büyük model eğitiminin nefes borusu.

Pratik kural: 7-13B'ye kadar tek node FSDP yeter. 30-70B için TP + FSDP melez. 100B+ için TP + PP + FSDP üçü birlikte.

3. Pretraining → SFT: "Asistan" Olmak

Pretrained base model elinde var. Onu prompt'la besle, ne yapar? Karpathy'nin nanoGPT cousin'i build-nanogpt'nin README'sinde yazdığı gibi: "GPT-2 ve GPT-3 sadece internet dokümanlarını rüya görür." Yani devamına yazmaya çalışır. "Soru sor — cevap ver" formatı yok kafasında.

SFT (Supervised Fine-Tuning) base modeli asistan davranışına çekiyor. Daha az veri, daha kısa süre, ama büyük etki.

Veri formatı

Codex

<|user|>
Türkçe'de eklemeli dil ne demek?
<|assistant|>
Eklemeli (agglutinative) bir dilde kelimeler, kök bir morfeme arka arkaya
eklenen eklerle yapı kazanır. Türkçe, Fince, Macarca eklemelidir...

Bu formatlı 100K-1M örnek topla, base model üzerinde mini bir cross-entropy fine-tune koştur. Tek püf nokta: loss'u sadece response token'ları üzerinde hesapla. Prompt token'larından gradient akışına izin verme — modelin kullanıcının yazdığını "öğrenmesi" gerek yok, sadece nasıl cevap verileceğini öğrensin.

HuggingFace TRL'nin SFTTrainer'ında bu assistant_only_loss=True ile bir kelimelik bir ayar. Mart 2026'da TRL v1 yayınlandı, lansman blog'u şu başlığı seçmişti: "Post-Training Library That Holds When the Field Invalidates Its Own Assumptions." 2024'te kanun bilinen şeyler 2025'te yanlışlandı, kütüphane buna ayak uydurdu.

SFT veri kaynakları — ve neden çoğu sentetik

InstructGPT (2022) yaklaşık 40 insan etiketleyici ile SFT dataset'i yarattı. Bu emek-yoğun yaklaşım 2026'da nadir. Şimdi sıralama:

Alpaca, Dolly, OpenAssistant — 2023 jenerasyon, ~50K-100K örnek, ağırlıklı insan.
UltraChat, ShareGPT, OpenHermes — büyük ölçek, kullanıcı log'lardan damıtılmış.
Magpie — base model'a kendi instruction'ını ürettir, sonra cevabını üret. Veri zincirinin başında insan emek yok.
Self-Instruct → Evol-Instruct — GPT-4'e "bu prompt'u daha zorlaştır, daha derin sor" diye iteratif evrim ettir.

Phi-4 raporu burada da provokatif: "50 farklı sentetik dataset tipi, 400 milyar token sentetik." Synthetic-first SFT'nin bayrak taşıyıcısı. Sonuç çalışıyor, ama Microsoft kendi raporunda da uyarıyor: synthetic-only modeller knowledge-heavy benchmark'larda düşüyor. Karışım şart.

LoRA ve QLoRA — fine-tune'u herkes için aç

Tam SFT için 70B modelin tam ağırlıklarını güncellemek? 280 GB ağırlık + 280 GB gradient + 560 GB Adam state = terabyte-class GPU clusters. Hobby değil.

Microsoft'un 2021 paper'ı LoRA (Low-Rank Adaptation) bu dengeyi kırdı: ana modeli dondurursun, her transformer matrisine küçük bir "rank decomposition" eklersin (W + ΔW = W + B·A şeklinde, B ve A çok daha küçük). Sadece B ve A'yı eğitiyorsun.

Paper'ın somut iddiası: "Compared to GPT-3 175B fine-tuned with Adam, LoRA can reduce the number of trainable parameters by 10,000 times and the GPU memory requirement by 3 times. LoRA performs on-par or better than fine-tuning in model quality." Tam fine-tune'a eşit kalite ile on bin kat az parametre. Tipik rank r=8 veya r=16. Adapter'lardan farkı: inference sırasında matrisleri merge edebiliyorsun, ekstra latency yok.

QLoRA (Dettmers 2023) bunu bir adım ileri taşıdı. Base modeli 4-bit'e quantize et (NF4 formatı), sonra LoRA adapter'ı 16-bit'te eğit. Üç inovasyon:

NF4 (4-bit NormalFloat) — normal-dağılım'da optimal 16 seviye
Double quantization — quantization sabitlerini de quantize et
Paged optimizers — bellek spike'larını NVIDIA unified memory ile yönet

Sonuç: 65B parameter model'i tek 48GB GPU'da 24 saatte fine-tune ediyor. Guanaco modeli Vicuna benchmark'ta ChatGPT'nin %99.3 performansı.

Bu sayılar 2023'te uçuk geliyordu, 2026'da herkes pratikte kullanıyor. Hobbyist'ler için fine-tune'un eşiği bir RTX 4090. Karpathy "GPT-2 (124M) artık 1 saat ve $10'a reproduce ediliyor" diyor build-nanogpt repo'sunda. Hobbi LLM'cilik bir araştırma alanı haline geldi.

Catastrophic forgetting

SFT'nin bir bedeli var: model SFT verisindeki dağılıma "yapışırsa" pretraining'deki genel yeteneklerini kaybeder. Buna catastrophic forgetting denir. Çareler:

Replay: SFT verisine küçük bir pretraining batch karışımı ekle.
KL constraint: yeni modelin dağılımı base'den çok uzaklaşmasın.
Mix carefully: instruction-following + chat + coding + math'ı dengeli karıştır.

Llama 3 paper'ı bu dengenin nasıl tutulduğunu anlatıyor — onlar SFT + DPO döngüsünü çoklu turlarla yapıyor, her turda "rejection sampling"le veriyi kalite-filtreliyor. 6 tur SFT + DPO. Her tur model genel yetenekleri biraz kaybediyor ama instruction-following kazanıyor; toplamda artıda kalmak için karışımın iyi olması şart.

4. Preference Tuning — RLHF, DPO ve Sonrası

SFT modeli güzel cevap veriyor. Ama bazen yalan söylüyor, bazen güvensiz cevap veriyor, bazen "ben bir AI modeliyim, bu konuda konuşamam" deyip kaçıyor. Bu davranışları insanın tercih ettiği yöne çekmek gerekiyor.

RLHF — InstructGPT'nin yolu

Klasik RLHF (Reinforcement Learning from Human Feedback) tarifi, InstructGPT (Ouyang 2022) paper'ında 3 aşamada:

SFT (zaten yaptık).
Reward Model: insanlara modelin 4-9 farklı cevabını göster, sırala. Bu sıralamalardan bir reward model eğit. InstructGPT'de RM 6B parametre seçildi — 175B RM "unstable" olduğu için. Verbatim: "we found that 175B RM training could be unstable and thus was less suitable to be used as the value function during RL."
PPO: Reward model skoru üzerinden policy'i (SFT modeli) PPO ile optimize et. KL penalty (π_RL ≠ π_SFT'den çok uzaklaşma) + bazen pretraining gradient karışımı (PPO-ptx variant).

Sonuçlar etkileyici. InstructGPT, "outputs from our 1.3B PPO-ptx model are preferred to those from the 175B GPT-3." Yani RLHF, 100× boyut farkına ağır basıyor. Toksisite: respectful prompt verildiğinde 175B InstructGPT, GPT-3'ten %25 daha az toksik çıktı.

Ama RLHF pahalı, kararsız ve karmaşık:

4 model eğitilir/saklanır: SFT, RM, policy, value function
PPO döngüsü sample-inefficient
KL hyperparam'ı çekip duruyorsun
Reward hacking riski: model RM'yi kandırmayı öğreniyor

DPO — RM lazım değilmiş

2023'te Rafailov et al. provokatif bir gözlem yaptı: RLHF'in tam optimizasyon problemi, kapalı formda yazılabilir. RM eğitmen, PPO koşturman gerekmiyor. Tek bir classification loss yeterli.

Türetme matematiksel ama sezgisi şu: RLHF'in KL-constrained reward maximization probleminin optimal policy'si kapalı formdadır (Eq. 4):

Codex

π*(y|x) ∝ π_ref(y|x) · exp((1/β) r(x,y))

Bunu Bradley-Terry tercih modeline (insan A'yı B'ye tercih etti) yerleştirince partition function Z(x) sadeleşir. Geriye kalan:

Codex

L_DPO = -log σ(β · log[π_θ(y_w)/π_ref(y_w)] - β · log[π_θ(y_l)/π_ref(y_l)])

Tek hyperparameter: β. Reference policy: donmuş SFT modelin. İhtiyaç duyulan: (prompt, chosen, rejected) üçlülerinden oluşan bir tercih dataset'i.

Bir örnek nasıl görünür? UltraFeedback'ten:

Bir tercih datasetinde tek bir örnek — UltraFeedback'in Kahire prompt'u

OpenBMB'nin UltraFeedback dataset'i 64K prompt × 4 cevap = 256K cevap üzerinden 380K tercih çifti. Her cevap GPT-4 ile instruction-following, truthfulness, honesty, helpfulness boyutlarında 1-5 arası annot edilmiş. RLHF/DPO literatürünün de facto referans datasetı.

DPO paper'ının ana iddiası: "DPO is at least as effective as existing methods, including PPO-based RLHF, for learning from preferences in tasks such as sentiment modulation, summarization, and dialogue, using language models with up to 6B parameters." Verbatim. Üstüne: ~10× daha az kompute, çok daha basit kod.

DPO bütün açık-kaynak ekosistemini silip süpürdü. Llama 3, Phi-4, Qwen, Mistral — hepsinin post-training'inde DPO veya türevi var. HuggingFace TRL'in DPOTrainer'ında bugün 12+ loss variant'ı: sigmoid (klasik DPO), hinge, ipo (KL'siz), apo, nca, bco, sppo, simpo. Hangisi en iyi? 2026 hâlâ "deneyle bul" çağında.

Önemli yan not: DPO bitti anlamına gelmez. 2024'te bir paper'ın başlığı "Is DPO Superior to PPO?" idi ve tablosunda PPO bütün deneylerde DPO'yu geçmişti. DataVLab'ın Mayıs 2026 yazısı durumu özetliyor:

"RLHF is not dead. DPO is not a complete replacement. The best 2026 alignment pipelines use both, deciding by use case rather than by ideology."

Frontier modeller (Claude, GPT-5 ailesi) iç pipeline'larında PPO'yu hâlâ kullanıyor — özellikle online/iterative training için. Open-weight modeller maliyet ve basitlik için ağırlıklı DPO'da. Frontier ve açık ekosistem ayrı yollardan gidiyor.

Constitutional AI — etiketçi orduyu çıkar

Anthropic'in 2022 paper'ı RLAIF (RL from AI Feedback) önerdi: insanın yerine bir başka LM tercih etiketi üretsin, bir kurallar listesi ("anayasa") ile yönlendirilsin. Pipeline:

SL-CAI: helpful-only model harmful prompt'a cevap verir → kendi cevabını anayasaya göre kritik eder → revize eder → bu revize edilmişler üzerinde SFT.
RL-CAI: SL-CAI iki cevap üretir, başka bir LM anayasaya bakıp seçer, bu AI-generated tercihten PM eğit, RLHF gibi PPO.

Anayasa örnekleri:

"Identify specific ways in which the assistant's last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content."

Anthropic 16 ayrı principle yazdı, her tercih için rastgele bir tanesini seçti. Verbatim: "we wrote a set of 16 different principles, and randomly sampled a principle for each comparison label." Tek bir principle ile ısrar yerine ensemble. Claude'un karakter dengesi bu pipeline'dan geliyor.

Pratik fayda: harmful prompt'a "I can't help with that" deyip kaçmıyor — neden reddettiğini açıklayan non-evasive cevap veriyor. Bu evasiveness problemini çözüyor.

5. Reasoning RL — R1 Devrimi

2025 Ocak'ında DeepSeek-AI bir paper yayınladı: R1-Zero ve R1. Açık ağırlıklı, MIT lisanslı. Batı bir gece şok yaşadı.

R1-Zero'nun teknik özünde GRPO (Group Relative Policy Optimization) yatıyor. PPO'dan kritik fark: critic ağı yok. PPO'da policy ile aynı boyutta bir value network eğitirsin (bellek + flop iki katı). GRPO'da bunu grup ortalamasıyla değiştiriyor.

Mantık: aynı soru q için old policy'den G farklı cevap örnekle (G=64 tipik). Her birinin reward'ı r_i. Bir cevabın advantage'ı: kendi reward'ı eksi grup ortalaması, grup standart sapmasıyla normalize:

Codex

A_i = (r_i - mean(r_1..r_G)) / std(r_1..r_G)

Critic yok, value tahmini yok. Surrogate loss neredeyse PPO ile aynı (clipped), tek değişen advantage hesabı. Cameron R. Wolfe substack'inde özetliyor: "The fact that GRPO does not use a critic not only saves on compute costs relative to PPO, but it drastically reduces memory consumption — we are now training a single model instead of two models."

Verifiable rewards — RM bile lazım değil

GRPO'nun büyüsü reward sinyali. R1-Zero kural tabanlı reward kullanıyor, neural RM yok:

Accuracy reward: Matematik cevabı \boxed{} içinde doğru mu? LeetCode kodu test'i geçiyor mu?
Format reward: Cevap <think>...</think><answer>...</answer> formatında mı?

Bu kadar. Reward hacking riski yok çünkü RM yok. DeepSeek paper'ı net söylüyor: "We do not apply the outcome or process neural reward model in developing DeepSeek-R1-Zero, because we find that the neural reward model may suffer from reward hacking in the large-scale reinforcement learning process."

Sonuç: AIME 2024 matematik benchmark'ı, pass@1 71.0%, majority voting (cons@16) 86.7%. OpenAI o1-0912'yi geçiyor. Pure RL ile, SFT olmadan.

"Aha moment"

R1-Zero eğitimi sırasında bir şey daha çıktı: model, eğitimin ortasında bir adım geri gidip yeniden düşünme davranışını kendi keşfetti. Paper Table 3'te bir intermediate koşunun ham çıktısı var:

"Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step to identify if the correct sum can be..."

Yazarlar bunu bir kutuya koymuş. Yorum: "This moment is not only an 'aha moment' for the model but also for the researchers observing its behavior. It underscores the power and beauty of reinforcement learning: rather than explicitly teaching the model on how to solve a problem, we simply provide it with the right incentives, and it autonomously develops advanced problem-solving strategies."

Model "kendine reevaluate et" diye söylemeyi öğrendi. Buna chain-of-thought emergence denir ve RL'ın klasik supervised learning'le bir farkı. Karpathy bu süreçte RL'ı eleştirmiyor değil:

"You've done all this work that could be a minute of rollout, and you're sucking the bits of supervision of the final reward signal through a straw and you're broadcasting that across the entire trajectory and using that to upweight or downweight that trajectory. It's just stupid and crazy."

"Reinforcement learning is terrible. It just so happens that everything that we had before it is much worse."

"Sucking supervision through a straw" — bu cümle artık RL'ın canonical critiği. Doğru bile. Ama açık bir alternatif yok.

Sınırlar — RLVR'ın çalışmadığı yerler

GRPO + verifiable rewards (RLVR) reasoning'de patladı çünkü reward sinyali kesin: matematik cevabı, kod test'i, mantık puzzle'ı. Cameron R. Wolfe'un Şubat 2026 yazısı:

"While lots of efforts have been paid on RLVR, many high-value applications of LLMs, such as long-form question answering, general helpfulness, operate in inherently subjective domains where correctness cannot be sufficiently captured by binary signals."

Yani "iyi şiir yaz" için binary reward yok. Bunun için rubric-based rewards çalışması başladı: prompt-specific checklist, LLM judge ile sub-goal değerlendirmesi. Constitutional AI'ın akrabası, daha mühendislik-yoğun.

2026'da o1, R1, Gemini Deep Think, Claude extended thinking, GPT-5 Thinking — hepsinin altında benzer formül var. Detaylar kapalı kaynak; açık paper'larda DeepSeek lider.

6. Ne Kadar Tutuyor? — `$6 Milyon` Efsanesi

DeepSeek-V3 (Aralık 2024) paper'ı "2.788M H800 GPU saat" diyor. Saat başına ~$2 USD varsayımıyla ~$5.6M çıkıyor. Bu sayı tüm sektörde dolaştı: "DeepSeek $6M'a frontier model eğitti, $100M+ OpenAI maliyetleri ne?"

Bu yanlış anlatım. SemiAnalysis (Dylan Patel) 30 Ocak 2025'te düzeltti:

"The $6M cost in the paper is attributed to just the GPU cost of the pre-training run, which is only a portion of the total cost of the model... This akin to pointing to a specific part of a bill of materials for a product and attributing it as the entire cost."

DeepSeek'in toplam donanım yatırımı $500M+. 50,000 Hopper GPU envanteri. Pre-training run sadece final koşu — R&D, ablation, sentetik veri üretimi, post-training dahil değil. "Çayhane operasyonu" değil.

Ama asıl ders şu: algoritmik ilerleme + donanım sayesinde maliyet eğrisi düşüyor. 2019'da GPT-2 (124M) eğitmek günler sürerdi; 2026'da Karpathy "~1 saat, ~$10" diyor. Bu eğri model boyutuyla beraber kayıyor. 7B sınıfı model bugün ~$50K civarında pretraining (henüz expert-level değil ama olabilir-tarzı bir yerde).

Nathan Lambert'in Nisan 2026 "My bets on open models" yazısı bunun yapısal sonucunu söylüyor:

"Training strong AI models (i.e. near but not at the frontier) is a relatively small cost compared to large-scale deployments. E.g. if the U.S. bans open models over a certain compute threshold, another sovereign entity will eventually train them and release them publicly."

Eğitim yasaklanamayacak kadar ucuzladı. Birinin yapması yeterli, dünya görür.

7. Yaygın Yanlış Anlamalar

Hızlı liste

"Daha çok parametre = daha iyi model." Chinchilla bunu 2022'de yıktı (her parametre için ~20 token), Phi-4 2024'te (kalite > ölçek) bir daha kazıdı. 14B Phi-4, MMLU'da 70B-sınıfı model performansı veriyor.

"RLHF / DPO modeli zekileştirir." Hayır. Asisten kişiliğini biçimlendirir. Zeka pretraining'de var ya da yok.

"Halüsinasyon RLHF / preference tuning ile yamalanır." OpenAI'ın kendi Eylül 2025 paper'ı ("Why Language Models Hallucinate") tersini söylüyor: "language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty." Mimari değil, teşvik mimarisi problemi.

"Open weight = açık eğitim." Genelde değil. Ağırlık açık, veri ve kod kapalı. Tam reproducible eğitim 2026'da hâlâ nadir.

"GRPO PPO'yu tamamen ikame eder." Frontier lab'ler PPO'yu hâlâ kullanıyor — özellikle online RLHF için. GRPO açık-kaynak reasoning'de standart.

"DeepSeek-V3 $6M'a eğitildi." Pre-training final run'ı, evet. Bütün maliyet, hayır — donanım yatırımı $500M+.

8. Sırada Ne? — Üç Farklı Profile Yol Haritası

1. "Anlamak istiyorum" — Karpathy'nin Let's reproduce GPT-2 videosu (4 saat, YouTube) hâlâ altın standart. Sebastian Raschka'nın Manning kitabı Build a Large Language Model (From Scratch) (2024) en derli toplu yazılı kaynak. nanoGPT repo'sundaki train_shakespeare_char.py'i CPU'da çalıştır — laptop'unda 3 dakikada minik bir transformer eğit.

2. "Kendim deneyeceğim" — Karpathy'nin nanochat (nanoGPT'nin yeni nesli) repo'su artık standart. Hobbyist için: küçük Türkçe pretrain (~100M-1B), HuggingFace TRL ile LoRA SFT + DPO. Eğitim için bir RTX 4090 yeterli, daha büyüğü için RunPod / Lambda saatlik kiralık.

3. "İleri seviye" — HuggingFace TRL kütüphanesi (SFTTrainer, DPOTrainer, GRPOTrainer, hepsi v1.4 API), PyTorch FSDP tutorial'ları, DeepSpeed ZeRO-3 config'leri, vLLM ile inference serving. DeepSeek-V3 ve Llama 3 paper'ları okumayı bekliyor — birer hafta sonu projesi.

Kapanış

Açılıştaki cümleye geri dönelim. Yüksek sesle bir daha oku, bu sefer her kelimede dur: "Trained on 15.6T tokens with FSDP on 16K H100, then SFT on UltraChat, then DPO on UltraFeedback, then GRPO with verifiable rewards."

15.6T tokens — FineWeb stili bir pipeline'ın binlerce mühendis-saati. MinHash, fastText, KenLM. Verinin %80'i temizlik.
FSDP on 16K H100 — ZeRO-3'ün PyTorch native uygulaması, 4D paralelizm, MFU %38-43. 54 günde 419 hardware interrupt'a rağmen ayakta tutulmuş bir cluster.
SFT on UltraChat — büyük çoğunluğu sentetik bir veriyle base modelin asistana dönmesi. Loss yalnız response token'larında.
DPO on UltraFeedback — bir reward model + PPO döngüsünün tek classification loss'una indirgenmiş hâli. Eq. 7, β, donmuş reference policy.
GRPO with verifiable rewards — critic ağı olmayan, grup-relatif advantage'lı, matematik ve kod test'leriyle ödüllendirilen pure-RL. R1-Zero'nun "aha anı" buradan çıkıyor.

Tek cümle, beş ayrı dünya. Her birinin altında bir paper, her paper'ın altında 50-100 mühendisin bir yıllık emeği var. Bütün bir yığın, model kartının ilk satırında bir nefese sığmış sana sunuluyor.

Üç yazılık dizi tamam. Birinci yazıda kavramları çevirdik, ikincide mimariyi söktük, üçüncüde inşaatı gezdik. Karpathy'nin söylediği gibi: "you cannot create information from nothing." Eğitim sürecindeki her şey — verinin nereden geldiği, hangi optimizer'la nasıl harmanlandığı, hangi geri bildirimle eğildiği — modele giren bilgi.

Ödevin var: bir açık model kartı (Llama 3.1 405B, DeepSeek-V3 ya da Qwen 3) seç. Paper'ını aç. Bu yazıdaki dört evrenin her birini kâğıda yaz: bu model şu adımı kim, ne kadar veriyle, hangi loss'la yaptı? Boş kalan yer var mı? Niye? "Open weight" ne kadar "open"?

Sonra git, kendi nanoGPT'ni eğit. Loss spike gör. Warmup'ı düzelt. Bir paragraf yaz. Bir sonraki sefer başkasının model kartını değil, kendi notlarını oku.

Bu yazıyı yazarken bir agent takımı kullandım: bir Firecrawl avcısı 20+ paper ve sektör yazısını tarayıp _research_notes.md dosyasına yatırdı, bir Python ressamı sekiz görseli üretti, bir nanoGPT eğitimi bir gerçek loss eğrisi sağladı, ve bir ses denetçisi önceki iki yazıyı yan masada açık tutup tonu kalibre etti. Hâlâ insan elinden çıkmış bir yazı — ama hâlâ "bir kişi" tarafından yazılmış da değil. 2026'da yazı işi bu.

Bu üçleme şimdilik tamam. Bir sonraki yazıda satır satır kendi mini-LLM'imizi inşa edelim — pretraining'den DPO'ya, kod ve yorumlarla.

Kaynakça

Birincil paper'lar

Ouyang et al. 2022, Training language models to follow instructions with human feedback (InstructGPT) — arxiv.org/abs/2203.02155
Rafailov et al. 2023, Direct Preference Optimization — arxiv.org/abs/2305.18290
DeepSeek-AI 2025, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — arxiv.org/abs/2501.12948
DeepSeek-AI 2024, DeepSeek-V3 Technical Report — arxiv.org/abs/2412.19437
Bai et al. 2022 (Anthropic), Constitutional AI: Harmlessness from AI Feedback — arxiv.org/abs/2212.08073
Grattafiori et al. 2024 (Meta), The Llama 3 Herd of Models — arxiv.org/abs/2407.21783
Hoffmann et al. 2022 (DeepMind), Training Compute-Optimal Large Language Models (Chinchilla) — arxiv.org/abs/2203.15556
Penedo et al. 2024 (HuggingFace), The FineWeb Datasets — arxiv.org/abs/2406.17557
Abdin et al. 2024 (Microsoft), Phi-4 Technical Report — arxiv.org/abs/2412.08905
Kalai, Nachum, Vempala, Zhang 2025 (OpenAI), Why Language Models Hallucinate — arxiv.org/abs/2509.04664
Rajbhandari et al. 2020 (Microsoft DeepSpeed), ZeRO: Memory Optimizations Toward Training Trillion Parameter Models — arxiv.org/abs/1910.02054
Hu et al. 2021 (Microsoft), LoRA: Low-Rank Adaptation of Large Language Models — arxiv.org/abs/2106.09685
Dettmers et al. 2023, QLoRA: Efficient Finetuning of Quantized LLMs — arxiv.org/abs/2305.14314
Hu et al. 2024, MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (WSD) — arxiv.org/abs/2404.06395
Shumailov et al. 2023 / Nature 2024, The Curse of Recursion: Training on Generated Data Makes Models Forget — arxiv.org/abs/2305.17493

Sektör analizleri (2025-2026)

Nathan Lambert (Interconnects), My bets on open models, mid-2026 — Nisan 2026
Cameron R. Wolfe (Deep Learning Focus), Group Relative Policy Optimization
SemiAnalysis (Dylan Patel), DeepSeek Debates: Chinese Leadership On Cost, True Training Cost — Ocak 2025
Communications of the ACM, Model Collapse Is Already Happening, We Just Pretend It Isn't — Mart 2026
Andrej Karpathy, Dwarkesh Podcast 2025 (RL & model collapse yorumları)

Pratik araçlar

HuggingFace TRL v1 — github.com/huggingface/trl
Karpathy nanoGPT / nanochat — github.com/karpathy/nanoGPT / karpathy/nanochat
Karpathy Let's reproduce GPT-2 (124M) — youtube.com/watch?v=l8pRSuU81PU
Sebastian Raschka, Build a Large Language Model (From Scratch) — Manning 2024
UltraFeedback dataset — huggingface.co/datasets/openbmb/UltraFeedback
NVIDIA Transformer Engine (FP8) — docs.nvidia.com/deeplearning/transformer-engine

Finis

1. Pretraining — Veri Cehennemi

Bütün uygulamalı yapay zeka tarihinde, en az glamour'a sahip iş bu evrede. İşin %80'i veri temizliği, %15'i mühendislik, %5'i araştırma. Ve maliyetin de %80'i burada.

Veriyi nereden topluyorsun

Modern bir LLM'in pretraining karışımı kabaca üç gruba ayrılır:

Web: Common Crawl. Aylık ~3 milyar URL'lik snapshot'lar; ham boyut petabyte. Bu kadarını veriye dönüştürmek başlı başına bir endüstri.
Yapılandırılmış kaynaklar: GitHub (kod), ArXiv (bilim), Stack Exchange (soru-cevap), Wikipedia, kitaplar, lisanslı içerik.
Sentetik veri: Yeni standardın yarıdan çoğu. Phi-4 raporu açık söylüyor: 50 farklı sentetik dataset tipi, ~400 milyar token sentetik (toplam ~10T token'in büyük kısmı sentetik + rewritten web).

Filtreleme pipeline'ı

FineWeb'in akışını yan yana yazdığında neyi temizlediğin ortaya çıkıyor:

Text extraction: trafilatura ile WARC dosyalarından. WET verisi (Common Crawl'ın hazır text dump'ı) daha kötü.
Base filtering: URL blocklist, dil tespiti (fastText, İngilizce > 0.65), Gopher kalite filtreleri, tekrar filtreleri. Bu adımdan sonra ~36T token kalıyor.
Deduplication: MinHash, 5-gram, 112 hash function, 14 bucket × 8 hash/bucket, ~%75 benzerlik eşiği. Aynı bucket'ta 8 MinHash'i çakışan dokümanlar duplicate sayılıyor.
Per-snapshot dedup — snapshot-arası global dedup yapılmıyor. Çünkü global dedup eski snapshot'larda kalan veriyi düşük kaliteye sürüklüyor. Penedo et al. bunu somut bir ablasyonla göstermiş: "this older crawl taken in isolation, the data from it that was kept (10% of the original data) was actually of worse quality than the 90% of data that was removed."
Heuristic filters (50+ aday'dan 3 tanesi seçilmiş): terminal punctuation oranı, tekrar eden satır oranı, kısa satır oranı.

Veri karışımı

Aynı 10-15 trilyon token üzerinde eğitilse bile, karışım modelin karakterini belirler. Üç farklı strateji:

Llama 3.1 405B (Meta paper, §3.1.3): %50 genel bilgi, %25 matematik + reasoning, %17 kod, %8 çok dilli. 15.6T token.
DeepSeek-V3: 14.8T token, ağırlık benzer ama kod payı %22'ye çıkmış — DeepSeek'in coding karakteri buradan.
Phi-4: 14B dense, ~10T token, ama bunun %40'tan fazlası sentetik. "Quality over scale" tezi paper'ın açılış cümlesi.

Chinchilla — token bütçesi de parametreye sığar mı?

Phi-4 14B + 10T token ≈ 715 token / parametre — bu sayı 2022'de "delilik" sayılırdı; 2026'da "kalite > ölçek"in matematiksel ifadesi.

Sentetik veri çağı — ve "Model Collapse"

Yani: dağılımın "kuyrukları" (nadir, sürpriz pattern'ler) kayboluyor. Photocopy of a photocopy. Outputs become more generic. Edges get sanded down.

Bu konuda Karpathy'nin gözlemi şu: "Regarding model collapse when training a model on its own output, I felt that was pretty intuitive: you cannot create information from nothing. A model will never be perfect, so every training run loses information."

2. Loss, Optimizer ve Sayısal Hassasiyet — Motorun İçi

Cross-entropy & perplexity

Her token'da modelin tahmini bir olasılık dağılımı (vocab boyutu kadar). Doğru token için modelin verdiği olasılık p. Cross-entropy loss = -log(p). Bütün dataset üzerinde ortalama.

AdamW: SGD'nin moderni

Learning rate schedule — cosine vs WSD

Mixed precision — FP32'den FP8'e yolculuk

Eğitim sayıları gerçekten ne hassasiyette tutuluyor?

FP32 (32 bit): klasik. Her ağırlık 4 byte. 7B model → 28 GB sadece ağırlık.
BF16 (16 bit, "brain float"): forward + backward'da kullanılır, master copy FP32'de. Tipik mixed precision recipe'i. Bellek yarıya iner, kalite neredeyse değişmez. Bugün varsayılan.
FP8: Hopper (H100) ve Blackwell GPU'larda donanım desteği var. NVIDIA Transformer Engine "E4M3 forward + E5M2 backward" hibridini standartlaştırdı.

Blackwell GPU'larda MXFP8 (microscaling FP8) ve NVFP4 (4-bit) eğitim desteği geldi. 2026'da büyük açık model eğitimi pratiğinde FP8 + BF16 master + FSDP stack'i artık fiilen standart.

Loss spike'lar — gerçekte ne oluyor

İdealdeki loss eğrisi düzgün iner. Gerçekte:

Sol panelde yukarıda gerçek bir nanoGPT koşusunun loss'u. 10M parametre, TinyShakespeare, ~1500 step. Warmup → cosine decay. Spike yok. Çünkü 10M parametre.

Distributed training — DP, TP, PP, FSDP

Tek GPU'da 7B model BF16 olarak 14 GB ağırlık + ek bellek = 20 GB+ → yüksek-end consumer GPU'ya zar zor sığar. 70B'yi tek GPU'da eğitemezsin. Dağıtmak şart.

DP (Data Parallel): Her GPU modelin tam kopyasını tutar. Veri parçalanır, gradient all-reduce ile birleşir. Basit ama 4× redundant bellek.
TP (Tensor Parallel): Her layer'ın matrisi sütun veya satır olarak GPU'lar arası bölünür. Megatron-LM klasik implementasyon.
PP (Pipeline Parallel): Model katmanlara dilimlenir, GPU 0 katman 1-20'yi, GPU 1 katman 21-40'ı tutar. Forward/backward stage-by-stage. Pipeline bubble sorunu ile yaşa.
FSDP / ZeRO-3: Microsoft'un ZeRO paper'ının (Rajbhandari 2020) PyTorch'a native gelmiş hali. Parametre + gradient + optimizer state'i GPU'lara böl, ihtiyacın olduğu anda all-gather, kullan, at.

Bütün bunlar olmadan bir 405B modelin ağırlık ve optimizer state'i tek bir GPU'ya sığmaz. ZeRO-3 / FSDP modern büyük model eğitiminin nefes borusu.

Pratik kural: 7-13B'ye kadar tek node FSDP yeter. 30-70B için TP + FSDP melez. 100B+ için TP + PP + FSDP üçü birlikte.

3. Pretraining → SFT: "Asistan" Olmak

SFT (Supervised Fine-Tuning) base modeli asistan davranışına çekiyor. Daha az veri, daha kısa süre, ama büyük etki.

Veri formatı

Codex

<|user|>
Türkçe'de eklemeli dil ne demek?
<|assistant|>
Eklemeli (agglutinative) bir dilde kelimeler, kök bir morfeme arka arkaya
eklenen eklerle yapı kazanır. Türkçe, Fince, Macarca eklemelidir...

SFT veri kaynakları — ve neden çoğu sentetik

InstructGPT (2022) yaklaşık 40 insan etiketleyici ile SFT dataset'i yarattı. Bu emek-yoğun yaklaşım 2026'da nadir. Şimdi sıralama:

Alpaca, Dolly, OpenAssistant — 2023 jenerasyon, ~50K-100K örnek, ağırlıklı insan.
UltraChat, ShareGPT, OpenHermes — büyük ölçek, kullanıcı log'lardan damıtılmış.
Magpie — base model'a kendi instruction'ını ürettir, sonra cevabını üret. Veri zincirinin başında insan emek yok.
Self-Instruct → Evol-Instruct — GPT-4'e "bu prompt'u daha zorlaştır, daha derin sor" diye iteratif evrim ettir.

LoRA ve QLoRA — fine-tune'u herkes için aç

Tam SFT için 70B modelin tam ağırlıklarını güncellemek? 280 GB ağırlık + 280 GB gradient + 560 GB Adam state = terabyte-class GPU clusters. Hobby değil.

QLoRA (Dettmers 2023) bunu bir adım ileri taşıdı. Base modeli 4-bit'e quantize et (NF4 formatı), sonra LoRA adapter'ı 16-bit'te eğit. Üç inovasyon:

NF4 (4-bit NormalFloat) — normal-dağılım'da optimal 16 seviye
Double quantization — quantization sabitlerini de quantize et
Paged optimizers — bellek spike'larını NVIDIA unified memory ile yönet

Sonuç: 65B parameter model'i tek 48GB GPU'da 24 saatte fine-tune ediyor. Guanaco modeli Vicuna benchmark'ta ChatGPT'nin %99.3 performansı.

Catastrophic forgetting

SFT'nin bir bedeli var: model SFT verisindeki dağılıma "yapışırsa" pretraining'deki genel yeteneklerini kaybeder. Buna catastrophic forgetting denir. Çareler:

Replay: SFT verisine küçük bir pretraining batch karışımı ekle.
KL constraint: yeni modelin dağılımı base'den çok uzaklaşmasın.
Mix carefully: instruction-following + chat + coding + math'ı dengeli karıştır.

4. Preference Tuning — RLHF, DPO ve Sonrası

RLHF — InstructGPT'nin yolu

Klasik RLHF (Reinforcement Learning from Human Feedback) tarifi, InstructGPT (Ouyang 2022) paper'ında 3 aşamada:

SFT (zaten yaptık).
Reward Model: insanlara modelin 4-9 farklı cevabını göster, sırala. Bu sıralamalardan bir reward model eğit. InstructGPT'de RM 6B parametre seçildi — 175B RM "unstable" olduğu için. Verbatim: "we found that 175B RM training could be unstable and thus was less suitable to be used as the value function during RL."
PPO: Reward model skoru üzerinden policy'i (SFT modeli) PPO ile optimize et. KL penalty (π_RL ≠ π_SFT'den çok uzaklaşma) + bazen pretraining gradient karışımı (PPO-ptx variant).

Ama RLHF pahalı, kararsız ve karmaşık:

4 model eğitilir/saklanır: SFT, RM, policy, value function
PPO döngüsü sample-inefficient
KL hyperparam'ı çekip duruyorsun
Reward hacking riski: model RM'yi kandırmayı öğreniyor

DPO — RM lazım değilmiş

2023'te Rafailov et al. provokatif bir gözlem yaptı: RLHF'in tam optimizasyon problemi, kapalı formda yazılabilir. RM eğitmen, PPO koşturman gerekmiyor. Tek bir classification loss yeterli.

Türetme matematiksel ama sezgisi şu: RLHF'in KL-constrained reward maximization probleminin optimal policy'si kapalı formdadır (Eq. 4):

Codex

π*(y|x) ∝ π_ref(y|x) · exp((1/β) r(x,y))

Bunu Bradley-Terry tercih modeline (insan A'yı B'ye tercih etti) yerleştirince partition function Z(x) sadeleşir. Geriye kalan:

Codex

L_DPO = -log σ(β · log[π_θ(y_w)/π_ref(y_w)] - β · log[π_θ(y_l)/π_ref(y_l)])

Tek hyperparameter: β. Reference policy: donmuş SFT modelin. İhtiyaç duyulan: (prompt, chosen, rejected) üçlülerinden oluşan bir tercih dataset'i.

Bir örnek nasıl görünür? UltraFeedback'ten:

"RLHF is not dead. DPO is not a complete replacement. The best 2026 alignment pipelines use both, deciding by use case rather than by ideology."

Constitutional AI — etiketçi orduyu çıkar

Anthropic'in 2022 paper'ı RLAIF (RL from AI Feedback) önerdi: insanın yerine bir başka LM tercih etiketi üretsin, bir kurallar listesi ("anayasa") ile yönlendirilsin. Pipeline:

SL-CAI: helpful-only model harmful prompt'a cevap verir → kendi cevabını anayasaya göre kritik eder → revize eder → bu revize edilmişler üzerinde SFT.
RL-CAI: SL-CAI iki cevap üretir, başka bir LM anayasaya bakıp seçer, bu AI-generated tercihten PM eğit, RLHF gibi PPO.

Anayasa örnekleri:

"Identify specific ways in which the assistant's last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal." "Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content."

Pratik fayda: harmful prompt'a "I can't help with that" deyip kaçmıyor — neden reddettiğini açıklayan non-evasive cevap veriyor. Bu evasiveness problemini çözüyor.

5. Reasoning RL — R1 Devrimi

2025 Ocak'ında DeepSeek-AI bir paper yayınladı: R1-Zero ve R1. Açık ağırlıklı, MIT lisanslı. Batı bir gece şok yaşadı.

Codex

A_i = (r_i - mean(r_1..r_G)) / std(r_1..r_G)

Verifiable rewards — RM bile lazım değil

GRPO'nun büyüsü reward sinyali. R1-Zero kural tabanlı reward kullanıyor, neural RM yok:

Accuracy reward: Matematik cevabı \boxed{} içinde doğru mu? LeetCode kodu test'i geçiyor mu?
Format reward: Cevap <think>...</think><answer>...</answer> formatında mı?

Sonuç: AIME 2024 matematik benchmark'ı, pass@1 71.0%, majority voting (cons@16) 86.7%. OpenAI o1-0912'yi geçiyor. Pure RL ile, SFT olmadan.

"Aha moment"

"Wait, wait. Wait. That's an aha moment I can flag here. Let's reevaluate this step-by-step to identify if the correct sum can be..."

"You've done all this work that could be a minute of rollout, and you're sucking the bits of supervision of the final reward signal through a straw and you're broadcasting that across the entire trajectory and using that to upweight or downweight that trajectory. It's just stupid and crazy."

"Reinforcement learning is terrible. It just so happens that everything that we had before it is much worse."

"Sucking supervision through a straw" — bu cümle artık RL'ın canonical critiği. Doğru bile. Ama açık bir alternatif yok.

Sınırlar — RLVR'ın çalışmadığı yerler

GRPO + verifiable rewards (RLVR) reasoning'de patladı çünkü reward sinyali kesin: matematik cevabı, kod test'i, mantık puzzle'ı. Cameron R. Wolfe'un Şubat 2026 yazısı:

"While lots of efforts have been paid on RLVR, many high-value applications of LLMs, such as long-form question answering, general helpfulness, operate in inherently subjective domains where correctness cannot be sufficiently captured by binary signals."

2026'da o1, R1, Gemini Deep Think, Claude extended thinking, GPT-5 Thinking — hepsinin altında benzer formül var. Detaylar kapalı kaynak; açık paper'larda DeepSeek lider.

6. Ne Kadar Tutuyor? — `$6 Milyon` Efsanesi

Bu yanlış anlatım. SemiAnalysis (Dylan Patel) 30 Ocak 2025'te düzeltti:

"The $6M cost in the paper is attributed to just the GPU cost of the pre-training run, which is only a portion of the total cost of the model... This akin to pointing to a specific part of a bill of materials for a product and attributing it as the entire cost."

Nathan Lambert'in Nisan 2026 "My bets on open models" yazısı bunun yapısal sonucunu söylüyor:

"Training strong AI models (i.e. near but not at the frontier) is a relatively small cost compared to large-scale deployments. E.g. if the U.S. bans open models over a certain compute threshold, another sovereign entity will eventually train them and release them publicly."

Eğitim yasaklanamayacak kadar ucuzladı. Birinin yapması yeterli, dünya görür.

7. Yaygın Yanlış Anlamalar

Hızlı liste

"Daha çok parametre = daha iyi model." Chinchilla bunu 2022'de yıktı (her parametre için ~20 token), Phi-4 2024'te (kalite > ölçek) bir daha kazıdı. 14B Phi-4, MMLU'da 70B-sınıfı model performansı veriyor.

"RLHF / DPO modeli zekileştirir." Hayır. Asisten kişiliğini biçimlendirir. Zeka pretraining'de var ya da yok.

"Halüsinasyon RLHF / preference tuning ile yamalanır." OpenAI'ın kendi Eylül 2025 paper'ı ("Why Language Models Hallucinate") tersini söylüyor: "language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty." Mimari değil, teşvik mimarisi problemi.

"Open weight = açık eğitim." Genelde değil. Ağırlık açık, veri ve kod kapalı. Tam reproducible eğitim 2026'da hâlâ nadir.

"GRPO PPO'yu tamamen ikame eder." Frontier lab'ler PPO'yu hâlâ kullanıyor — özellikle online RLHF için. GRPO açık-kaynak reasoning'de standart.

"DeepSeek-V3 $6M'a eğitildi." Pre-training final run'ı, evet. Bütün maliyet, hayır — donanım yatırımı $500M+.

8. Sırada Ne? — Üç Farklı Profile Yol Haritası

Kapanış

15.6T tokens — FineWeb stili bir pipeline'ın binlerce mühendis-saati. MinHash, fastText, KenLM. Verinin %80'i temizlik.
FSDP on 16K H100 — ZeRO-3'ün PyTorch native uygulaması, 4D paralelizm, MFU %38-43. 54 günde 419 hardware interrupt'a rağmen ayakta tutulmuş bir cluster.
SFT on UltraChat — büyük çoğunluğu sentetik bir veriyle base modelin asistana dönmesi. Loss yalnız response token'larında.
DPO on UltraFeedback — bir reward model + PPO döngüsünün tek classification loss'una indirgenmiş hâli. Eq. 7, β, donmuş reference policy.
GRPO with verifiable rewards — critic ağı olmayan, grup-relatif advantage'lı, matematik ve kod test'leriyle ödüllendirilen pure-RL. R1-Zero'nun "aha anı" buradan çıkıyor.

Sonra git, kendi nanoGPT'ni eğit. Loss spike gör. Warmup'ı düzelt. Bir paragraf yaz. Bir sonraki sefer başkasının model kartını değil, kendi notlarını oku.

Bu üçleme şimdilik tamam. Bir sonraki yazıda satır satır kendi mini-LLM'imizi inşa edelim — pretraining'den DPO'ya, kod ve yorumlarla.

Kaynakça

Birincil paper'lar

Ouyang et al. 2022, Training language models to follow instructions with human feedback (InstructGPT) — arxiv.org/abs/2203.02155
Rafailov et al. 2023, Direct Preference Optimization — arxiv.org/abs/2305.18290
DeepSeek-AI 2025, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — arxiv.org/abs/2501.12948
DeepSeek-AI 2024, DeepSeek-V3 Technical Report — arxiv.org/abs/2412.19437
Bai et al. 2022 (Anthropic), Constitutional AI: Harmlessness from AI Feedback — arxiv.org/abs/2212.08073
Grattafiori et al. 2024 (Meta), The Llama 3 Herd of Models — arxiv.org/abs/2407.21783
Hoffmann et al. 2022 (DeepMind), Training Compute-Optimal Large Language Models (Chinchilla) — arxiv.org/abs/2203.15556
Penedo et al. 2024 (HuggingFace), The FineWeb Datasets — arxiv.org/abs/2406.17557
Abdin et al. 2024 (Microsoft), Phi-4 Technical Report — arxiv.org/abs/2412.08905
Kalai, Nachum, Vempala, Zhang 2025 (OpenAI), Why Language Models Hallucinate — arxiv.org/abs/2509.04664
Rajbhandari et al. 2020 (Microsoft DeepSpeed), ZeRO: Memory Optimizations Toward Training Trillion Parameter Models — arxiv.org/abs/1910.02054
Hu et al. 2021 (Microsoft), LoRA: Low-Rank Adaptation of Large Language Models — arxiv.org/abs/2106.09685
Dettmers et al. 2023, QLoRA: Efficient Finetuning of Quantized LLMs — arxiv.org/abs/2305.14314
Hu et al. 2024, MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies (WSD) — arxiv.org/abs/2404.06395
Shumailov et al. 2023 / Nature 2024, The Curse of Recursion: Training on Generated Data Makes Models Forget — arxiv.org/abs/2305.17493

Sektör analizleri (2025-2026)

Nathan Lambert (Interconnects), My bets on open models, mid-2026 — Nisan 2026
Cameron R. Wolfe (Deep Learning Focus), Group Relative Policy Optimization
SemiAnalysis (Dylan Patel), DeepSeek Debates: Chinese Leadership On Cost, True Training Cost — Ocak 2025
Communications of the ACM, Model Collapse Is Already Happening, We Just Pretend It Isn't — Mart 2026
Andrej Karpathy, Dwarkesh Podcast 2025 (RL & model collapse yorumları)

Pratik araçlar

HuggingFace TRL v1 — github.com/huggingface/trl
Karpathy nanoGPT / nanochat — github.com/karpathy/nanoGPT / karpathy/nanochat
Karpathy Let's reproduce GPT-2 (124M) — youtube.com/watch?v=l8pRSuU81PU
Sebastian Raschka, Build a Large Language Model (From Scratch) — Manning 2024
UltraFeedback dataset — huggingface.co/datasets/openbmb/UltraFeedback
NVIDIA Transformer Engine (FP8) — docs.nvidia.com/deeplearning/transformer-engine

Finis

Bir LLM'i Sıfırdan Eğitmek Ne Demek? Veri, Loss, Optimizer ve İnsan Geri Bildirimi (2026)

1. Pretraining — Veri Cehennemi

Veriyi nereden topluyorsun

Filtreleme pipeline'ı

Veri karışımı

Chinchilla — token bütçesi de parametreye sığar mı?

Sentetik veri çağı — ve "Model Collapse"

2. Loss, Optimizer ve Sayısal Hassasiyet — Motorun İçi

Cross-entropy & perplexity

AdamW: SGD'nin moderni

Learning rate schedule — cosine vs WSD

Mixed precision — FP32'den FP8'e yolculuk

Loss spike'lar — gerçekte ne oluyor

Distributed training — DP, TP, PP, FSDP

3. Pretraining → SFT: "Asistan" Olmak

Veri formatı

SFT veri kaynakları — ve neden çoğu sentetik

LoRA ve QLoRA — fine-tune'u herkes için aç

Catastrophic forgetting

4. Preference Tuning — RLHF, DPO ve Sonrası

RLHF — InstructGPT'nin yolu

DPO — RM lazım değilmiş

Constitutional AI — etiketçi orduyu çıkar

5. Reasoning RL — R1 Devrimi

Verifiable rewards — RM bile lazım değil

"Aha moment"

Sınırlar — RLVR'ın çalışmadığı yerler

6. Ne Kadar Tutuyor? — $6 Milyon Efsanesi

7. Yaygın Yanlış Anlamalar

8. Sırada Ne? — Üç Farklı Profile Yol Haritası

Kapanış

Kaynakça

Related Topics

Bir LLM'i Sıfırdan Eğitmek Ne Demek? Veri, Loss, Optimizer ve İnsan Geri Bildirimi (2026)

1. Pretraining — Veri Cehennemi

Veriyi nereden topluyorsun

Filtreleme pipeline'ı

Veri karışımı

Chinchilla — token bütçesi de parametreye sığar mı?

Sentetik veri çağı — ve "Model Collapse"

2. Loss, Optimizer ve Sayısal Hassasiyet — Motorun İçi

Cross-entropy & perplexity

AdamW: SGD'nin moderni

Learning rate schedule — cosine vs WSD

Mixed precision — FP32'den FP8'e yolculuk

Loss spike'lar — gerçekte ne oluyor

Distributed training — DP, TP, PP, FSDP

3. Pretraining → SFT: "Asistan" Olmak

Veri formatı

SFT veri kaynakları — ve neden çoğu sentetik

LoRA ve QLoRA — fine-tune'u herkes için aç

Catastrophic forgetting

4. Preference Tuning — RLHF, DPO ve Sonrası

RLHF — InstructGPT'nin yolu

DPO — RM lazım değilmiş

Constitutional AI — etiketçi orduyu çıkar

5. Reasoning RL — R1 Devrimi

Verifiable rewards — RM bile lazım değil

"Aha moment"

Sınırlar — RLVR'ın çalışmadığı yerler

6. Ne Kadar Tutuyor? — $6 Milyon Efsanesi

7. Yaygın Yanlış Anlamalar

8. Sırada Ne? — Üç Farklı Profile Yol Haritası

Kapanış

Kaynakça

Related Topics

Further Reading

Bir Benchmark Skorunu Nasıl Okumalı? MMLU'dan Arena ELO'suna, Contamination'dan Agent'lara

LLM'in 2 Saniyede Cevap Verme Sırrı: KV Cache, Speculative Decoding ve Inference Yığını

Transformer Aslında Ne Yapıyor? Attention, RoPE ve Mimarinin İçine Çıplak Gözle Bakmak (2026)

Further Reading

Bir Benchmark Skorunu Nasıl Okumalı? MMLU'dan Arena ELO'suna, Contamination'dan Agent'lara

LLM'in 2 Saniyede Cevap Verme Sırrı: KV Cache, Speculative Decoding ve Inference Yığını

Transformer Aslında Ne Yapıyor? Attention, RoPE ve Mimarinin İçine Çıplak Gözle Bakmak (2026)

6. Ne Kadar Tutuyor? — `$6 Milyon` Efsanesi

6. Ne Kadar Tutuyor? — `$6 Milyon` Efsanesi