
DeepSeek R1 Nedir? 5.6 Milyon Dolarlık AI Devrimi
DeepSeek, 20 Ocak 2025'te R1 reasoning modelini açık kaynak olarak yayınladı ve yapay zeka sektörüne şok dalgası gönderdi. Model, matematik, kodlama ve bilimsel muhakeme görevlerinde OpenAI o1 ile rekabet edebilecek seviyede performans gösteriyor. Asıl şok ise maliyet: DeepSeek R1'in eğitimi sadece 5.6 milyon dolara mal oldu. OpenAI'ın GPT-4 için 100 milyon dolardan fazla harcadığı düşünüldüğünde, bu verimlilik farkı tüm sektörün varsayımlarını sarstı.
Teknik Mimari: Mixture of Experts (MoE)
DeepSeek R1, 671 milyar toplam parametreye sahip ancak her token için sadece 37 milyar parametre aktif olan bir Mixture of Experts mimarisi kullanıyor:
1DeepSeek R1 Mimarisi:
2├── Toplam parametre: 671B
3├── Aktif parametre (per token): 37B
4├── Expert sayısı: 256 (8 aktif/token)
5├── Bağlam penceresi: 128K token
6└── Eğitim: ~14.8T token, 2048 H800 GPU
7
8MoE Avantajı:
9┌─────────────────────────────┐
10│ Dense 671B model: │
11│ Her token → 671B parametre │
12│ = Devasa hesaplama maliyeti │
13└─────────────────────────────┘
14┌─────────────────────────────┐
15│ MoE 671B model (DeepSeek): │
16│ Her token → 37B parametre │
17│ = ~18x daha az hesaplama │
18└─────────────────────────────┘Bu yaklaşım, modelin toplam bilgi kapasitesini korurken hesaplama maliyetini dramatik şekilde düşürüyor. Aynı kalitede yanıt üretmek için çok daha az GPU gücü yeterli oluyor.
5.6 Milyon Dolar: Maliyet Mucizesi Nasıl Mümkün Oldu?
DeepSeek'in maliyet avantajının arkasında birkaç faktör var:
| Faktör | DeepSeek R1 | OpenAI o1 (tahmin) |
|---|---|---|
| GPU | 2.048 x H800 | 10.000+ x H100 |
| Eğitim süresi | ~2 ay | ~3-6 ay |
| Eğitim maliyeti | $5.6M | $100M+ |
| Mimari | MoE (verimli) | Dense (pahalı) |
| Veri mühendisliği | Yüksek verimli | - |
NVIDIA H800: ABD'nin Çin'e çip ihracat kısıtlamaları nedeniyle, DeepSeek H100 yerine bant genişliği kısıtlanmış H800 GPU'ları kullandı. Bu kısıtlama, DeepSeek mühendislerini GPU-arası iletişimi minimize eden yenilikçi parallelism teknikleri geliştirmeye itti.
Multi-head Latent Attention (MLA): DeepSeek'in geliştirdiği özgün dikkat mekanizması, standart attention'a göre daha az bellek ve hesaplama gerektiriyor.
FP8 Mixed Precision: Eğitim süresince FP8 hassasiyetini kullanarak hesaplama verimliliğini artırma.
Reasoning Yaklaşımı: Reinforcement Learning
DeepSeek R1'in en ilginç teknik detayı eğitim yaklaşımı. OpenAI'ın o1'de kullandığı tahmin edilen karmaşık RLHF pipeline'ı yerine, DeepSeek daha basit bir yol izledi:
- DeepSeek-R1-Zero: Önce hiç insan geri bildirimi olmadan, sadece RL (Reinforcement Learning) ile eğitildi. Model, kendi kendine "düşünme" yeteneğini geliştirdi
- Cold start verisi: R1-Zero'nun ürettiği kaliteli reasoning örnekleri toplanarak supervised fine-tuning yapıldı
- RL ile ince ayar: Son aşamada RL ile model reasoning kalitesi artırıldı
R1-Zero'nun kendi kendine reasoning öğrenmesi, yapay zeka araştırmasındaki en önemli bulgulardan biri: Doğru teşvik yapısıyla, bir model insan öğretmenine ihtiyaç duymadan düşünmeyi öğrenebiliyor.
Benchmark Sonuçları
| Benchmark | DeepSeek R1 | OpenAI o1 | Claude 3.5 Sonnet |
|---|---|---|---|
| AIME 2024 | 79.8% | 83.3% | - |
| MATH-500 | 97.3% | 94.8% | 78.3% |
| Codeforces | 96. yüzdelik | 89. yüzdelik | - |
| GPQA Diamond | 71.5% | 78.3% | 59.4% |
| SWE-bench Verified | 49.2% | 41.0% | 64.0% |
| HumanEval | 92.7% | 92.4% | 92.0% |
| MMLU | 90.8% | 91.8% | 88.7% |
R1, o1'e çoğu alanda yakın veya denk performans gösteriyor. MATH-500'de %97.3 ile o1'i geçmesi ve Codeforces'ta 96. yüzdelik olması dikkat çekici.
Açık Kaynak Modeller ve Distillation
DeepSeek R1, MIT lisansıyla tamamen açık kaynak. Ticari kullanım dahil her türlü kullanıma açık. Ayrıca farklı boyutlarda distillation modelleri de yayınlandı:
| Model | Parametre | Base Model | Özellik |
|---|---|---|---|
| R1-Distill-Qwen-1.5B | 1.5B | Qwen 2.5 | Mobil cihazlarda çalışabilir |
| R1-Distill-Qwen-7B | 7B | Qwen 2.5 | Tüketici GPU'larda çalışır |
| R1-Distill-Qwen-14B | 14B | Qwen 2.5 | Orta segment |
| R1-Distill-Qwen-32B | 32B | Qwen 2.5 | Güçlü performans |
| R1-Distill-Llama-8B | 8B | Llama 3.1 | Llama tabanlı |
| R1-Distill-Llama-70B | 70B | Llama 3.3 | Çok güçlü, tek A100'de çalışır |
Yerel Kullanım
1# Ollama ile DeepSeek R1 distillation modellerini çalıştırma
2ollama pull deepseek-r1:7b # 7B model (~4GB)
3ollama run deepseek-r1:7b
4
5# 70B model (güçlü donanım gerekli)
6ollama pull deepseek-r1:70b
7ollama run deepseek-r1:70bBorsa Depreminin Teknik Analizi
DeepSeek R1'in 27 Ocak 2025'te (Pazartesi) ABD borsalarını sarsan etkisi tarihi oldu:
- NVIDIA: Tek günde -17% → ~$590 milyar piyasa değeri kaybı (ABD borsa tarihinin en büyük tek günlük kaybı)
- Broadcom: -17%
- ASML: -7%
- Taiwan Semiconductor: -5%
- S&P 500: -1.5% genel düşüş
Panik satışının nedeni: Eğer AI modelleri bu kadar az GPU ile eğitilebiliyorsa, NVIDIA'nın satış projeksiyonları çok mu iyimser? DeepSeek'in verimliliği, "AI eğitimi için sınırsız GPU gerekir" varsayımını sarstı.
Ancak NVIDIA CEO'su Jensen Huang, "Daha verimli modeller daha fazla kullanım yaratır, bu da daha fazla GPU talebi getirir" (Jevons paradoksu) argümanını öne sürdü. Hisseler birkaç hafta içinde toparlandı.
ABD-Çin AI Yarışında Yeni Denklem
DeepSeek'in başarısı, jeopolitik açıdan kritik sorular ortaya koyuyor:
- Çip kısıtlamaları işe yarıyor mu?: H800 (kısıtlanmış GPU) ile bile üst düzey model eğitmek mümkün olduğu kanıtlandı. Kısıtlamalar Çinli şirketleri durdurmak yerine daha verimli olmaya itti
- Açık kaynak stratejisi: Çin'in AI'da açık kaynak yaklaşımı benimsamesi, ABD'nin kapalı kaynak modellerin (GPT, Claude) teknolojik üstünlüğünü azaltıyor
- Maliyet avantajı: DeepSeek API'si, OpenAI'ın fiyatlarının 20-50 katı daha ucuz. Bu, gelişmekte olan ülkelerdeki geliştiricilere erişilebilirlik sağlıyor
Sonuç: AI Yarışı Yeniden Şekilleniyor
DeepSeek R1, 2025'in en etkili AI lansmanı. Gösterdiği üç şey kritik:
- Para her şey değil: Verimli mühendislik, milyar dolarlık bütçeleri geçebilir
- Açık kaynak güçleniyor: Llama ile başlayan trend, R1 ile yeni bir seviyeye ulaştı
- Rekabet iyidir: DeepSeek'in baskısı, OpenAI ve Google'ı daha hızlı hareket etmeye ve fiyatları düşürmeye zorluyor
Kaynaklar: DeepSeek R1 Teknik Raporu | DeepSeek GitHub | Hugging Face Model Hub


