
Araç Kullanan Düşünce: Reasoning Modellerinde Yeni Paradigma
OpenAI, Nisan 2025'te o3 ve o4-mini modellerini tanıttı. Bu modeller, yapay zeka tarihinde bir ilke imza atıyor: düşünme süreci sırasında araçları aktif olarak kullanabilme yeteneği. Önceki reasoning modelleri (o1, o3-mini) sadece kendi "beyin gücüyle" düşünürken, o3 ve o4-mini bir problemi çözerken web'de arama yapabiliyor, Python kodu çalıştırabiliyor, dosya yükleyip analiz edebiliyor ve görsel girdi işleyebiliyor.
Bu yaklaşım, insan problem çözme sürecine çok daha yakın. Bir mühendis karmaşık bir sorunla karşılaştığında sadece kafasında düşünmez—dokümantasyonu açar, kod çalıştırıp sonuçları kontrol eder, Google'da araştırma yapar. o3 ve o4-mini de tam olarak bunu yapıyor.
o3: Benchmarklarda Tarihi Rekorlar
o3 modeli, birçok zorlu benchmark'ta tüm zamanların en yüksek skorlarını kırdı:
| Benchmark | o3 Skoru | o1 Skoru | GPT-4o Skoru | Açıklama |
|---|---|---|---|---|
| AIME 2024 | %96.7 | %83.3 | %26.7 | Matematik olimpiyat soruları |
| SWE-bench Verified | %69.1 | %48.9 | %33.2 | Gerçek GitHub issue çözme |
| GPQA Diamond | %87.7 | %78.0 | %53.6 | Doktora seviyesi bilim soruları |
| MLE-bench | %53.2 | %16.9 | %8.1 | Kaggle ML yarışmaları |
| Codeforces | 2727 Elo | 1891 Elo | 808 Elo | Programlama yarışmaları |
| HumanEval | %98.4 | %92.4 | %90.2 | Kod üretimi |
Özellikle SWE-bench'teki %69.1 skoru dikkat çekici—bu, gerçek dünya yazılım projelerinde bug'ları bulup düzeltme yeteneğini ölçüyor.
API Kullanımı: Tool Use ile Reasoning
o3'ün en güçlü özelliği, API üzerinden araçları reasoning sürecinde kullanabilmesi:
1from openai import OpenAI
2
3client = OpenAI()
4
5# o3 web araması yaparak güncel bilgi ile yanıt verir
6response = client.responses.create(
7 model="o3",
8 tools=[
9 {"type": "web_search_preview"},
10 {"type": "code_interpreter"},
11 {"type": "file_search"}
12 ],
13 input="Next.js 15'te app router ile sayfa yönlendirme nasıl değişti? "
14 "Önceki sürümlerle karşılaştırmalı tablo oluştur."
15)
16
17print(response.output_text)Model, bu sorguyu işlerken:
- Web'de Next.js 15 değişikliklerini araştırıyor
- Önceki sürüm dokümanlarını buluyor
- Karşılaştırma tablosunu Python ile oluşturuyor
- Sonuçları derleyip sunuyor
o4-mini: Maliyet-Performans Şampiyonu
Daha küçük ve hızlı o4-mini modeli, kendi sınıfında rakipsiz performans sunuyor:
| Metrik | o4-mini | o3-mini | Claude 3.5 Haiku |
|---|---|---|---|
| AIME 2025 | %93.4 | %86.5 | %68.2 |
| Codeforces Elo | 2700+ | 2073 | 1450 |
| Ortalama yanıt süresi | 12s | 18s | 3s |
| Input maliyeti (1M token) | $1.10 | $1.10 | $1.00 |
| Output maliyeti (1M token) | $4.40 | $4.40 | $5.00 |
o4-mini, özellikle otomasyon ve yüksek hacimli görevler için ideal. Reasoning yeteneğini düşük maliyetle sunması, production pipeline'larında kullanımını cazip kılıyor.
Codex CLI: Terminal'den AI Kodlama
OpenAI, o3 ve o4-mini ile birlikte açık kaynak Codex CLI aracını da tanıttı. Terminal üzerinden çalışan bu araç, doğal dilde görev tanımlarını gerçek kod değişikliklerine dönüştürüyor:
1# Codex CLI kurulumu
2npm install -g @openai/codex
3
4# Doğal dilde görev verme
5codex "Bu projede kullanılmayan import'ları temizle"
6
7# Güvenlik modları
8codex --approval-mode full-auto "Test coverage'ı %80'e çıkar"
9codex --approval-mode suggest "API rate limiting ekle"Codex CLI, üç güvenlik modunda çalışıyor:
- suggest: Sadece öneri yapar, değişiklik yapmaz
- auto-edit: Dosya düzenler ama komut çalıştırmaz
- full-auto: Tam otonom çalışır (dikkatli kullanılmalı)
Reasoning Token Ekonomisi
o3 ve o4-mini'nin fiyatlandırması reasoning token'lar üzerinden çalışıyor. Model düşünürken harcadığı token'lar ayrıca faturalandırılıyor:
1# Reasoning effort kontrolü
2response = client.responses.create(
3 model="o3",
4 reasoning={"effort": "medium"}, # low, medium, high
5 input="Bu SQL sorgusunu optimize et: SELECT * FROM users..."
6)
7
8# Reasoning token kullanımını kontrol etme
9print(f"Input tokens: {response.usage.input_tokens}")
10print(f"Output tokens: {response.usage.output_tokens}")
11print(f"Reasoning tokens: {response.usage.output_tokens_details.reasoning_tokens}")reasoning.effort parametresi ile maliyet-kalite dengesi ayarlanabiliyor:
- low: Hızlı yanıt, düşük maliyet, basit görevler için
- medium: Dengeli, çoğu kullanım senaryosu için
- high: Maksimum kalite, karmaşık problemler için
Pratik Kullanım Senaryoları
o3'ün araç kullanımı, birçok gerçek dünya senaryosunda fark yaratıyor:
1. Kod Review ve Bug Analizi: Model, bir PR'ı incelerken ilgili dokümantasyonu web'den çekip, test senaryolarını kod çalıştırarak doğrulayabiliyor.
2. Veri Analizi: CSV veya Excel dosyası yüklendiğinde, Python ile analiz yapıp görselleştirme üretebiliyor.
3. Araştırma Asistanı: Bir konuyu araştırırken birden fazla kaynak tarayıp, bilgileri çapraz doğrulayıp sentezleyebiliyor.
Rakiplerle Karşılaştırma
| Özellik | OpenAI o3 | Claude 3.7 Sonnet | Gemini 2.5 Pro |
|---|---|---|---|
| Araç kullanımı (reasoning sırasında) | ✅ | ❌ | ✅ |
| Extended thinking | ✅ | ✅ | ✅ |
| Görsel input | ✅ | ✅ | ✅ |
| Kod çalıştırma | ✅ | ❌ | ✅ |
| Web araması | ✅ | ❌ | ✅ |
| Açık kaynak | ❌ | ❌ | ❌ |
| Max context | 200K | 200K | 1M |
Sonuç: Reasoning'in Geleceği
o3 ve o4-mini, yapay zeka modellerinin artık sadece "düşünen" değil, araştırıp, doğrulayıp, hesaplayıp sonra düşünen sistemlere evrildiğini gösteriyor. Bu paradigma değişimi, AI'ın gerçek dünya problemlerini çözme kapasitesini dramatik olarak artırıyor.
Geliştiriciler için en heyecan verici kısım Codex CLI ve API üzerinden araç kullanımı. Özellikle SWE-bench'teki %69.1 skoru, AI'ın yazılım geliştirmede insan seviyesine hızla yaklaştığını gösteriyor. Claude 3.7 Sonnet'in extended thinking yaklaşımı ile o3'ün tool-augmented reasoning'i arasındaki rekabet, 2025'in ikinci yarısında daha da kızışacak.
Kaynaklar:


