OpenAI o3 ve o4-mini: Araç Kullanan AI Modelleri

Araç Kullanan Düşünce: Reasoning Modellerinde Yeni Paradigma

OpenAI, Nisan 2025'te o3 ve o4-mini modellerini tanıttı. Bu modeller, yapay zeka tarihinde bir ilke imza atıyor: düşünme süreci sırasında araçları aktif olarak kullanabilme yeteneği. Önceki reasoning modelleri (o1, o3-mini) sadece kendi "beyin gücüyle" düşünürken, o3 ve o4-mini bir problemi çözerken web'de arama yapabiliyor, Python kodu çalıştırabiliyor, dosya yükleyip analiz edebiliyor ve görsel girdi işleyebiliyor.

Bu yaklaşım, insan problem çözme sürecine çok daha yakın. Bir mühendis karmaşık bir sorunla karşılaştığında sadece kafasında düşünmez—dokümantasyonu açar, kod çalıştırıp sonuçları kontrol eder, Google'da araştırma yapar. o3 ve o4-mini de tam olarak bunu yapıyor.

o3: Benchmarklarda Tarihi Rekorlar

o3 modeli, birçok zorlu benchmark'ta tüm zamanların en yüksek skorlarını kırdı:

Benchmark	o3 Skoru	o1 Skoru	GPT-4o Skoru	Açıklama
AIME 2024	%96.7	%83.3	%26.7	Matematik olimpiyat soruları
SWE-bench Verified	%69.1	%48.9	%33.2	Gerçek GitHub issue çözme
GPQA Diamond	%87.7	%78.0	%53.6	Doktora seviyesi bilim soruları
MLE-bench	%53.2	%16.9	%8.1	Kaggle ML yarışmaları
Codeforces	2727 Elo	1891 Elo	808 Elo	Programlama yarışmaları
HumanEval	%98.4	%92.4	%90.2	Kod üretimi

Özellikle SWE-bench'teki %69.1 skoru dikkat çekici—bu, gerçek dünya yazılım projelerinde bug'ları bulup düzeltme yeteneğini ölçüyor.

API Kullanımı: Tool Use ile Reasoning

o3'ün en güçlü özelliği, API üzerinden araçları reasoning sürecinde kullanabilmesi:

python
from openai import OpenAI

client = OpenAI()

# o3 web araması yaparak güncel bilgi ile yanıt verir
response = client.responses.create(
    model="o3",
    tools=[
        {"type": "web_search_preview"},
        {"type": "code_interpreter"},
        {"type": "file_search"}
    ],
    input="Next.js 15'te app router ile sayfa yönlendirme nasıl değişti? "
          "Önceki sürümlerle karşılaştırmalı tablo oluştur."
)

print(response.output_text)

Model, bu sorguyu işlerken:

Web'de Next.js 15 değişikliklerini araştırıyor
Önceki sürüm dokümanlarını buluyor
Karşılaştırma tablosunu Python ile oluşturuyor
Sonuçları derleyip sunuyor

o4-mini: Maliyet-Performans Şampiyonu

Daha küçük ve hızlı o4-mini modeli, kendi sınıfında rakipsiz performans sunuyor:

Metrik	o4-mini	o3-mini	Claude 3.5 Haiku
AIME 2025	%93.4	%86.5	%68.2
Codeforces Elo	2700+	2073	1450
Ortalama yanıt süresi	12s	18s	3s
Input maliyeti (1M token)	$1.10	$1.10	$1.00
Output maliyeti (1M token)	$4.40	$4.40	$5.00

o4-mini, özellikle otomasyon ve yüksek hacimli görevler için ideal. Reasoning yeteneğini düşük maliyetle sunması, production pipeline'larında kullanımını cazip kılıyor.

Codex CLI: Terminal'den AI Kodlama

OpenAI, o3 ve o4-mini ile birlikte açık kaynak Codex CLI aracını da tanıttı. Terminal üzerinden çalışan bu araç, doğal dilde görev tanımlarını gerçek kod değişikliklerine dönüştürüyor:

bash
# Codex CLI kurulumu
npm install -g @openai/codex

# Doğal dilde görev verme
codex "Bu projede kullanılmayan import'ları temizle"

# Güvenlik modları
codex --approval-mode full-auto "Test coverage'ı %80'e çıkar"
codex --approval-mode suggest "API rate limiting ekle"

Codex CLI, üç güvenlik modunda çalışıyor:

suggest: Sadece öneri yapar, değişiklik yapmaz
auto-edit: Dosya düzenler ama komut çalıştırmaz
full-auto: Tam otonom çalışır (dikkatli kullanılmalı)

Reasoning Token Ekonomisi

o3 ve o4-mini'nin fiyatlandırması reasoning token'lar üzerinden çalışıyor. Model düşünürken harcadığı token'lar ayrıca faturalandırılıyor:

python
# Reasoning effort kontrolü
response = client.responses.create(
    model="o3",
    reasoning={"effort": "medium"},  # low, medium, high
    input="Bu SQL sorgusunu optimize et: SELECT * FROM users..."
)

# Reasoning token kullanımını kontrol etme
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")
print(f"Reasoning tokens: {response.usage.output_tokens_details.reasoning_tokens}")

reasoning.effort parametresi ile maliyet-kalite dengesi ayarlanabiliyor:

low: Hızlı yanıt, düşük maliyet, basit görevler için
medium: Dengeli, çoğu kullanım senaryosu için
high: Maksimum kalite, karmaşık problemler için

Pratik Kullanım Senaryoları

o3'ün araç kullanımı, birçok gerçek dünya senaryosunda fark yaratıyor:

1. Kod Review ve Bug Analizi: Model, bir PR'ı incelerken ilgili dokümantasyonu web'den çekip, test senaryolarını kod çalıştırarak doğrulayabiliyor.

2. Veri Analizi: CSV veya Excel dosyası yüklendiğinde, Python ile analiz yapıp görselleştirme üretebiliyor.

3. Araştırma Asistanı: Bir konuyu araştırırken birden fazla kaynak tarayıp, bilgileri çapraz doğrulayıp sentezleyebiliyor.

Rakiplerle Karşılaştırma

Özellik	OpenAI o3	Claude 3.7 Sonnet	Gemini 2.5 Pro
Araç kullanımı (reasoning sırasında)	✅	❌	✅
Extended thinking	✅	✅	✅
Görsel input	✅	✅	✅
Kod çalıştırma	✅	❌	✅
Web araması	✅	❌	✅
Açık kaynak	❌	❌	❌
Max context	200K	200K	1M

Sonuç: Reasoning'in Geleceği

o3 ve o4-mini, yapay zeka modellerinin artık sadece "düşünen" değil, araştırıp, doğrulayıp, hesaplayıp sonra düşünen sistemlere evrildiğini gösteriyor. Bu paradigma değişimi, AI'ın gerçek dünya problemlerini çözme kapasitesini dramatik olarak artırıyor.

Geliştiriciler için en heyecan verici kısım Codex CLI ve API üzerinden araç kullanımı. Özellikle SWE-bench'teki %69.1 skoru, AI'ın yazılım geliştirmede insan seviyesine hızla yaklaştığını gösteriyor. Claude 3.7 Sonnet'in extended thinking yaklaşımı ile o3'ün tool-augmented reasoning'i arasındaki rekabet, 2025'in ikinci yarısında daha da kızışacak.

Kaynaklar:

OpenAI o3 ve o4-mini Yayınlandı: Araç Kullanan Reasoning Modelleri

Araç Kullanan Düşünce: Reasoning Modellerinde Yeni Paradigma

o3: Benchmarklarda Tarihi Rekorlar

API Kullanımı: Tool Use ile Reasoning

o4-mini: Maliyet-Performans Şampiyonu

Codex CLI: Terminal'den AI Kodlama

Reasoning Token Ekonomisi

Pratik Kullanım Senaryoları

Rakiplerle Karşılaştırma

Sonuç: Reasoning'in Geleceği

Bir Sonraki Adımı Birlikte Atalım

OpenAI o3 ve o4-mini Yayınlandı: Araç Kullanan Reasoning Modelleri

Araç Kullanan Düşünce: Reasoning Modellerinde Yeni Paradigma

o3: Benchmarklarda Tarihi Rekorlar

API Kullanımı: Tool Use ile Reasoning

o4-mini: Maliyet-Performans Şampiyonu

Codex CLI: Terminal'den AI Kodlama

Reasoning Token Ekonomisi

Pratik Kullanım Senaryoları

Rakiplerle Karşılaştırma

Sonuç: Reasoning'in Geleceği

İlgili Yazılar

MCP Nedir ve AI Entegrasyonunu Nasıl Değiştiriyor

TanStack DB ile Frontend Veri Yönetimi Nasıl Değişiyor

İran Savaşı Yapay Zekalı Savaşın İlk Gerçek Sınavı Oldu

Bir Sonraki Adımı Birlikte Atalım