OpenAI o3 ve o4-mini Yayınlandı: Araç Kullanan Reasoning Modelleri

OpenAI o3 ve o4-mini Yayınlandı: Araç Kullanan Reasoning Modelleri

Araç Kullanan Düşünce: Reasoning Modellerinde Yeni Paradigma

OpenAI, Nisan 2025'te o3 ve o4-mini modellerini tanıttı. Bu modeller, yapay zeka tarihinde bir ilke imza atıyor: düşünme süreci sırasında araçları aktif olarak kullanabilme yeteneği. Önceki reasoning modelleri (o1, o3-mini) sadece kendi "beyin gücüyle" düşünürken, o3 ve o4-mini bir problemi çözerken web'de arama yapabiliyor, Python kodu çalıştırabiliyor, dosya yükleyip analiz edebiliyor ve görsel girdi işleyebiliyor.

Bu yaklaşım, insan problem çözme sürecine çok daha yakın. Bir mühendis karmaşık bir sorunla karşılaştığında sadece kafasında düşünmez—dokümantasyonu açar, kod çalıştırıp sonuçları kontrol eder, Google'da araştırma yapar. o3 ve o4-mini de tam olarak bunu yapıyor.

o3: Benchmarklarda Tarihi Rekorlar

o3 modeli, birçok zorlu benchmark'ta tüm zamanların en yüksek skorlarını kırdı:

Benchmarko3 Skoruo1 SkoruGPT-4o SkoruAçıklama
AIME 2024%96.7%83.3%26.7Matematik olimpiyat soruları
SWE-bench Verified%69.1%48.9%33.2Gerçek GitHub issue çözme
GPQA Diamond%87.7%78.0%53.6Doktora seviyesi bilim soruları
MLE-bench%53.2%16.9%8.1Kaggle ML yarışmaları
Codeforces2727 Elo1891 Elo808 EloProgramlama yarışmaları
HumanEval%98.4%92.4%90.2Kod üretimi

Özellikle SWE-bench'teki %69.1 skoru dikkat çekici—bu, gerçek dünya yazılım projelerinde bug'ları bulup düzeltme yeteneğini ölçüyor.

API Kullanımı: Tool Use ile Reasoning

o3'ün en güçlü özelliği, API üzerinden araçları reasoning sürecinde kullanabilmesi:

python
1from openai import OpenAI
2
3client = OpenAI()
4
5# o3 web araması yaparak güncel bilgi ile yanıt verir
6response = client.responses.create(
7    model="o3",
8    tools=[
9        {"type": "web_search_preview"},
10        {"type": "code_interpreter"},
11        {"type": "file_search"}
12    ],
13    input="Next.js 15'te app router ile sayfa yönlendirme nasıl değişti? "
14          "Önceki sürümlerle karşılaştırmalı tablo oluştur."
15)
16
17print(response.output_text)

Model, bu sorguyu işlerken:

  1. Web'de Next.js 15 değişikliklerini araştırıyor
  2. Önceki sürüm dokümanlarını buluyor
  3. Karşılaştırma tablosunu Python ile oluşturuyor
  4. Sonuçları derleyip sunuyor

o4-mini: Maliyet-Performans Şampiyonu

Daha küçük ve hızlı o4-mini modeli, kendi sınıfında rakipsiz performans sunuyor:

Metriko4-minio3-miniClaude 3.5 Haiku
AIME 2025%93.4%86.5%68.2
Codeforces Elo2700+20731450
Ortalama yanıt süresi12s18s3s
Input maliyeti (1M token)$1.10$1.10$1.00
Output maliyeti (1M token)$4.40$4.40$5.00

o4-mini, özellikle otomasyon ve yüksek hacimli görevler için ideal. Reasoning yeteneğini düşük maliyetle sunması, production pipeline'larında kullanımını cazip kılıyor.

Codex CLI: Terminal'den AI Kodlama

OpenAI, o3 ve o4-mini ile birlikte açık kaynak Codex CLI aracını da tanıttı. Terminal üzerinden çalışan bu araç, doğal dilde görev tanımlarını gerçek kod değişikliklerine dönüştürüyor:

bash
1# Codex CLI kurulumu
2npm install -g @openai/codex
3
4# Doğal dilde görev verme
5codex "Bu projede kullanılmayan import'ları temizle"
6
7# Güvenlik modları
8codex --approval-mode full-auto "Test coverage'ı %80'e çıkar"
9codex --approval-mode suggest "API rate limiting ekle"

Codex CLI, üç güvenlik modunda çalışıyor:

  • suggest: Sadece öneri yapar, değişiklik yapmaz
  • auto-edit: Dosya düzenler ama komut çalıştırmaz
  • full-auto: Tam otonom çalışır (dikkatli kullanılmalı)

Reasoning Token Ekonomisi

o3 ve o4-mini'nin fiyatlandırması reasoning token'lar üzerinden çalışıyor. Model düşünürken harcadığı token'lar ayrıca faturalandırılıyor:

python
1# Reasoning effort kontrolü
2response = client.responses.create(
3    model="o3",
4    reasoning={"effort": "medium"},  # low, medium, high
5    input="Bu SQL sorgusunu optimize et: SELECT * FROM users..."
6)
7
8# Reasoning token kullanımını kontrol etme
9print(f"Input tokens: {response.usage.input_tokens}")
10print(f"Output tokens: {response.usage.output_tokens}")
11print(f"Reasoning tokens: {response.usage.output_tokens_details.reasoning_tokens}")

reasoning.effort parametresi ile maliyet-kalite dengesi ayarlanabiliyor:

  • low: Hızlı yanıt, düşük maliyet, basit görevler için
  • medium: Dengeli, çoğu kullanım senaryosu için
  • high: Maksimum kalite, karmaşık problemler için

Pratik Kullanım Senaryoları

o3'ün araç kullanımı, birçok gerçek dünya senaryosunda fark yaratıyor:

1. Kod Review ve Bug Analizi: Model, bir PR'ı incelerken ilgili dokümantasyonu web'den çekip, test senaryolarını kod çalıştırarak doğrulayabiliyor.

2. Veri Analizi: CSV veya Excel dosyası yüklendiğinde, Python ile analiz yapıp görselleştirme üretebiliyor.

3. Araştırma Asistanı: Bir konuyu araştırırken birden fazla kaynak tarayıp, bilgileri çapraz doğrulayıp sentezleyebiliyor.

Rakiplerle Karşılaştırma

ÖzellikOpenAI o3Claude 3.7 SonnetGemini 2.5 Pro
Araç kullanımı (reasoning sırasında)
Extended thinking
Görsel input
Kod çalıştırma
Web araması
Açık kaynak
Max context200K200K1M

Sonuç: Reasoning'in Geleceği

o3 ve o4-mini, yapay zeka modellerinin artık sadece "düşünen" değil, araştırıp, doğrulayıp, hesaplayıp sonra düşünen sistemlere evrildiğini gösteriyor. Bu paradigma değişimi, AI'ın gerçek dünya problemlerini çözme kapasitesini dramatik olarak artırıyor.

Geliştiriciler için en heyecan verici kısım Codex CLI ve API üzerinden araç kullanımı. Özellikle SWE-bench'teki %69.1 skoru, AI'ın yazılım geliştirmede insan seviyesine hızla yaklaştığını gösteriyor. Claude 3.7 Sonnet'in extended thinking yaklaşımı ile o3'ün tool-augmented reasoning'i arasındaki rekabet, 2025'in ikinci yarısında daha da kızışacak.

Kaynaklar: