Claude 3.5 Sonnet Güncellendi ve Computer Use Tanıtıldı: AI Bilgisayar Kullanmayı Öğrendi

Claude 3.5 Sonnet Güncellendi ve Computer Use Tanıtıldı: AI Bilgisayar Kullanmayı Öğrendi

Claude Computer Use Nedir? Yapay Zeka Bilgisayar Kullanmayı Öğrendi

Anthropic, 22 Ekim 2024'te iki büyük duyuru yaptı: Güncellenmiş Claude 3.5 Sonnet ve yapay zeka tarihinde çığır açan Computer Use özelliği. Computer Use ile Claude, ekran görüntülerini yorumlayarak fare tıklamaları, klavye girişleri ve web tarayıcısı navigasyonu yapabiliyor. Bu, AI ajanlarının bilgisayarınızı sizin gibi kullanabilmesinin ilk adımı.

Güncellenmiş Claude 3.5 Sonnet: Kodlamada Yeni Rekor

Yeni Claude 3.5 Sonnet (model ID: claude-3-5-sonnet-20241022), Haziran versiyonuna göre kodlama görevlerinde ciddi iyileşme gösteriyor:

BenchmarkHaziran 2024Ekim 2024İyileşme
SWE-bench Verified33.4%49.0%+15.6 puan
TAU-bench (ajan)62.6%69.2%+6.6 puan
HumanEval92.0%93.7%+1.7 puan

SWE-bench Verified %49, gerçek GitHub issue'larını çözmede sektör lideri. Bu, modelin gerçek dünya yazılım mühendisliği görevlerinde—bug fix, feature implementation, refactoring—ne kadar yetenekli olduğunu gösteriyor.

Computer Use: Nasıl Çalışıyor?

Computer Use, Claude'un bilgisayar ekranını "görmesini" ve etkileşime girmesini sağlayan bir API özelliği. Teknik akış:

text
11. Claude'a bir görev verilir:
2   "GitHub'da yeni bir repo oluştur, README.md ekle"
3
42. Claude ekran görüntüsünü alır (screenshot)
563. Görüntüyü analiz eder: "Bu bir masaüstü ekranı, 
7   sağ üstte Chrome tarayıcı simgesi görüyorum"
894. Aksiyon belirler: "Chrome'u açmam gerekiyor"
10115. Fare koordinatlarını hesaplar: (1250, 35)
12136. Tıklama/yazma komutu gönderir
14157. Yeni ekran görüntüsü alır → döngü devam eder

API ile Computer Use Kullanımı

python
1import anthropic
2
3client = anthropic.Anthropic()
4
5# Computer Use destekli mesaj
6response = client.beta.messages.create(
7    model="claude-3-5-sonnet-20241022",
8    max_tokens=4096,
9    tools=[
10        {
11            "type": "computer_20241022",
12            "name": "computer",
13            "display_width_px": 1920,
14            "display_height_px": 1080,
15            "display_number": 1
16        },
17        {
18            "type": "text_editor_20241022",
19            "name": "str_replace_editor"
20        },
21        {
22            "type": "bash_20241022",
23            "name": "bash"
24        }
25    ],
26    messages=[
27        {
28            "role": "user",
29            "content": "Chrome'u aç, GitHub'a git ve yeni bir repository oluştur. "
30                       "Adı 'test-project' olsun, README ile başlat."
31        }
32    ],
33    betas=["computer-use-2024-10-22"]
34)
35
36# Claude ekran görüntüsü isteyecek, aksiyonlar üretecek
37for block in response.content:
38    if block.type == "tool_use":
39        print(f"Araç: {block.name}")
40        print(f"Girdi: {block.input}")
41        # Fare tıklaması: {"action": "click", "coordinate": [500, 300]}
42        # Yazma: {"action": "type", "text": "test-project"}

Docker ile Güvenli Ortam

Anthropic, Computer Use'u güvenli bir şekilde çalıştırmak için Docker tabanlı bir referans ortam sunuyor:

bash
1# Anthropic'in referans Computer Use ortamını çalıştırma
2docker run -d \
3  -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
4  -v $(pwd)/screenshots:/tmp/screenshots \
5  -p 5900:5900 -p 8501:8501 \
6  ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo
7
8# VNC ile bağlanarak Claude'un ekranı nasıl kontrol ettiğini izleyebilirsiniz
9# localhost:5900 (VNC) veya localhost:8501 (Streamlit UI)

Pratik Kullanım Senaryoları

Computer Use henüz beta aşamasında ama potansiyeli büyük:

1. QA ve Test Otomasyonu

python
1# Claude'a web uygulamanızı test ettirme
2messages = [{
3    "role": "user",
4    "content": """
5    localhost:3000 adresindeki web uygulamayı test et:
6    1. Kayıt formunu doldur (test verileri kullan)
7    2. Giriş yap
8    3. Profil sayfasına git
9    4. Profil fotoğrafı yükle
10    5. Her adımda hata olup olmadığını kontrol et
11    6. Sonuçları raporla
12    """
13}]

2. Veri Girişi ve Form Doldurma

Legacy sistemlerde API olmayan uygulamalarda veri girişi otomasyonu. Claude ekranı okuyarak formları doldurabiliyor.

3. Uygulamalar Arası Veri Aktarımı

Bir spreadsheet'ten veri okuyup başka bir uygulamaya kopyalama gibi görevler.

4. Tekrarlayan IT Görevleri

Sistem konfigürasyonları, toplu kullanıcı yönetimi, log analizi gibi rutin görevler.

Sınırlamalar ve Riskler

Anthropic, Computer Use'un hâlâ erken aşamada olduğunu vurguluyor:

Teknik sınırlamalar:

  • Ekran görüntüsü çözünürlüğü sınırlı (hassas tıklamalar zor)
  • Drag & drop işlemleri güvenilir değil
  • Hızlı animasyonları ve video'yu takip edemiyor
  • Bazen yanlış koordinata tıklıyor
  • Scrolling ve dinamik içerik yönetimi sınırlı

Güvenlik riskleri:

  • Claude'a bilgisayar kontrolü vermek, prompt injection saldırılarına kapı açabilir
  • Kötü niyetli bir web sayfası, Claude'u manipüle edebilir
  • Hassas verilere erişim riski
  • Anthropic, Computer Use'un sandbox (izole) ortamlarda kullanılmasını öneriyor

Claude 3.5 Haiku: Hız ve Güç Dengesi

Aynı gün duyurulan Claude 3.5 Haiku, önceki nesil Haiku'dan devasa bir sıçrama:

BenchmarkClaude 3 HaikuClaude 3.5 HaikuClaude 3 Opus
MMLU75.2%84.8%86.8%
HumanEval75.9%88.1%84.9%
MATH38.9%69.2%60.1%

Claude 3.5 Haiku, Claude 3 Opus seviyesinde performans sunuyor—ama Opus'un fiyatının onda birinde ve çok daha hızlı. Bu, gerçek zamanlı uygulamalar (chatbot'lar, otomatik yanıtlama, sınıflandırma) için mükemmel bir seçenek.

AI Ajanlar Dönemi Başlıyor

Computer Use, daha büyük bir trendin parçası: AI ajanları (AI agents). 2024'te birden fazla şirket benzer yetenekler duyurdu:

ŞirketÜrünYaklaşım
AnthropicComputer UseEkran görüntüsü + fare/klavye
GoogleProject MarinerChrome extension, DOM erişimi
MicrosoftCopilot ActionsOffice entegrasyonu
OpenAIOperator (söylenti)Web tarayıcı otomasyonu

Anthropic'in yaklaşımı (ekran görüntüsü tabanlı) en genel amaçlı olanı: API veya DOM erişimi gerektirmeden herhangi bir uygulamayla çalışabilir. Dezavantajı ise daha yavaş ve daha az güvenilir olması.

Sonuç

Claude Computer Use, yapay zekanın "düşünme" aşamasından "yapma" aşamasına geçişinin somut göstergesi. Henüz beta ve sınırlı olsa da, AI ajanlarının bilgisayarlarımızı bizim adımıza kullanacağı bir geleceğin kapılarını açıyor. Güncellenmiş Claude 3.5 Sonnet'in SWE-bench %49 performansı ise modelin kodlama görevlerindeki üstünlüğünü pekiştiriyor.

Claude 3.7 Sonnet'in extended thinking özelliği ile bu yetenekler daha da güçlenecek.

Kaynaklar: Anthropic Computer Use Blog | Computer Use Dokümantasyonu | GitHub Referans İmplementasyon