
Claude Computer Use Nedir? Yapay Zeka Bilgisayar Kullanmayı Öğrendi
Anthropic, 22 Ekim 2024'te iki büyük duyuru yaptı: Güncellenmiş Claude 3.5 Sonnet ve yapay zeka tarihinde çığır açan Computer Use özelliği. Computer Use ile Claude, ekran görüntülerini yorumlayarak fare tıklamaları, klavye girişleri ve web tarayıcısı navigasyonu yapabiliyor. Bu, AI ajanlarının bilgisayarınızı sizin gibi kullanabilmesinin ilk adımı.
Güncellenmiş Claude 3.5 Sonnet: Kodlamada Yeni Rekor
Yeni Claude 3.5 Sonnet (model ID: claude-3-5-sonnet-20241022), Haziran versiyonuna göre kodlama görevlerinde ciddi iyileşme gösteriyor:
| Benchmark | Haziran 2024 | Ekim 2024 | İyileşme |
|---|---|---|---|
| SWE-bench Verified | 33.4% | 49.0% | +15.6 puan |
| TAU-bench (ajan) | 62.6% | 69.2% | +6.6 puan |
| HumanEval | 92.0% | 93.7% | +1.7 puan |
SWE-bench Verified %49, gerçek GitHub issue'larını çözmede sektör lideri. Bu, modelin gerçek dünya yazılım mühendisliği görevlerinde—bug fix, feature implementation, refactoring—ne kadar yetenekli olduğunu gösteriyor.
Computer Use: Nasıl Çalışıyor?
Computer Use, Claude'un bilgisayar ekranını "görmesini" ve etkileşime girmesini sağlayan bir API özelliği. Teknik akış:
11. Claude'a bir görev verilir:
2 "GitHub'da yeni bir repo oluştur, README.md ekle"
3
42. Claude ekran görüntüsünü alır (screenshot)
5 ↓
63. Görüntüyü analiz eder: "Bu bir masaüstü ekranı,
7 sağ üstte Chrome tarayıcı simgesi görüyorum"
8 ↓
94. Aksiyon belirler: "Chrome'u açmam gerekiyor"
10 ↓
115. Fare koordinatlarını hesaplar: (1250, 35)
12 ↓
136. Tıklama/yazma komutu gönderir
14 ↓
157. Yeni ekran görüntüsü alır → döngü devam ederAPI ile Computer Use Kullanımı
1import anthropic
2
3client = anthropic.Anthropic()
4
5# Computer Use destekli mesaj
6response = client.beta.messages.create(
7 model="claude-3-5-sonnet-20241022",
8 max_tokens=4096,
9 tools=[
10 {
11 "type": "computer_20241022",
12 "name": "computer",
13 "display_width_px": 1920,
14 "display_height_px": 1080,
15 "display_number": 1
16 },
17 {
18 "type": "text_editor_20241022",
19 "name": "str_replace_editor"
20 },
21 {
22 "type": "bash_20241022",
23 "name": "bash"
24 }
25 ],
26 messages=[
27 {
28 "role": "user",
29 "content": "Chrome'u aç, GitHub'a git ve yeni bir repository oluştur. "
30 "Adı 'test-project' olsun, README ile başlat."
31 }
32 ],
33 betas=["computer-use-2024-10-22"]
34)
35
36# Claude ekran görüntüsü isteyecek, aksiyonlar üretecek
37for block in response.content:
38 if block.type == "tool_use":
39 print(f"Araç: {block.name}")
40 print(f"Girdi: {block.input}")
41 # Fare tıklaması: {"action": "click", "coordinate": [500, 300]}
42 # Yazma: {"action": "type", "text": "test-project"}Docker ile Güvenli Ortam
Anthropic, Computer Use'u güvenli bir şekilde çalıştırmak için Docker tabanlı bir referans ortam sunuyor:
1# Anthropic'in referans Computer Use ortamını çalıştırma
2docker run -d \
3 -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
4 -v $(pwd)/screenshots:/tmp/screenshots \
5 -p 5900:5900 -p 8501:8501 \
6 ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo
7
8# VNC ile bağlanarak Claude'un ekranı nasıl kontrol ettiğini izleyebilirsiniz
9# localhost:5900 (VNC) veya localhost:8501 (Streamlit UI)Pratik Kullanım Senaryoları
Computer Use henüz beta aşamasında ama potansiyeli büyük:
1. QA ve Test Otomasyonu
1# Claude'a web uygulamanızı test ettirme
2messages = [{
3 "role": "user",
4 "content": """
5 localhost:3000 adresindeki web uygulamayı test et:
6 1. Kayıt formunu doldur (test verileri kullan)
7 2. Giriş yap
8 3. Profil sayfasına git
9 4. Profil fotoğrafı yükle
10 5. Her adımda hata olup olmadığını kontrol et
11 6. Sonuçları raporla
12 """
13}]2. Veri Girişi ve Form Doldurma
Legacy sistemlerde API olmayan uygulamalarda veri girişi otomasyonu. Claude ekranı okuyarak formları doldurabiliyor.
3. Uygulamalar Arası Veri Aktarımı
Bir spreadsheet'ten veri okuyup başka bir uygulamaya kopyalama gibi görevler.
4. Tekrarlayan IT Görevleri
Sistem konfigürasyonları, toplu kullanıcı yönetimi, log analizi gibi rutin görevler.
Sınırlamalar ve Riskler
Anthropic, Computer Use'un hâlâ erken aşamada olduğunu vurguluyor:
Teknik sınırlamalar:
- Ekran görüntüsü çözünürlüğü sınırlı (hassas tıklamalar zor)
- Drag & drop işlemleri güvenilir değil
- Hızlı animasyonları ve video'yu takip edemiyor
- Bazen yanlış koordinata tıklıyor
- Scrolling ve dinamik içerik yönetimi sınırlı
Güvenlik riskleri:
- Claude'a bilgisayar kontrolü vermek, prompt injection saldırılarına kapı açabilir
- Kötü niyetli bir web sayfası, Claude'u manipüle edebilir
- Hassas verilere erişim riski
- Anthropic, Computer Use'un sandbox (izole) ortamlarda kullanılmasını öneriyor
Claude 3.5 Haiku: Hız ve Güç Dengesi
Aynı gün duyurulan Claude 3.5 Haiku, önceki nesil Haiku'dan devasa bir sıçrama:
| Benchmark | Claude 3 Haiku | Claude 3.5 Haiku | Claude 3 Opus |
|---|---|---|---|
| MMLU | 75.2% | 84.8% | 86.8% |
| HumanEval | 75.9% | 88.1% | 84.9% |
| MATH | 38.9% | 69.2% | 60.1% |
Claude 3.5 Haiku, Claude 3 Opus seviyesinde performans sunuyor—ama Opus'un fiyatının onda birinde ve çok daha hızlı. Bu, gerçek zamanlı uygulamalar (chatbot'lar, otomatik yanıtlama, sınıflandırma) için mükemmel bir seçenek.
AI Ajanlar Dönemi Başlıyor
Computer Use, daha büyük bir trendin parçası: AI ajanları (AI agents). 2024'te birden fazla şirket benzer yetenekler duyurdu:
| Şirket | Ürün | Yaklaşım |
|---|---|---|
| Anthropic | Computer Use | Ekran görüntüsü + fare/klavye |
| Project Mariner | Chrome extension, DOM erişimi | |
| Microsoft | Copilot Actions | Office entegrasyonu |
| OpenAI | Operator (söylenti) | Web tarayıcı otomasyonu |
Anthropic'in yaklaşımı (ekran görüntüsü tabanlı) en genel amaçlı olanı: API veya DOM erişimi gerektirmeden herhangi bir uygulamayla çalışabilir. Dezavantajı ise daha yavaş ve daha az güvenilir olması.
Sonuç
Claude Computer Use, yapay zekanın "düşünme" aşamasından "yapma" aşamasına geçişinin somut göstergesi. Henüz beta ve sınırlı olsa da, AI ajanlarının bilgisayarlarımızı bizim adımıza kullanacağı bir geleceğin kapılarını açıyor. Güncellenmiş Claude 3.5 Sonnet'in SWE-bench %49 performansı ise modelin kodlama görevlerindeki üstünlüğünü pekiştiriyor.
Claude 3.7 Sonnet'in extended thinking özelliği ile bu yetenekler daha da güçlenecek.
Kaynaklar: Anthropic Computer Use Blog | Computer Use Dokümantasyonu | GitHub Referans İmplementasyon


