
Google Gemini 2.0 Flash: AI Ajanlar Çağı Resmen Başladı
Google CEO'su Sundar Pichai, 11 Aralık 2024'te Gemini 2.0'ı "Ajanlar Çağı"nı (Agentic Era) başlatan model olarak tanıttı. Gemini 2.0 Flash, 1.5 Pro'dan daha hızlı ve yetenekli olmasının yanı sıra, multimodal çıktı üretebilen ilk Gemini modeli. Artık yapay zeka sadece sorulara yanıt vermiyor—sizin adınıza web'de geziniyor, araştırma yapıyor, form dolduruyor ve karmaşık görevleri tamamlıyor.
Gemini 2.0 Flash: Teknik Detaylar
Gemini 2.0 Flash, 1.5 Flash'ın halefi olarak hız ve verimlilik odaklı tasarlandı:
| Özellik | Gemini 1.5 Flash | Gemini 2.0 Flash |
|---|---|---|
| Bağlam penceresi | 1M token | 1M token |
| Multimodal girdi | Metin, görüntü, ses, video | Metin, görüntü, ses, video |
| Multimodal çıktı | Sadece metin | Metin + görüntü + ses |
| Tool use | Sınırlı | Native (Google Arama, kod) |
| Hız | Hızlı | Daha hızlı |
| MMLU Pro | 67.4% | 73.2% |
| MATH | 72.1% | 83.9% |
| HumanEval | 74.5% | 89.6% |
Multimodal Çıktı: Görüntü ve Ses Üretimi
Gemini 2.0 Flash'ın en yenilikçi özelliği multimodal çıktı: Model sadece metin değil, aynı zamanda görüntü ve ses de üretebiliyor. Bu, tek bir model ile:
- Metin + illüstrasyon kombinasyonu oluşturma
- Podcast tarzında sesli içerik üretme
- Doğal dilde sesli yanıt verme
1import google.generativeai as genai
2
3model = genai.GenerativeModel('gemini-2.0-flash')
4
5# Multimodal çıktı - metin + ses
6response = model.generate_content(
7 "Bu React bileşenindeki performans sorunlarını analiz et"
8 " ve çözüm önerilerini sesli olarak açıkla.",
9 generation_config=genai.GenerationConfig(
10 response_modalities=["TEXT", "AUDIO"]
11 )
12)
13
14# Metin yanıtı
15print(response.text)
16
17# Ses yanıtı (WAV formatında)
18audio_data = response.candidates[0].content.parts[1].inline_data
19with open("explanation.wav", "wb") as f:
20 f.write(audio_data.data)Native Tool Use: Google Arama ve Kod Çalıştırma
Gemini 2.0 Flash, Google Arama ve kod çalıştırma araçlarını native olarak kullanabiliyor:
1model = genai.GenerativeModel(
2 'gemini-2.0-flash',
3 tools=["google_search", "code_execution"]
4)
5
6# Model otomatik olarak Google'da arama yapar
7response = model.generate_content(
8 "Next.js 15'in son sürümünde hangi breaking change'ler var? "
9 "Resmi changelog'u kontrol et."
10)
11# Model Google'da arama yapıp, sonuçları sentezleyerek yanıt verir
12# Kaynakları inline olarak gösterirProject Astra: Gerçek Zamanlı AI Asistan
Google I/O 2024'te tanıtılan Project Astra'nın gelişmiş versiyonu gösterildi. Yeni yetenekler:
- Ekran paylaşımı: Bilgisayar ekranınızı anlayabilen ve üzerinde yorum yapabilen AI
- Video akışı: Kamera veya ekran paylaşımı üzerinden sürekli görsel akış işleme
- Bellek: Önceki konuşmalardan bilgi hatırlama ("Daha önce gösterdiğin kodu düzelt")
- Proaktif öneriler: İstemeden bilgi ve uyarı sunma
Astra, Claude Computer Use ile benzer bir vizyonu paylaşıyor ancak farklı bir teknik yaklaşım kullanıyor: Claude ekran görüntüleri ile çalışırken, Astra sürekli video akışı işleyebiliyor.
Project Mariner: Web'de Otonom AI Ajanı
Project Mariner, Chrome tarayıcıda çalışan bir AI ajanı. Web sayfalarının DOM yapısını ve görsel içeriğini anlayarak:
- Form doldurma: Çevrimiçi formları otomatik doldurma
- E-ticaret: Ürün araştırma, fiyat karşılaştırma, sepete ekleme
- Bilgi toplama: Birden fazla web sayfasından veri derleme
- Navigasyon: Karmaşık web arayüzlerinde gezinme
Mariner'ın Claude Computer Use'dan farkı: Ekran görüntüsü yerine doğrudan Chrome'un DOM yapısına erişiyor. Bu, daha hızlı ve daha güvenilir ama sadece Chrome tarayıcıyla sınırlı.
Deep Research: Otomatik Araştırma Asistanı
Gemini Advanced kullanıcılarına sunulan Deep Research, en etkileyici agentic özelliklerden biri:
- Karmaşık bir araştırma sorusu soruyorsunuz
- Deep Research bir araştırma planı oluşturuyor
- Planı onayladıktan sonra, 5-15 dakika boyunca onlarca web kaynağını araştırıyor
- Bulguları sentezleyerek kapsamlı bir rapor sunuyor
- Her iddia kaynağıyla birlikte gösteriliyor
Örnek kullanım:
"2024'te çıkan reasoning modelleri (o1, DeepSeek-R1, Claude 3.7) arasında karşılaştırmalı analiz yap. Benchmark sonuçlarını, fiyatlandırmayı, API özelliklerini ve pratik kullanım senaryolarını kapsasın."
Deep Research, 5-10 dakikada 20+ kaynağı tarayıp 3.000-5.000 kelimelik detaylı bir rapor üretebiliyor.
Gemini 2.0 Flash Thinking: Experimental Reasoning
Google, OpenAI'ın o1 modelinden ilham alan Gemini 2.0 Flash Thinking deneysel modelini de yayınladı. Bu model, yanıt vermeden önce "düşünme" süreci geçiriyor:
1model = genai.GenerativeModel('gemini-2.0-flash-thinking-exp')
2
3response = model.generate_content(
4 "İki şehir arasında en kısa yolu bulmak için "
5 "Dijkstra algoritmasını A* ile karşılaştır. "
6 "Hangi durumda hangisi tercih edilmeli?"
7)
8
9# Düşünme süreci ve yanıt ayrı ayrı görüntülenir
10for part in response.candidates[0].content.parts:
11 if part.thought:
12 print("[Düşünme]:", part.text)
13 else:
14 print("[Yanıt]:", part.text)AI Ajanlar Yarışı: Karşılaştırma
2024 sonunda AI ajan pazarı hızla şekilleniyor:
| Şirket | Ajan Ürünü | Yaklaşım | Güçlü Yönü |
|---|---|---|---|
| Mariner, Astra | DOM + video akışı | Google ekosistemi | |
| Anthropic | Computer Use | Ekran görüntüsü | Genel amaçlı |
| OpenAI | Operator (gelecek) | Web tarayıcı | ChatGPT kullanıcı tabanı |
| Microsoft | Copilot Actions | Office entegrasyonu | Kurumsal iş akışları |
Sonuç: Gemini 2.0 ve Google'ın AI Stratejisi
Gemini 2.0 Flash, Google'ın AI vizyonunun üç temel direğini somutlaştırıyor:
- Multimodal her şey: Girdi ve çıktı olarak metin, görüntü, ses—hepsi tek modelde
- Agentic AI: Sadece yanıt verme değil, görev tamamlama yeteneği
- Ekosistem entegrasyonu: Arama, Chrome, Workspace—her yerde Gemini
2025'te Google I/O'da duyurulacak Gemini 2.5 ile bu vizyonun daha da somutlaşması bekleniyor.
Kaynaklar: Google Gemini 2.0 Blog | Gemini API Docs | Project Mariner


