
Meta Llama 3 Nedir? Açık Kaynak Yapay Zekanın Dönüm Noktası
Meta, 18 Nisan 2024'te Llama 3 model ailesini açık kaynak olarak yayınladı ve yapay zeka dünyasında ciddi bir deprem yarattı. 8 milyar (8B) ve 70 milyar (70B) parametre boyutlarında yayınlanan modeller, açık kaynak LLM'ler arasında yeni performans standartları belirledi. Llama 3, açık kaynağın kapalı kaynak modellerle gerçek anlamda rekabet edebildiğini kanıtlayan ilk model ailesi.
Llama 3'ün Teknik Mimarisi
Llama 3, transformer tabanlı bir decoder-only mimarisi kullanıyor. Llama 2'ye göre yapılan temel değişiklikler:
| Özellik | Llama 2 | Llama 3 | İyileşme |
|---|---|---|---|
| Tokenizer | 32K vocab | 128K vocab | 4x daha verimli |
| Eğitim verisi | 2T token | 15T+ token | 7x fazla |
| Bağlam penceresi | 4K token | 8K token | 2x uzun |
| GQA (Group Query Attention) | Sadece 70B | Tüm modellerde | Verimlilik artışı |
| Eğitim GPU | 2.000 A100 | 24.000+ H100 | 12x ölçek |
128K tokenizer: En büyük mimari değişiklik tokenizer boyutu. Llama 2'nin 32K kelimelik sözlüğü 128K'ya çıkarıldı. Bu, özellikle Türkçe gibi aglütinatif (eklemeli) dillerde çok daha verimli tokenization anlamına geliyor. Bir Türkçe cümle, Llama 2'de 40 token tutarken Llama 3'te 25 token tutabiliyor.
Grouped Query Attention (GQA): Llama 2'de sadece 70B modelde kullanılan GQA, Llama 3'te 8B model dahil tüm boyutlarda aktif. Bu teknik, key-value cache boyutunu azaltarak inference sırasında bellek kullanımını düşürüyor ve throughput'u artırıyor.
Eğitim Süreci: 15 Trilyon Token
Llama 3'ün eğitim verisi, Llama 2'nin 7 katından fazla: 15 trilyonun üzerinde token. Bu, internetteki herkese açık metinlerin kapsamlı bir derlemesi. Meta'nın veri kalitesini sağlamak için uyguladığı süreç:
- Veri toplama: CommonCrawl başta olmak üzere çeşitli kaynaklardan web verisi
- Filtreleme: Heuristic filtreleme, NSFW filtreleme, PII (kişisel bilgi) temizleme
- Deduplikasyon: URL, doküman ve satır düzeyinde tekrar eden içeriklerin çıkarılması
- Kalite sınıflandırma: Llama 2 kullanılarak düşük kaliteli içeriklerin otomatik filtrelenmesi
- Dil dengeleme: İngilizce ağırlıklı ancak 30+ dilde içerik (toplamın ~%5'i İngilizce dışı)
Eğitim, Meta'nın özel olarak geliştirdiği iki NVIDIA H100 GPU kümesinde yapıldı. 24.576 GPU'luk küme, 16K'lık eğitim token dizileri üzerinde çalıştı. Meta bu süreçte yeni bir eğitim verimlilik rekoru kırdı: GPU başına ~400 TFLOPS.
Benchmark Sonuçları
Llama 3 modelleri, kendi boyut sınıflarında açık kaynak rekoru kırdı:
Llama 3 8B vs Rakipler
| Benchmark | Llama 3 8B | Gemma 7B | Mistral 7B |
|---|---|---|---|
| MMLU | 68.4% | 64.3% | 62.5% |
| HumanEval | 62.2% | 32.3% | 30.5% |
| GSM-8K | 79.6% | 46.4% | 52.2% |
| MATH | 30.0% | 24.3% | 13.1% |
8B modelin HumanEval'de %62.2 alması dikkat çekici—bu, 2023'te GPT-3.5'in seviyesine yakın. 8 milyar parametrelik bir modelin bu kadar güçlü kod yazabilmesi, model eğitim kalitesinin ham boyuttan daha önemli olduğunu gösteriyor.
Llama 3 70B vs Kapalı Kaynak Modeller
| Benchmark | Llama 3 70B | GPT-3.5 Turbo | Claude 3 Sonnet | Gemini Pro 1.0 |
|---|---|---|---|---|
| MMLU | 82.0% | 70.0% | 79.0% | 71.8% |
| HumanEval | 81.7% | 70.7% | 73.0% | 67.7% |
| GSM-8K | 93.0% | 57.1% | 92.3% | 86.5% |
70B model, kapalı kaynak modellerin çoğunu geçiyor. Bu, açık kaynak yapay zeka için tarihsel bir an.
Llama 3'ü Çalıştırma: Pratik Rehber
Llama 3'ü yerel ortamda çalıştırmanın birden fazla yolu var:
Ollama ile (En Kolay Yol)
1# Ollama kurulumu sonrası
2ollama pull llama3
3ollama run llama3
4
5# 70B modeli (en az 40GB RAM gerekli)
6ollama pull llama3:70b
7ollama run llama3:70bPython ile Transformers Kütüphanesi
1from transformers import AutoModelForCausalLM, AutoTokenizer
2import torch
3
4model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
5
6tokenizer = AutoTokenizer.from_pretrained(model_id)
7model = AutoModelForCausalLM.from_pretrained(
8 model_id,
9 torch_dtype=torch.bfloat16,
10 device_map="auto"
11)
12
13messages = [
14 {"role": "system", "content": "Sen yardımcı bir asistansın."},
15 {"role": "user", "content": "Python'da async web scraper nasıl yazılır?"}
16]
17
18input_ids = tokenizer.apply_chat_template(
19 messages, add_generation_prompt=True, return_tensors="pt"
20).to(model.device)
21
22outputs = model.generate(
23 input_ids, max_new_tokens=1024,
24 temperature=0.7, top_p=0.9
25)
26
27response = tokenizer.decode(
28 outputs[0][input_ids.shape[-1]:], skip_special_tokens=True
29)
30print(response)vLLM ile Yüksek Performanslı Serving
1from vllm import LLM, SamplingParams
2
3llm = LLM(model="meta-llama/Meta-Llama-3-8B-Instruct")
4params = SamplingParams(temperature=0.7, max_tokens=512)
5
6prompts = [
7 "Django REST Framework ile JWT authentication nasıl yapılır?",
8 "PostgreSQL'de index optimizasyonu rehberi"
9]
10
11outputs = llm.generate(prompts, params)
12for output in outputs:
13 print(output.outputs[0].text)Donanım Gereksinimleri
| Model | FP16 RAM | Quantized (4-bit) | GPU Önerisi |
|---|---|---|---|
| Llama 3 8B | ~16GB | ~5GB | RTX 3060 12GB / M1 Mac 16GB |
| Llama 3 70B | ~140GB | ~40GB | 2x A100 80GB / RTX 4090 (4-bit) |
4-bit quantization (GPTQ, AWQ veya GGUF formatları) ile 70B modeli bile tek bir RTX 4090'da çalıştırmak mümkün—kalite kaybı minimal.
Lisans ve Ticari Kullanım
Meta, Llama 3'ü Llama 3 Community License altında yayınladı. Bu lisansın temel kuralları:
- Ticari kullanım: ✓ Serbest (aylık 700 milyon aktif kullanıcıya kadar)
- Fine-tuning: ✓ Kendi verilerinizle eğitebilirsiniz
- Dağıtım: ✓ Ürünlerinize entegre edebilirsiniz
- Türev model: ✓ Modelden distillation yapabilirsiniz
- 700M+ kullanıcı: Meta'dan özel lisans gerektirir
700 milyon kullanıcı eşiği dışında neredeyse tamamen serbest bir lisans. Startup'lar ve küçük-orta ölçekli şirketler için ideal.
Açık Kaynak AI Neden Önemli?
Llama 3'ün başarısı, yapay zeka ekosistemi için derin anlamlar taşıyor:
- Bağımsızlık: Şirketler, OpenAI veya Google'a bağımlı olmadan kendi AI çözümlerini geliştirebilir
- Gizlilik: Verileriniz kendi sunucunuzda kalır, üçüncü taraf API'lara gönderilmez
- Maliyet: Yüksek hacimli kullanımda API maliyetlerinin çok altında çalışır
- Özelleştirme: Fine-tuning ile sektöre özel modeller oluşturulabilir
- Şeffaflık: Model ağırlıkları ve eğitim detayları incelenebilir
Sonuç: Llama 3'ün Yapay Zeka Yarışındaki Yeri
Meta Llama 3, açık kaynak yapay zekanın kapalı kaynak modellere ciddi bir alternatif olduğunu kanıtladı. 8B model, öğrenciler ve bireysel geliştiriciler için erişilebilir bir başlangıç noktası sunarken; 70B model, kurumsal iş yüklerini karşılayabilecek güçte. Meta'nın duyurduğu 405B model (Llama 3.1) ise açık kaynağın sınırlarını daha da zorlayacak.
Kaynaklar: Meta Llama 3 Blog | Llama 3 GitHub | Hugging Face Model Hub


