Meta Llama 3 Açık Kaynak AI Modeli: Kurulum ve Karşılaştırma

Meta Llama 3 Nedir? Açık Kaynak Yapay Zekanın Dönüm Noktası

Meta, 18 Nisan 2024'te Llama 3 model ailesini açık kaynak olarak yayınladı ve yapay zeka dünyasında ciddi bir deprem yarattı. 8 milyar (8B) ve 70 milyar (70B) parametre boyutlarında yayınlanan modeller, açık kaynak LLM'ler arasında yeni performans standartları belirledi. Llama 3, açık kaynağın kapalı kaynak modellerle gerçek anlamda rekabet edebildiğini kanıtlayan ilk model ailesi.

Llama 3'ün Teknik Mimarisi

Llama 3, transformer tabanlı bir decoder-only mimarisi kullanıyor. Llama 2'ye göre yapılan temel değişiklikler:

Özellik	Llama 2	Llama 3	İyileşme
Tokenizer	32K vocab	128K vocab	4x daha verimli
Eğitim verisi	2T token	15T+ token	7x fazla
Bağlam penceresi	4K token	8K token	2x uzun
GQA (Group Query Attention)	Sadece 70B	Tüm modellerde	Verimlilik artışı
Eğitim GPU	2.000 A100	24.000+ H100	12x ölçek

128K tokenizer: En büyük mimari değişiklik tokenizer boyutu. Llama 2'nin 32K kelimelik sözlüğü 128K'ya çıkarıldı. Bu, özellikle Türkçe gibi aglütinatif (eklemeli) dillerde çok daha verimli tokenization anlamına geliyor. Bir Türkçe cümle, Llama 2'de 40 token tutarken Llama 3'te 25 token tutabiliyor.

Grouped Query Attention (GQA): Llama 2'de sadece 70B modelde kullanılan GQA, Llama 3'te 8B model dahil tüm boyutlarda aktif. Bu teknik, key-value cache boyutunu azaltarak inference sırasında bellek kullanımını düşürüyor ve throughput'u artırıyor.

Eğitim Süreci: 15 Trilyon Token

Llama 3'ün eğitim verisi, Llama 2'nin 7 katından fazla: 15 trilyonun üzerinde token. Bu, internetteki herkese açık metinlerin kapsamlı bir derlemesi. Meta'nın veri kalitesini sağlamak için uyguladığı süreç:

Veri toplama: CommonCrawl başta olmak üzere çeşitli kaynaklardan web verisi
Filtreleme: Heuristic filtreleme, NSFW filtreleme, PII (kişisel bilgi) temizleme
Deduplikasyon: URL, doküman ve satır düzeyinde tekrar eden içeriklerin çıkarılması
Kalite sınıflandırma: Llama 2 kullanılarak düşük kaliteli içeriklerin otomatik filtrelenmesi
Dil dengeleme: İngilizce ağırlıklı ancak 30+ dilde içerik (toplamın ~%5'i İngilizce dışı)

Eğitim, Meta'nın özel olarak geliştirdiği iki NVIDIA H100 GPU kümesinde yapıldı. 24.576 GPU'luk küme, 16K'lık eğitim token dizileri üzerinde çalıştı. Meta bu süreçte yeni bir eğitim verimlilik rekoru kırdı: GPU başına ~400 TFLOPS.

Benchmark Sonuçları

Llama 3 modelleri, kendi boyut sınıflarında açık kaynak rekoru kırdı:

Llama 3 8B vs Rakipler

Benchmark	Llama 3 8B	Gemma 7B	Mistral 7B
MMLU	68.4%	64.3%	62.5%
HumanEval	62.2%	32.3%	30.5%
GSM-8K	79.6%	46.4%	52.2%
MATH	30.0%	24.3%	13.1%

8B modelin HumanEval'de %62.2 alması dikkat çekici—bu, 2023'te GPT-3.5'in seviyesine yakın. 8 milyar parametrelik bir modelin bu kadar güçlü kod yazabilmesi, model eğitim kalitesinin ham boyuttan daha önemli olduğunu gösteriyor.

Llama 3 70B vs Kapalı Kaynak Modeller

Benchmark	Llama 3 70B	GPT-3.5 Turbo	Claude 3 Sonnet	Gemini Pro 1.0
MMLU	82.0%	70.0%	79.0%	71.8%
HumanEval	81.7%	70.7%	73.0%	67.7%
GSM-8K	93.0%	57.1%	92.3%	86.5%

70B model, kapalı kaynak modellerin çoğunu geçiyor. Bu, açık kaynak yapay zeka için tarihsel bir an.

Llama 3'ü Çalıştırma: Pratik Rehber

Llama 3'ü yerel ortamda çalıştırmanın birden fazla yolu var:

Ollama ile (En Kolay Yol)

bash
# Ollama kurulumu sonrası
ollama pull llama3
ollama run llama3

# 70B modeli (en az 40GB RAM gerekli)
ollama pull llama3:70b
ollama run llama3:70b

Python ile Transformers Kütüphanesi

python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

messages = [
    {"role": "system", "content": "Sen yardımcı bir asistansın."},
    {"role": "user", "content": "Python'da async web scraper nasıl yazılır?"}
]

input_ids = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)

outputs = model.generate(
    input_ids, max_new_tokens=1024,
    temperature=0.7, top_p=0.9
)

response = tokenizer.decode(
    outputs[0][input_ids.shape[-1]:], skip_special_tokens=True
)
print(response)

vLLM ile Yüksek Performanslı Serving

python
from vllm import LLM, SamplingParams

llm = LLM(model="meta-llama/Meta-Llama-3-8B-Instruct")
params = SamplingParams(temperature=0.7, max_tokens=512)

prompts = [
    "Django REST Framework ile JWT authentication nasıl yapılır?",
    "PostgreSQL'de index optimizasyonu rehberi"
]

outputs = llm.generate(prompts, params)
for output in outputs:
    print(output.outputs[0].text)

Donanım Gereksinimleri

Model	FP16 RAM	Quantized (4-bit)	GPU Önerisi
Llama 3 8B	~16GB	~5GB	RTX 3060 12GB / M1 Mac 16GB
Llama 3 70B	~140GB	~40GB	2x A100 80GB / RTX 4090 (4-bit)

4-bit quantization (GPTQ, AWQ veya GGUF formatları) ile 70B modeli bile tek bir RTX 4090'da çalıştırmak mümkün—kalite kaybı minimal.

Lisans ve Ticari Kullanım

Meta, Llama 3'ü Llama 3 Community License altında yayınladı. Bu lisansın temel kuralları:

Ticari kullanım: ✓ Serbest (aylık 700 milyon aktif kullanıcıya kadar)
Fine-tuning: ✓ Kendi verilerinizle eğitebilirsiniz
Dağıtım: ✓ Ürünlerinize entegre edebilirsiniz
Türev model: ✓ Modelden distillation yapabilirsiniz
700M+ kullanıcı: Meta'dan özel lisans gerektirir

700 milyon kullanıcı eşiği dışında neredeyse tamamen serbest bir lisans. Startup'lar ve küçük-orta ölçekli şirketler için ideal.

Açık Kaynak AI Neden Önemli?

Llama 3'ün başarısı, yapay zeka ekosistemi için derin anlamlar taşıyor:

Bağımsızlık: Şirketler, OpenAI veya Google'a bağımlı olmadan kendi AI çözümlerini geliştirebilir
Gizlilik: Verileriniz kendi sunucunuzda kalır, üçüncü taraf API'lara gönderilmez
Maliyet: Yüksek hacimli kullanımda API maliyetlerinin çok altında çalışır
Özelleştirme: Fine-tuning ile sektöre özel modeller oluşturulabilir
Şeffaflık: Model ağırlıkları ve eğitim detayları incelenebilir

Sonuç: Llama 3'ün Yapay Zeka Yarışındaki Yeri

Meta Llama 3, açık kaynak yapay zekanın kapalı kaynak modellere ciddi bir alternatif olduğunu kanıtladı. 8B model, öğrenciler ve bireysel geliştiriciler için erişilebilir bir başlangıç noktası sunarken; 70B model, kurumsal iş yüklerini karşılayabilecek güçte. Meta'nın duyurduğu 405B model (Llama 3.1) ise açık kaynağın sınırlarını daha da zorlayacak.

Kaynaklar: Meta Llama 3 Blog | Llama 3 GitHub | Hugging Face Model Hub

Meta Llama 3'ü Açık Kaynak Olarak Yayınladı: AI Demokratikleşiyor

Meta Llama 3 Nedir? Açık Kaynak Yapay Zekanın Dönüm Noktası

Llama 3'ün Teknik Mimarisi

Eğitim Süreci: 15 Trilyon Token

Benchmark Sonuçları

Llama 3 8B vs Rakipler

Llama 3 70B vs Kapalı Kaynak Modeller

Llama 3'ü Çalıştırma: Pratik Rehber

Ollama ile (En Kolay Yol)

Python ile Transformers Kütüphanesi

vLLM ile Yüksek Performanslı Serving

Donanım Gereksinimleri

Lisans ve Ticari Kullanım

Açık Kaynak AI Neden Önemli?

Sonuç: Llama 3'ün Yapay Zeka Yarışındaki Yeri

Bir Sonraki Adımı Birlikte Atalım

Meta Llama 3'ü Açık Kaynak Olarak Yayınladı: AI Demokratikleşiyor

Meta Llama 3 Nedir? Açık Kaynak Yapay Zekanın Dönüm Noktası

Llama 3'ün Teknik Mimarisi

Eğitim Süreci: 15 Trilyon Token

Benchmark Sonuçları

Llama 3 8B vs Rakipler

Llama 3 70B vs Kapalı Kaynak Modeller

Llama 3'ü Çalıştırma: Pratik Rehber

Ollama ile (En Kolay Yol)

Python ile Transformers Kütüphanesi

vLLM ile Yüksek Performanslı Serving

Donanım Gereksinimleri

Lisans ve Ticari Kullanım

Açık Kaynak AI Neden Önemli?

Sonuç: Llama 3'ün Yapay Zeka Yarışındaki Yeri

İlgili Yazılar

MCP Nedir ve AI Entegrasyonunu Nasıl Değiştiriyor

TanStack DB ile Frontend Veri Yönetimi Nasıl Değişiyor

İran Savaşı Yapay Zekalı Savaşın İlk Gerçek Sınavı Oldu

Bir Sonraki Adımı Birlikte Atalım