Meta Llama 3'ü Açık Kaynak Olarak Yayınladı: AI Demokratikleşiyor

Meta Llama 3'ü Açık Kaynak Olarak Yayınladı: AI Demokratikleşiyor

Meta Llama 3 Nedir? Açık Kaynak Yapay Zekanın Dönüm Noktası

Meta, 18 Nisan 2024'te Llama 3 model ailesini açık kaynak olarak yayınladı ve yapay zeka dünyasında ciddi bir deprem yarattı. 8 milyar (8B) ve 70 milyar (70B) parametre boyutlarında yayınlanan modeller, açık kaynak LLM'ler arasında yeni performans standartları belirledi. Llama 3, açık kaynağın kapalı kaynak modellerle gerçek anlamda rekabet edebildiğini kanıtlayan ilk model ailesi.

Llama 3'ün Teknik Mimarisi

Llama 3, transformer tabanlı bir decoder-only mimarisi kullanıyor. Llama 2'ye göre yapılan temel değişiklikler:

ÖzellikLlama 2Llama 3İyileşme
Tokenizer32K vocab128K vocab4x daha verimli
Eğitim verisi2T token15T+ token7x fazla
Bağlam penceresi4K token8K token2x uzun
GQA (Group Query Attention)Sadece 70BTüm modellerdeVerimlilik artışı
Eğitim GPU2.000 A10024.000+ H10012x ölçek

128K tokenizer: En büyük mimari değişiklik tokenizer boyutu. Llama 2'nin 32K kelimelik sözlüğü 128K'ya çıkarıldı. Bu, özellikle Türkçe gibi aglütinatif (eklemeli) dillerde çok daha verimli tokenization anlamına geliyor. Bir Türkçe cümle, Llama 2'de 40 token tutarken Llama 3'te 25 token tutabiliyor.

Grouped Query Attention (GQA): Llama 2'de sadece 70B modelde kullanılan GQA, Llama 3'te 8B model dahil tüm boyutlarda aktif. Bu teknik, key-value cache boyutunu azaltarak inference sırasında bellek kullanımını düşürüyor ve throughput'u artırıyor.

Eğitim Süreci: 15 Trilyon Token

Llama 3'ün eğitim verisi, Llama 2'nin 7 katından fazla: 15 trilyonun üzerinde token. Bu, internetteki herkese açık metinlerin kapsamlı bir derlemesi. Meta'nın veri kalitesini sağlamak için uyguladığı süreç:

  1. Veri toplama: CommonCrawl başta olmak üzere çeşitli kaynaklardan web verisi
  2. Filtreleme: Heuristic filtreleme, NSFW filtreleme, PII (kişisel bilgi) temizleme
  3. Deduplikasyon: URL, doküman ve satır düzeyinde tekrar eden içeriklerin çıkarılması
  4. Kalite sınıflandırma: Llama 2 kullanılarak düşük kaliteli içeriklerin otomatik filtrelenmesi
  5. Dil dengeleme: İngilizce ağırlıklı ancak 30+ dilde içerik (toplamın ~%5'i İngilizce dışı)

Eğitim, Meta'nın özel olarak geliştirdiği iki NVIDIA H100 GPU kümesinde yapıldı. 24.576 GPU'luk küme, 16K'lık eğitim token dizileri üzerinde çalıştı. Meta bu süreçte yeni bir eğitim verimlilik rekoru kırdı: GPU başına ~400 TFLOPS.

Benchmark Sonuçları

Llama 3 modelleri, kendi boyut sınıflarında açık kaynak rekoru kırdı:

Llama 3 8B vs Rakipler

BenchmarkLlama 3 8BGemma 7BMistral 7B
MMLU68.4%64.3%62.5%
HumanEval62.2%32.3%30.5%
GSM-8K79.6%46.4%52.2%
MATH30.0%24.3%13.1%

8B modelin HumanEval'de %62.2 alması dikkat çekici—bu, 2023'te GPT-3.5'in seviyesine yakın. 8 milyar parametrelik bir modelin bu kadar güçlü kod yazabilmesi, model eğitim kalitesinin ham boyuttan daha önemli olduğunu gösteriyor.

Llama 3 70B vs Kapalı Kaynak Modeller

BenchmarkLlama 3 70BGPT-3.5 TurboClaude 3 SonnetGemini Pro 1.0
MMLU82.0%70.0%79.0%71.8%
HumanEval81.7%70.7%73.0%67.7%
GSM-8K93.0%57.1%92.3%86.5%

70B model, kapalı kaynak modellerin çoğunu geçiyor. Bu, açık kaynak yapay zeka için tarihsel bir an.

Llama 3'ü Çalıştırma: Pratik Rehber

Llama 3'ü yerel ortamda çalıştırmanın birden fazla yolu var:

Ollama ile (En Kolay Yol)

bash
1# Ollama kurulumu sonrası
2ollama pull llama3
3ollama run llama3
4
5# 70B modeli (en az 40GB RAM gerekli)
6ollama pull llama3:70b
7ollama run llama3:70b

Python ile Transformers Kütüphanesi

python
1from transformers import AutoModelForCausalLM, AutoTokenizer
2import torch
3
4model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
5
6tokenizer = AutoTokenizer.from_pretrained(model_id)
7model = AutoModelForCausalLM.from_pretrained(
8    model_id,
9    torch_dtype=torch.bfloat16,
10    device_map="auto"
11)
12
13messages = [
14    {"role": "system", "content": "Sen yardımcı bir asistansın."},
15    {"role": "user", "content": "Python'da async web scraper nasıl yazılır?"}
16]
17
18input_ids = tokenizer.apply_chat_template(
19    messages, add_generation_prompt=True, return_tensors="pt"
20).to(model.device)
21
22outputs = model.generate(
23    input_ids, max_new_tokens=1024,
24    temperature=0.7, top_p=0.9
25)
26
27response = tokenizer.decode(
28    outputs[0][input_ids.shape[-1]:], skip_special_tokens=True
29)
30print(response)

vLLM ile Yüksek Performanslı Serving

python
1from vllm import LLM, SamplingParams
2
3llm = LLM(model="meta-llama/Meta-Llama-3-8B-Instruct")
4params = SamplingParams(temperature=0.7, max_tokens=512)
5
6prompts = [
7    "Django REST Framework ile JWT authentication nasıl yapılır?",
8    "PostgreSQL'de index optimizasyonu rehberi"
9]
10
11outputs = llm.generate(prompts, params)
12for output in outputs:
13    print(output.outputs[0].text)

Donanım Gereksinimleri

ModelFP16 RAMQuantized (4-bit)GPU Önerisi
Llama 3 8B~16GB~5GBRTX 3060 12GB / M1 Mac 16GB
Llama 3 70B~140GB~40GB2x A100 80GB / RTX 4090 (4-bit)

4-bit quantization (GPTQ, AWQ veya GGUF formatları) ile 70B modeli bile tek bir RTX 4090'da çalıştırmak mümkün—kalite kaybı minimal.

Lisans ve Ticari Kullanım

Meta, Llama 3'ü Llama 3 Community License altında yayınladı. Bu lisansın temel kuralları:

  • Ticari kullanım: ✓ Serbest (aylık 700 milyon aktif kullanıcıya kadar)
  • Fine-tuning: ✓ Kendi verilerinizle eğitebilirsiniz
  • Dağıtım: ✓ Ürünlerinize entegre edebilirsiniz
  • Türev model: ✓ Modelden distillation yapabilirsiniz
  • 700M+ kullanıcı: Meta'dan özel lisans gerektirir

700 milyon kullanıcı eşiği dışında neredeyse tamamen serbest bir lisans. Startup'lar ve küçük-orta ölçekli şirketler için ideal.

Açık Kaynak AI Neden Önemli?

Llama 3'ün başarısı, yapay zeka ekosistemi için derin anlamlar taşıyor:

  1. Bağımsızlık: Şirketler, OpenAI veya Google'a bağımlı olmadan kendi AI çözümlerini geliştirebilir
  2. Gizlilik: Verileriniz kendi sunucunuzda kalır, üçüncü taraf API'lara gönderilmez
  3. Maliyet: Yüksek hacimli kullanımda API maliyetlerinin çok altında çalışır
  4. Özelleştirme: Fine-tuning ile sektöre özel modeller oluşturulabilir
  5. Şeffaflık: Model ağırlıkları ve eğitim detayları incelenebilir

Sonuç: Llama 3'ün Yapay Zeka Yarışındaki Yeri

Meta Llama 3, açık kaynak yapay zekanın kapalı kaynak modellere ciddi bir alternatif olduğunu kanıtladı. 8B model, öğrenciler ve bireysel geliştiriciler için erişilebilir bir başlangıç noktası sunarken; 70B model, kurumsal iş yüklerini karşılayabilecek güçte. Meta'nın duyurduğu 405B model (Llama 3.1) ise açık kaynağın sınırlarını daha da zorlayacak.

Kaynaklar: Meta Llama 3 Blog | Llama 3 GitHub | Hugging Face Model Hub