React Flow mini map
Derin Öğrenmeileri15 dk

Transformer: Dikkat Her Şeydir

Self-attention, çok başlı dikkat ve pozisyonel kodlama

2017'de Vaswani ve ekibi 'Attention is All You Need' başlıklı makaleyle Transformer mimarisini tanıttı. RNN'i tamamen ortadan kaldırarak tüm bağlamı aynı anda işleyebilen bu yapı, modern LLM'lerin temelini oluşturuyor.

Her kelime (token), dizideki tüm diğer kelimelerle ilişkisini hesaplar. 'Ben elma yedim' c…

Attention(Q,K,V) = softmax(QKᵀ / √dₖ) · V

Q ve K matrislerinin nokta çarpımı, tokenlerin birbirine ne kadar 'dikkat etmesi' gerektiğini verir. √dₖ ile ölçeklenir (boyut artınca değerler büyür), softmax olasılığa dönüştürür, V ile ağırlıklı ortalama alınır.

Tek bir attention kafası, diziyi tek perspektiften inceler. Çok başlı dikkat ile aynı dizi…

Attention mekanizması token sırasını bilmez — tüm tokenleri aynı anda işler. Pozisyonel ko…

ℹ️BERT (2018) sadece encoder kullanır, metin anlama için. GPT serisi sadece decoder kullanır, metin üretimi için. Orijinal Transformer her ikisini birleştiren encoder-decoder mimarisini kullanır.

Bağlantılı Konular