⚡ Derin Öğrenmeileri⏱ 15 dk

Transformer: Dikkat Her Şeydir

Self-attention, çok başlı dikkat ve pozisyonel kodlama

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

→Self-attention mekanizmasını Q, K, V matrisleriyle anlamak
→Pozisyonel kodlamanın neden gerekli olduğunu açıklamak
→Encoder-Decoder yapısını ve günümüz LLM'lerine bağlantısını kurmak

⏱ 15 dk okuma·ileri

2017'de Vaswani ve ekibi 'Attention is All You Need' başlıklı makaleyle Transformer mimarisini tanıttı. RNN'i tamamen ortadan kaldırarak tüm bağlamı aynı anda işleyebilen bu yapı, modern LLM'lerin temelini oluşturuyor.

Her kelime (token), dizideki tüm diğer kelimelerle ilişkisini hesaplar. 'Ben elma yedim' c…

Attention(Q,K,V) = softmax(QKᵀ / √dₖ) · V

Q ve K matrislerinin nokta çarpımı, tokenlerin birbirine ne kadar 'dikkat etmesi' gerektiğini verir. √dₖ ile ölçeklenir (boyut artınca değerler büyür), softmax olasılığa dönüştürür, V ile ağırlıklı ortalama alınır.

Formül → Kod Karşılığı

Q→querysorgu matrisi [seq, d_k]

K→keyanahtar matrisi [seq, d_k]

V→valuedeğer matrisi [seq, d_v]

√dₖ→math.sqrt(d_k)ölçekleme faktörü

QKᵀ/√dₖ→Q @ K.transpose(-2,-1) / math.sqrt(d_k)attention skorları

softmax(·)·V→F.softmax(..., dim=-1) @ Vağırlıklı ortalama

Tek bir attention kafası, diziyi tek perspektiften inceler. Çok başlı dikkat ile aynı dizi…

Attention mekanizması token sırasını bilmez — tüm tokenleri aynı anda işler. Pozisyonel ko…

ℹ️BERT (2018) sadece encoder kullanır, metin anlama için. GPT serisi sadece decoder kullanır, metin üretimi için. Orijinal Transformer her ikisini birleştiren encoder-decoder mimarisini kullanır.