React Flow mini map
Derin Öğrenmeileri15 dk

Pekiştirmeli Öğrenme Temelleri

Ajan, çevre, ödül, Q-learning ve RLHF

Bir bebeğin yürümeyi öğrendiğini düşün: kimse ona 'bacağını 37 derece kaldır' demez — düşer, kalkar, dener. Pekiştirmeli öğrenme (reinforcement learning) tam da bu: etiket yok, sadece sonuçların verdiği ödül veya ceza sinyali var. AlphaGo'dan ChatGPT'ye, en etkileyici yapay zeka başarıları bu paradigmadan doğdu.

**Ajan (agent)**: Karar veren varlık — oyunu oynayan.…

🐕Köpek Eğitimi Metaforu

Köpeğine 'otur' öğretirken her doğru harekette ödül verirsin. Köpek hangi davranışın ödül getirdiğini deneyerek keşfeder. RL'de ajan köpek, eğitmen çevre, mama ise ödül sinyalidir.

RL problemlerinin matematiksel çerçevesi. **Markov özelliği**: Gelecek sadece mevcut durum…

V(s) = E[Σ γᵗ rₜ | s₀ = s]

Değer fonksiyonu: s durumundan başlayarak beklenen toplam indirgenmiş ödül. γ (gamma) yakın ödüllere öncelik verir — 0.99 sabırlı, 0.9 aceleci ajan.

**Q(s,a)**: s durumunda a eylemini yapmanın uzun vadeli değeri.…

Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

TD (Temporal Difference) güncellemesi: mevcut tahmin ile 'bir adım ilerinin tahmini + anlık ödül' arasındaki farkı (TD error) kullanarak öğren.

Basit GridWorld Q-Learning döngüsü

Python
1import numpy as np
2
3# 4x4 grid, 4 eylem (yukarı, aşağı, sol, sağ)
4Q = np.zeros((16, 4))
5alpha, gamma, episodes = 0.1, 0.99, 1000
6
7for _ in range(episodes):
8 s = 0 # başlangıç durumu
9 while s != 15: # hedef durum
10 a = np.argmax(Q[s]) if np.random.rand() > 0.1 else np.random.randint(4)
11 s_next, r = step(s, a) # çevre fonksiyonu
12 Q[s, a] += alpha * (r + gamma * np.max(Q[s_next]) - Q[s, a])
13 s = s_next

💡ε-greedy keşif: %90 en iyi eylemi seç, %10 rastgele dene. Keşif-sömürü dengesi RL'nin kalbidir.

Atari oyunlarını piksellerden öğrenen DeepMind algoritması (2015).…

Experience Replay

  • ·Deneyimleri tamponda sakla
  • ·Rastgele mini-batch örnekle
  • ·Ardışık korelasyonu kır
  • ·Veri verimliliğini artır

Target Network

  • ·Q-hedefi için ayrı ağ
  • ·Periyodik olarak güncelle
  • ·Hareketli hedef sorununu çöz
  • ·Eğitimi stabilize et

Q-learning değeri öğrenir, eylemi türetir. **Policy gradient** politikayı doğrudan paramet…

∇J(θ) = E[∇log πθ(a|s) · Gₜ]

Policy gradient teoremi: ödüllü eylemlerin log-olasılığını artır. Gₜ o adımdan sonraki toplam ödül (return).

⚠️REINFORCE yüksek varyanslıdır — bir oyunda şans eseri yüksek ödül alınca tüm eylemler 'iyi' sayılır. Baseline çıkarma (A2C) ve Actor-Critic yöntemleri bunu azaltır.

**Reinforcement Learning from Human Feedback** — dil modellerini insan tercihlerine hizala…

ℹ️RLHF'nin etik boyutu kritiktir: 'insan tercihi' kimin tercihi? Annotator çeşitliliği ve değer hizalama aktif araştırma alanlarıdır. → yapay-zeka-etik

✦ Quiz

Q-Learning neden 'off-policy' olarak adlandırılır?

✦ Quiz

DQN'de Experience Replay'in temel amacı nedir?

✦ Quiz

RLHF'de 'Reward Model' neyi öğrenir?

Bağlantılı Konular