Ajan, çevre, ödül, Q-learning ve RLHF
Bir bebeğin yürümeyi öğrendiğini düşün: kimse ona 'bacağını 37 derece kaldır' demez — düşer, kalkar, dener. Pekiştirmeli öğrenme (reinforcement learning) tam da bu: etiket yok, sadece sonuçların verdiği ödül veya ceza sinyali var. AlphaGo'dan ChatGPT'ye, en etkileyici yapay zeka başarıları bu paradigmadan doğdu.
**Ajan (agent)**: Karar veren varlık — oyunu oynayan.…
🐕Köpek Eğitimi Metaforu
Köpeğine 'otur' öğretirken her doğru harekette ödül verirsin. Köpek hangi davranışın ödül getirdiğini deneyerek keşfeder. RL'de ajan köpek, eğitmen çevre, mama ise ödül sinyalidir.
RL problemlerinin matematiksel çerçevesi. **Markov özelliği**: Gelecek sadece mevcut durum…
V(s) = E[Σ γᵗ rₜ | s₀ = s]Değer fonksiyonu: s durumundan başlayarak beklenen toplam indirgenmiş ödül. γ (gamma) yakın ödüllere öncelik verir — 0.99 sabırlı, 0.9 aceleci ajan.
**Q(s,a)**: s durumunda a eylemini yapmanın uzun vadeli değeri.…
Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]TD (Temporal Difference) güncellemesi: mevcut tahmin ile 'bir adım ilerinin tahmini + anlık ödül' arasındaki farkı (TD error) kullanarak öğren.
Basit GridWorld Q-Learning döngüsü
| 1 | import numpy as np |
| 2 | |
| 3 | # 4x4 grid, 4 eylem (yukarı, aşağı, sol, sağ) |
| 4 | Q = np.zeros((16, 4)) |
| 5 | alpha, gamma, episodes = 0.1, 0.99, 1000 |
| 6 | |
| 7 | for _ in range(episodes): |
| 8 | s = 0 # başlangıç durumu |
| 9 | while s != 15: # hedef durum |
| 10 | a = np.argmax(Q[s]) if np.random.rand() > 0.1 else np.random.randint(4) |
| 11 | s_next, r = step(s, a) # çevre fonksiyonu |
| 12 | Q[s, a] += alpha * (r + gamma * np.max(Q[s_next]) - Q[s, a]) |
| 13 | s = s_next |
💡ε-greedy keşif: %90 en iyi eylemi seç, %10 rastgele dene. Keşif-sömürü dengesi RL'nin kalbidir.
Atari oyunlarını piksellerden öğrenen DeepMind algoritması (2015).…
Experience Replay
Target Network
Q-learning değeri öğrenir, eylemi türetir. **Policy gradient** politikayı doğrudan paramet…
∇J(θ) = E[∇log πθ(a|s) · Gₜ]Policy gradient teoremi: ödüllü eylemlerin log-olasılığını artır. Gₜ o adımdan sonraki toplam ödül (return).
⚠️REINFORCE yüksek varyanslıdır — bir oyunda şans eseri yüksek ödül alınca tüm eylemler 'iyi' sayılır. Baseline çıkarma (A2C) ve Actor-Critic yöntemleri bunu azaltır.
**Reinforcement Learning from Human Feedback** — dil modellerini insan tercihlerine hizala…
ℹ️RLHF'nin etik boyutu kritiktir: 'insan tercihi' kimin tercihi? Annotator çeşitliliği ve değer hizalama aktif araştırma alanlarıdır. → yapay-zeka-etik
✦ Quiz
Q-Learning neden 'off-policy' olarak adlandırılır?
✦ Quiz
DQN'de Experience Replay'in temel amacı nedir?
✦ Quiz
RLHF'de 'Reward Model' neyi öğrenir?
Bağlantılı Konular