⚡ Derin Öğrenmeileri⏱ 15 dk

Pekiştirmeli Öğrenme Temelleri

Ajan, çevre, ödül, Q-learning ve RLHF

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

→MDP (Markov Karar Süreci) ve Bellman denklemini kavramak
→Q-Learning algoritmasını iteratif güncellemeyle açıklamak
→RLHF'nin ChatGPT'nin eğitimindeki rolünü anlamak

⏱ 15 dk okuma·ileri

Bir bebeğin yürümeyi öğrendiğini düşün: kimse ona 'bacağını 37 derece kaldır' demez — düşer, kalkar, dener. Pekiştirmeli öğrenme (reinforcement learning) tam da bu: etiket yok, sadece sonuçların verdiği ödül veya ceza sinyali var. AlphaGo'dan ChatGPT'ye, en etkileyici yapay zeka başarıları bu paradigmadan doğdu.

Ajan (agent): Karar veren varlık — oyunu oynayan.

🐕Köpek Eğitimi Metaforu

Köpeğine 'otur' öğretirken her doğru harekette ödül verirsin. Köpek hangi davranışın ödül getirdiğini deneyerek keşfeder. RL'de ajan köpek, eğitmen çevre, mama ise ödül sinyalidir.

RL problemlerinin matematiksel çerçevesi. Markov özelliği: Gelecek sadece mevcut duruma ba…

V(s) = E[Σ γᵗ rₜ | s₀ = s]

Değer fonksiyonu: s durumundan başlayarak beklenen toplam indirgenmiş ödül. γ (gamma) yakın ödüllere öncelik verir — 0.99 sabırlı, 0.9 aceleci ajan.

Q(s,a): s durumunda a eylemini yapmanın uzun vadeli değeri.

Q(s,a) ← Q(s,a) + α[r + γ·max Q(s',a') - Q(s,a)]

TD (Temporal Difference) güncellemesi: mevcut tahmin ile 'bir adım ilerinin tahmini + anlık ödül' arasındaki farkı (TD error) kullanarak öğren.

Basit GridWorld Q-Learning döngüsü

Python

1	import numpy as np
2
3	# 4x4 grid, 4 eylem (yukarı, aşağı, sol, sağ)
4	Q = np.zeros((16, 4))
5	alpha, gamma, episodes = 0.1, 0.99, 1000
6
7	for _ in range(episodes):
8	s = 0 # başlangıç durumu
9	while s != 15: # hedef durum
10	a = np.argmax(Q[s]) if np.random.rand() > 0.1 else np.random.randint(4)
11	s_next, r = step(s, a) # çevre fonksiyonu
12	Q[s, a] += alpha * (r + gamma * np.max(Q[s_next]) - Q[s, a])
13	s = s_next

💡ε-greedy keşif: %90 en iyi eylemi seç, %10 rastgele dene. Keşif-sömürü dengesi RL'nin kalbidir.

Atari oyunlarını piksellerden öğrenen DeepMind algoritması (2015).

Experience Replay

·Deneyimleri tamponda sakla
·Rastgele mini-batch örnekle
·Ardışık korelasyonu kır
·Veri verimliliğini artır

Target Network

·Q-hedefi için ayrı ağ
·Periyodik olarak güncelle
·Hareketli hedef sorununu çöz
·Eğitimi stabilize et

Q-learning değeri öğrenir, eylemi türetir. Policy gradient politikayı doğrudan parametrele…

∇J(θ) = E[∇log πθ(a|s) · Gₜ]

Policy gradient teoremi: ödüllü eylemlerin log-olasılığını artır. Gₜ o adımdan sonraki toplam ödül (return).

⚠️REINFORCE yüksek varyanslıdır — bir oyunda şans eseri yüksek ödül alınca tüm eylemler 'iyi' sayılır. Baseline çıkarma (A2C) ve Actor-Critic yöntemleri bunu azaltır.

Reinforcement Learning from Human Feedback — dil modellerini insan tercihlerine hizalar.

ℹ️RLHF'nin etik boyutu kritiktir: 'insan tercihi' kimin tercihi? Annotator çeşitliliği ve değer hizalama aktif araştırma alanlarıdır. → yapay-zeka-etik

✦ Quiz

Q-Learning neden 'off-policy' olarak adlandırılır?

✦ Quiz

DQN'de Experience Replay'in temel amacı nedir?

✦ Quiz

RLHF'de 'Reward Model' neyi öğrenir?