Öğrenme hızı, momentum ve optimizasyon algoritmaları
Gradyen azalma, kayıp fonksiyonunu minimize etmek için parametreleri adım adım güncelleyen temel optimizasyon algoritmasıdır. Tüm derin öğrenme sistemi bu basit güncelleme kuralının üzerine inşa edilmiştir.
Sisi olan bir dağda gözleriniz kapalı. Her adımda ayaklarınızın altındaki eğimi hissediyor…
w ← w - η · ∇L(w)Parametre güncelleme kuralı: w mevcut parametre, η öğrenme hızı, ∇L(w) kayıp fonksiyonunun gradyanıdır. Gradyan, kayıp fonksiyonunun en hızlı arttığı yönü gösterir; biz tersi yönde adım atarız.
**Çok küçük η:** Yavaş yakınsama, çok uzun eğitim.…
⚡ İnteraktif Playground
Batch GD
Mini-batch SGD
💡Adam optimizer, adaptif öğrenme hızı kullanarak hem momentum hem de RMSProp fikirlerini birleştirir. Pratikte çoğu derin öğrenme modelinde SGD'ye tercih edilir.
Bağlantılı Konular