Grid search, random search ve Bayesian optimizasyon
Bir şef düşün: malzemeler (veri) ve tarif (model) aynı olsa bile, fırın sıcaklığı ve pişirme süresi yemeğin tadını belirler. İşte hiperparametreler modelin bu 'pişirme ayarları' — doğru kombinasyonu bulmak, sıradan bir modeli şampiyona dönüştürebilir.
**Parametre**: Modelin eğitim sırasında veriden öğrendiği değerler — ağırlıklar, bias'lar.…
Parametre
Hiperparametre
Her hiperparametre için bir değer listesi belirle, tüm olası kombinasyonları sistematik ol…
Arama uzayından rastgele kombinasyonlar örnekle. Bergstra & Bengio (2012) araştırması göst…
🗺️Hazine Avı Metaforu
Grid Search: Adayı 10×10 karelere böl, her kareyi kaz. Random Search: Rastgele 50 nokta seç, oraları kaz. Hazine dar bir bölgedeyse, rastgele aramada o bölgeye denk gelme şansın daha yüksek!
Geçmiş denemelerin sonuçlarını kullanarak **bir sonraki denemeyi zekice seç**. Bir 'surrog…
💡Optuna, Hyperopt, Weights & Biases Sweeps gibi araçlar Bayesian optimizasyonu otomatikleştirir. Özellikle pahalı eğitimlerde (derin öğrenme) tercih edilir.
Hiperparametre seçiminde **veri sızıntısı** tehlikesi var: test setine göre ayar yaparsan,…
⚠️Test setini hiperparametre seçiminde ASLA kullanma! Validation seti veya cross-validation kullan, test seti sadece final rapor için.
Scikit-learn GridSearchCV ile 5-fold CV örneği
| 1 | from sklearn.model_selection import GridSearchCV |
| 2 | from sklearn.svm import SVC |
| 3 | |
| 4 | # Arama uzayını tanımla |
| 5 | param_grid = { |
| 6 | 'C': [0.1, 1, 10], |
| 7 | 'kernel': ['rbf', 'linear'], |
| 8 | 'gamma': ['scale', 'auto'] |
| 9 | } |
| 10 | |
| 11 | # GridSearchCV: 5-fold cross-validation |
| 12 | grid_search = GridSearchCV( |
| 13 | SVC(), param_grid, cv=5, scoring='accuracy' |
| 14 | ) |
| 15 | grid_search.fit(X_train, y_train) |
| 16 | |
| 17 | print(f"En iyi parametreler: {grid_search.best_params_}") |
| 18 | print(f"En iyi CV skoru: {grid_search.best_score_:.3f}") |
Sabit öğrenme oranı yerine eğitim boyunca değiştir:…
η(t) = η_min + ½(η_max - η_min)(1 + cos(πt/T))Cosine annealing formülü: t anındaki öğrenme oranı, maksimumdan minimuma kosinüs eğrisiyle iner. T toplam epoch sayısı.
ℹ️Modern derin öğrenme pratiğinde warm-up + cosine annealing kombinasyonu standart haline geldi. İlk epoch'larda düşük LR ile başlayıp, sonra cosine decay uygulanır.
✦ Quiz
Aşağıdakilerden hangisi bir HİPERPARAMETRE değildir?
✦ Quiz
Random Search'ün Grid Search'e göre avantajı nedir?
✦ Quiz
Nested CV'de iç döngünün görevi nedir?
Bağlantılı Konular