Özellik mühendisliği, normalizasyon ve veri temsili
30 saniyede özet · Ne öğreneceksin
ML modeli ham veriyi anlayamaz. Bir resim, bir metin, bir ses parçası — hepsi önce sayısal bir vektöre dönüştürülmek zorundadır. Bu dönüşümü tasarlamak, bazen modeli tasarlamaktan daha önemlidir.
Her veri noktası bir özellik vektörü x ∈ ℝⁿ ile temsil edilir. Bir ev için: [alan_m2, oda_…
Min-Max Normalizasyon: Tüm değerleri [0, 1] aralığına çeker. Outlier'lara duyarlıdır.
Scikit-learn ile standardizasyon
| 1 | from sklearn.preprocessing import StandardScaler |
| 2 | |
| 3 | scaler = StandardScaler() |
| 4 | X_train_scaled = scaler.fit_transform(X_train) |
| 5 | X_test_scaled = scaler.transform(X_test) # fit değil, sadece transform! |
Label Encoding: Her kategoriye bir tamsayı atar (kırmızı=0, mavi=1). Ordinal ilişki yoksa …
⚠️Test verisini fit etme! StandardScaler ve benzer araçlar sadece eğitim verisiyle fit edilmeli, test verisi yalnızca transform edilmelidir. Aksi takdirde veri sızıntısı (data leakage) oluşur.
Daha derinlemesine