React Flow mini map
🧠 ML Temelleribaşlangıç7 dk

Veri ve Özellikler: Ham Veriden Anlam Üretmek

Özellik mühendisliği, normalizasyon ve veri temsili

🎯

30 saniyede özet · Ne öğreneceksin

  • Özellik (feature) kavramını ve vektör temsilini anlamak
  • Normalizasyon ve standardizasyonun farkını açıklamak
  • Kategorik verileri sayısala dönüştürme yöntemlerini bilmek
7 dk okuma·başlangıç

ML modeli ham veriyi anlayamaz. Bir resim, bir metin, bir ses parçası — hepsi önce sayısal bir vektöre dönüştürülmek zorundadır. Bu dönüşümü tasarlamak, bazen modeli tasarlamaktan daha önemlidir.

Her veri noktası bir özellik vektörü x ∈ ℝⁿ ile temsil edilir. Bir ev için: [alan_m2, oda_…

Min-Max Normalizasyon: Tüm değerleri [0, 1] aralığına çeker. Outlier'lara duyarlıdır.

Scikit-learn ile standardizasyon

Python
1from sklearn.preprocessing import StandardScaler
2
3scaler = StandardScaler()
4X_train_scaled = scaler.fit_transform(X_train)
5X_test_scaled = scaler.transform(X_test) # fit değil, sadece transform!

Label Encoding: Her kategoriye bir tamsayı atar (kırmızı=0, mavi=1). Ordinal ilişki yoksa …

⚠️Test verisini fit etme! StandardScaler ve benzer araçlar sadece eğitim verisiyle fit edilmeli, test verisi yalnızca transform edilmelidir. Aksi takdirde veri sızıntısı (data leakage) oluşur.

Daha derinlemesine