React Flow mini map
🧠 ML Temelleriileri12 dk

Boyut İndirgeme: PCA ve t-SNE

Boyutun laneti, varyans analizi ve görselleştirme

1000 boyutlu bir uzayda en yakın iki nokta bile şaşırtıcı derecede uzaktır — veri "seyrekleşir" ve örüntüler bulanıklaşır. Boyut indirgeme, bu yüksek boyutlu veriyi 2-3 boyuta sıkıştırarak hem görselleştirmeyi hem de model performansını mümkün kılar.

Boyut arttıkça hacim **üstel** büyür, veri noktaları birbirinden uzaklaşır.…

📦Boş Depo Metaforu

10 metreküplük bir depoya 100 kutu yerleştirdiğinizi düşünün — kutuları bulmak kolay. Aynı 100 kutuyu 10.000 metreküplük bir depoya koyarsanız, aradığınız kutuya ulaşmak zorlaşır. Yüksek boyut = dev, boş depo.

Principal Component Analysis, veriyi **en çok varyansı koruyan** eksenlere yansıtır.…

Σ = (1/n) XᵀX, Σv = λv

Σ kovaryans matrisi, v özvektör (principal component yönü), λ özdeğer (o yöndeki varyans miktarı). PCA bu λ'lara göre en büyükten küçüğe sıralar.

Scikit-learn ile 2D PCA ve varyans oranı

Python
1from sklearn.decomposition import PCA
2from sklearn.datasets import load_iris
3import matplotlib.pyplot as plt
4
5X = load_iris().data # 4 boyut
6pca = PCA(n_components=2)
7X_2d = pca.fit_transform(X)
8
9print(pca.explained_variance_ratio_) # [0.92, 0.05] — ilk 2 bileşen %97
10
11plt.scatter(X_2d[:, 0], X_2d[:, 1], c=load_iris().target)
12plt.xlabel("PC1"); plt.ylabel("PC2")
13plt.show()

Her principal component'in **toplam varyansın yüzde kaçını** açıkladığını gösterir.…

💡Elbow grafiği: Explained variance ratio'yu kümülatif olarak çizin, eğrinin "dirsek" yaptığı nokta optimal bileşen sayısını verir.

t-Distributed Stochastic Neighbor Embedding, yüksek boyuttaki **komşuluk ilişkilerini** dü…

⚠️t-SNE çıktısında kümeler arası mesafe anlamlı değildir! İki küme görsel olarak uzak olsa da gerçekte yakın olabilir. Sadece küme içi yapıyı yorumlayın.

PCA

  • ·Doğrusal dönüşüm
  • ·Küresel varyansı korur
  • ·O(n·d²) — hızlı
  • ·Deterministik sonuç
  • ·Ön işleme ve özellik seçimi için ideal

t-SNE

  • ·Doğrusal olmayan manifold öğrenme
  • ·Yerel komşulukları korur
  • ·O(n²) — yavaş, büyük veri sorunlu
  • ·Stokastik, her çalıştırmada farklı
  • ·Küme görselleştirme için ideal

Uniform Manifold Approximation and Projection, t-SNE'ye benzer sonuçlar üretir ancak **çok…

ℹ️Pratikte sık kullanılan strateji: Önce PCA ile 50 boyuta indirge (gürültüyü azalt), sonra t-SNE/UMAP ile 2D'ye taşı. Bu kombinasyon hem hız hem kalite sağlar.

✦ Quiz

100 boyutlu veri setinde tüm noktalar neden birbirine 'eşit uzaklıkta' görünür?

✦ Quiz

PCA'nın ilk principal component'i neyi maksimize eder?

✦ Quiz

t-SNE çıktısında iki küme arasındaki görsel mesafe neyi gösterir?

Bağlantılı Konular