Boyutun laneti, varyans analizi ve görselleştirme
1000 boyutlu bir uzayda en yakın iki nokta bile şaşırtıcı derecede uzaktır — veri "seyrekleşir" ve örüntüler bulanıklaşır. Boyut indirgeme, bu yüksek boyutlu veriyi 2-3 boyuta sıkıştırarak hem görselleştirmeyi hem de model performansını mümkün kılar.
Boyut arttıkça hacim **üstel** büyür, veri noktaları birbirinden uzaklaşır.…
📦Boş Depo Metaforu
10 metreküplük bir depoya 100 kutu yerleştirdiğinizi düşünün — kutuları bulmak kolay. Aynı 100 kutuyu 10.000 metreküplük bir depoya koyarsanız, aradığınız kutuya ulaşmak zorlaşır. Yüksek boyut = dev, boş depo.
Principal Component Analysis, veriyi **en çok varyansı koruyan** eksenlere yansıtır.…
Σ = (1/n) XᵀX, Σv = λvΣ kovaryans matrisi, v özvektör (principal component yönü), λ özdeğer (o yöndeki varyans miktarı). PCA bu λ'lara göre en büyükten küçüğe sıralar.
Scikit-learn ile 2D PCA ve varyans oranı
| 1 | from sklearn.decomposition import PCA |
| 2 | from sklearn.datasets import load_iris |
| 3 | import matplotlib.pyplot as plt |
| 4 | |
| 5 | X = load_iris().data # 4 boyut |
| 6 | pca = PCA(n_components=2) |
| 7 | X_2d = pca.fit_transform(X) |
| 8 | |
| 9 | print(pca.explained_variance_ratio_) # [0.92, 0.05] — ilk 2 bileşen %97 |
| 10 | |
| 11 | plt.scatter(X_2d[:, 0], X_2d[:, 1], c=load_iris().target) |
| 12 | plt.xlabel("PC1"); plt.ylabel("PC2") |
| 13 | plt.show() |
Her principal component'in **toplam varyansın yüzde kaçını** açıkladığını gösterir.…
💡Elbow grafiği: Explained variance ratio'yu kümülatif olarak çizin, eğrinin "dirsek" yaptığı nokta optimal bileşen sayısını verir.
t-Distributed Stochastic Neighbor Embedding, yüksek boyuttaki **komşuluk ilişkilerini** dü…
⚠️t-SNE çıktısında kümeler arası mesafe anlamlı değildir! İki küme görsel olarak uzak olsa da gerçekte yakın olabilir. Sadece küme içi yapıyı yorumlayın.
PCA
t-SNE
Uniform Manifold Approximation and Projection, t-SNE'ye benzer sonuçlar üretir ancak **çok…
ℹ️Pratikte sık kullanılan strateji: Önce PCA ile 50 boyuta indirge (gürültüyü azalt), sonra t-SNE/UMAP ile 2D'ye taşı. Bu kombinasyon hem hız hem kalite sağlar.
✦ Quiz
100 boyutlu veri setinde tüm noktalar neden birbirine 'eşit uzaklıkta' görünür?
✦ Quiz
PCA'nın ilk principal component'i neyi maksimize eder?
✦ Quiz
t-SNE çıktısında iki küme arasındaki görsel mesafe neyi gösterir?
Bağlantılı Konular