🧠 ML Temelleriileri⏱ 12 dk

Boyut İndirgeme: PCA ve t-SNE

Boyutun laneti, varyans analizi ve görselleştirme

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

→Boyutun lanetini ve neden sorun olduğunu açıklamak
→PCA'nın özvektör tabanlı dönüşümünü anlamak
→t-SNE ile PCA'yı hangi durumda tercih edeceğini bilmek

⏱ 12 dk okuma·ileri

1000 boyutlu bir uzayda en yakın iki nokta bile şaşırtıcı derecede uzaktır — veri "seyrekleşir" ve örüntüler bulanıklaşır. Boyut indirgeme, bu yüksek boyutlu veriyi 2-3 boyuta sıkıştırarak hem görselleştirmeyi hem de model performansını mümkün kılar.

Boyut arttıkça hacim üstel büyür, veri noktaları birbirinden uzaklaşır.

📦Boş Depo Metaforu

10 metreküplük bir depoya 100 kutu yerleştirdiğinizi düşünün — kutuları bulmak kolay. Aynı 100 kutuyu 10.000 metreküplük bir depoya koyarsanız, aradığınız kutuya ulaşmak zorlaşır. Yüksek boyut = dev, boş depo.

Principal Component Analysis, veriyi en çok varyansı koruyan eksenlere yansıtır.

Σ = (1/n) XᵀX, Σv = λv

Σ kovaryans matrisi, v özvektör (principal component yönü), λ özdeğer (o yöndeki varyans miktarı). PCA bu λ'lara göre en büyükten küçüğe sıralar.

Scikit-learn ile 2D PCA ve varyans oranı

Python

1	from sklearn.decomposition import PCA
2	from sklearn.datasets import load_iris
3	import matplotlib.pyplot as plt
4
5	X = load_iris().data # 4 boyut
6	pca = PCA(n_components=2)
7	X_2d = pca.fit_transform(X)
8
9	print(pca.explained_variance_ratio_) # [0.92, 0.05] — ilk 2 bileşen %97
10
11	plt.scatter(X_2d[:, 0], X_2d[:, 1], c=load_iris().target)
12	plt.xlabel("PC1"); plt.ylabel("PC2")
13	plt.show()

Her principal component'in toplam varyansın yüzde kaçını açıkladığını gösterir.

💡Elbow grafiği: Explained variance ratio'yu kümülatif olarak çizin, eğrinin "dirsek" yaptığı nokta optimal bileşen sayısını verir.

t-Distributed Stochastic Neighbor Embedding, yüksek boyuttaki komşuluk ilişkilerini düşük …

⚠️t-SNE çıktısında kümeler arası mesafe anlamlı değildir! İki küme görsel olarak uzak olsa da gerçekte yakın olabilir. Sadece küme içi yapıyı yorumlayın.

PCA

·Doğrusal dönüşüm
·Küresel varyansı korur
·O(n·d²) — hızlı
·Deterministik sonuç
·Ön işleme ve özellik seçimi için ideal

t-SNE

·Doğrusal olmayan manifold öğrenme
·Yerel komşulukları korur
·O(n²) — yavaş, büyük veri sorunlu
·Stokastik, her çalıştırmada farklı
·Küme görselleştirme için ideal

Uniform Manifold Approximation and Projection, t-SNE'ye benzer sonuçlar üretir ancak çok d…

ℹ️Pratikte sık kullanılan strateji: Önce PCA ile 50 boyuta indirge (gürültüyü azalt), sonra t-SNE/UMAP ile 2D'ye taşı. Bu kombinasyon hem hız hem kalite sağlar.

✦ Quiz

100 boyutlu veri setinde tüm noktalar neden birbirine 'eşit uzaklıkta' görünür?

✦ Quiz

PCA'nın ilk principal component'i neyi maksimize eder?

✦ Quiz

t-SNE çıktısında iki küme arasındaki görsel mesafe neyi gösterir?

Daha derinlemesine