React Flow mini map
Derin Öğrenmeileri20 dk

Diffusion Models: Gürültüden Güzelliğe

DALL-E, Stable Diffusion ve üretici AI'nin arkasındaki matematik

Bir fotoğrafı kuma dökülen su gibi düşün: damla damla gürültü ekle, sonra zamanı geri sar ve suyu topla. Diffusion modeller tam da bunu yapıyor — Stable Diffusion ve DALL-E'nin arkasındaki bu zarif matematik, kaosdan düzen yaratıyor.

Gerçek bir görüntüye **adım adım Gaussian gürültü** eklenir. Her t adımında görüntü biraz …

q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Her adımda görüntü xₜ₋₁'den xₜ'ye geçer. βₜ gürültü zamanlaması (noise schedule) parametresidir — küçük başlar, adım adım büyür.

Kahve ve Süt Analojisi

Forward process: kahveye süt dökmek — moleküller yavaşça karışır. Reverse process: karışımdan sütü geri ayırmak. İmkansız gibi görünür, ama **her adımda ne kadar karıştığını bilirsen** geri sarabilirsin.

Saf gürültüden başlayarak **adım adım orijinal görüntüyü yeniden oluştur**. Her adımda bir…

pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,t), Σθ(xₜ,t))

Model θ parametreleriyle, gürültülü xₜ'den bir önceki adım xₜ₋₁'in dağılımını öğrenir. μθ ortalama tahmini, Σθ varyans tahminidir.

Ho et al. (2020) **Denoising Diffusion Probabilistic Models** makalesinde modern diffusion…

💡DDPM'in loss fonksiyonu şaşırtıcı derecede basit: L = ||ε - εθ(xₜ, t)||² — gerçek gürültü ile tahmin edilen gürültü arasındaki MSE.

Piksel uzayında 512×512 görüntü işlemek çok pahalı. Stable Diffusion önce görüntüyü **VAE …

Pixel-Space Diffusion

  • ·512×512×3 = 786K boyut
  • ·Yüksek bellek ve hesaplama
  • ·Doğrudan piksel kalitesi kontrolü
  • ·DALL-E 2 (kısmen)

Latent Diffusion

  • ·64×64×4 = 16K boyut (~50× küçük)
  • ·Consumer GPU'da çalışır
  • ·VAE kalitesine bağımlı
  • ·Stable Diffusion, Midjourney

"Bir astronot at sürüyor" yazısından görüntü üretmek için model **metin koşullaması** kull…

Koşullu ve koşulsuz tahminleri **karıştırarak** kalite/çeşitlilik dengesi kur:…

⚠️CFG ölçeği (guidance scale) aşırı yüksek tutulursa renk doygunluğu patlar ve detaylar kaybolur. Stable Diffusion için w=7-8 genelde ideal.

ℹ️Diffusion modeller GAN'lardan farklı olarak mode collapse yaşamaz — eğitim kararlıdır. Ancak üretim yavaştır: tek görüntü için 20-50 denoising adımı gerekir.

✦ Quiz

Forward process'te T adım sonunda görüntü neye dönüşür?

✦ Quiz

Stable Diffusion neden latent uzayda çalışır?

✦ Quiz

Classifier-Free Guidance ölçeği (w) artırılırsa ne olur?

Bağlantılı Konular