React Flow mini map
Derin Öğrenmeileri20 dk

Diffusion Models: Gürültüden Güzelliğe

DALL-E, Stable Diffusion ve üretici AI'nin arkasındaki matematik

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

  • Forward ve reverse diffusion süreçlerini anlamak
  • U-Net mimarisinin diffusion'daki rolünü kavramak
  • Guidance mekanizmalarını (CFG) açıklamak
20 dk okuma·ileri

Bir fotoğrafı kuma dökülen su gibi düşün: damla damla gürültü ekle, sonra zamanı geri sar ve suyu topla. Diffusion modeller tam da bunu yapıyor — Stable Diffusion ve DALL-E'nin arkasındaki bu zarif matematik, kaosdan düzen yaratıyor.

Gerçek bir görüntüye adım adım Gaussian gürültü eklenir. Her t adımında görüntü biraz daha…

q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Her adımda görüntü xₜ₋₁'den xₜ'ye geçer. βₜ gürültü zamanlaması (noise schedule) parametresidir — küçük başlar, adım adım büyür.

Kahve ve Süt Analojisi

Forward process: kahveye süt dökmek — moleküller yavaşça karışır. Reverse process: karışımdan sütü geri ayırmak. İmkansız gibi görünür, ama her adımda ne kadar karıştığını bilirsen geri sarabilirsin.

Saf gürültüden başlayarak adım adım orijinal görüntüyü yeniden oluştur. Her adımda bir sin…

pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,t), Σθ(xₜ,t))

Model θ parametreleriyle, gürültülü xₜ'den bir önceki adım xₜ₋₁'in dağılımını öğrenir. μθ ortalama tahmini, Σθ varyans tahminidir.

Ho et al. (2020) Denoising Diffusion Probabilistic Models makalesinde modern diffusion'ın …

💡DDPM'in loss fonksiyonu şaşırtıcı derecede basit: L = ||ε - εθ(xₜ, t)||² — gerçek gürültü ile tahmin edilen gürültü arasındaki MSE.

Piksel uzayında 512×512 görüntü işlemek çok pahalı. Stable Diffusion önce görüntüyü VAE en…

Pixel-Space Diffusion

  • ·512×512×3 = 786K boyut
  • ·Yüksek bellek ve hesaplama
  • ·Doğrudan piksel kalitesi kontrolü
  • ·DALL-E 2 (kısmen)

Latent Diffusion

  • ·64×64×4 = 16K boyut (~50× küçük)
  • ·Consumer GPU'da çalışır
  • ·VAE kalitesine bağımlı
  • ·Stable Diffusion, Midjourney

"Bir astronot at sürüyor" yazısından görüntü üretmek için model metin koşullaması kullanır…

Koşullu ve koşulsuz tahminleri karıştırarak kalite/çeşitlilik dengesi kur:

⚠️CFG ölçeği (guidance scale) aşırı yüksek tutulursa renk doygunluğu patlar ve detaylar kaybolur. Stable Diffusion için w=7-8 genelde ideal.

ℹ️Diffusion modeller GAN'lardan farklı olarak mode collapse yaşamaz — eğitim kararlıdır. Ancak üretim yavaştır: tek görüntü için 20-50 denoising adımı gerekir.

✦ Quiz

Forward process'te T adım sonunda görüntü neye dönüşür?

✦ Quiz

Stable Diffusion neden latent uzayda çalışır?

✦ Quiz

Classifier-Free Guidance ölçeği (w) artırılırsa ne olur?

Daha derinlemesine