DALL-E, Stable Diffusion ve üretici AI'nin arkasındaki matematik
Önce bunlara göz at
30 saniyede özet · Ne öğreneceksin
Bir fotoğrafı kuma dökülen su gibi düşün: damla damla gürültü ekle, sonra zamanı geri sar ve suyu topla. Diffusion modeller tam da bunu yapıyor — Stable Diffusion ve DALL-E'nin arkasındaki bu zarif matematik, kaosdan düzen yaratıyor.
Gerçek bir görüntüye adım adım Gaussian gürültü eklenir. Her t adımında görüntü biraz daha…
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)Her adımda görüntü xₜ₋₁'den xₜ'ye geçer. βₜ gürültü zamanlaması (noise schedule) parametresidir — küçük başlar, adım adım büyür.
☕Kahve ve Süt Analojisi
Forward process: kahveye süt dökmek — moleküller yavaşça karışır. Reverse process: karışımdan sütü geri ayırmak. İmkansız gibi görünür, ama her adımda ne kadar karıştığını bilirsen geri sarabilirsin.
Saf gürültüden başlayarak adım adım orijinal görüntüyü yeniden oluştur. Her adımda bir sin…
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,t), Σθ(xₜ,t))Model θ parametreleriyle, gürültülü xₜ'den bir önceki adım xₜ₋₁'in dağılımını öğrenir. μθ ortalama tahmini, Σθ varyans tahminidir.
Ho et al. (2020) Denoising Diffusion Probabilistic Models makalesinde modern diffusion'ın …
💡DDPM'in loss fonksiyonu şaşırtıcı derecede basit: L = ||ε - εθ(xₜ, t)||² — gerçek gürültü ile tahmin edilen gürültü arasındaki MSE.
Piksel uzayında 512×512 görüntü işlemek çok pahalı. Stable Diffusion önce görüntüyü VAE en…
Pixel-Space Diffusion
Latent Diffusion
"Bir astronot at sürüyor" yazısından görüntü üretmek için model metin koşullaması kullanır…
Koşullu ve koşulsuz tahminleri karıştırarak kalite/çeşitlilik dengesi kur:
⚠️CFG ölçeği (guidance scale) aşırı yüksek tutulursa renk doygunluğu patlar ve detaylar kaybolur. Stable Diffusion için w=7-8 genelde ideal.
ℹ️Diffusion modeller GAN'lardan farklı olarak mode collapse yaşamaz — eğitim kararlıdır. Ancak üretim yavaştır: tek görüntü için 20-50 denoising adımı gerekir.
✦ Quiz
Forward process'te T adım sonunda görüntü neye dönüşür?
✦ Quiz
Stable Diffusion neden latent uzayda çalışır?
✦ Quiz
Classifier-Free Guidance ölçeği (w) artırılırsa ne olur?
Daha derinlemesine