⚡ Derin Öğrenmeorta⏱ 10 dk

Aktivasyon Fonksiyonları: Doğrusal Olmayan Güç

ReLU, Sigmoid, Tanh — interaktif karşılaştırma

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

→Doğrusal olmayan aktivasyon fonksiyonlarının neden gerekli olduğunu açıklamak
→ReLU, Sigmoid ve Tanh'ın avantaj/dezavantajlarını karşılaştırmak
→Vanishing gradient problemini ve çözümlerini tanımlamak

⏱ 10 dk okuma·orta

Aktivasyon fonksiyonları olmadan, kaç katman eklersek ekleyelim ağ hâlâ doğrusal bir dönüşüm yapar. Doğrusal olmayan aktivasyonlar, sinir ağlarına gerçek güçlerini veren unsurdur.

İki doğrusal dönüşümün bileşimi yine doğrusal bir dönüşümdür: A₂(A₁x) = (A₂A₁)x. Yani yüzl…

ReLU (max(0,x)): Basit, hızlı, derin ağlarda varsayılan seçenek. Negatif girişlerde gradya…

⚡ İnteraktif Playground

⏳ Yükleniyor…

⚠️Vanishing Gradient: Sigmoid/Tanh doyma bölgelerinde gradyan neredeyse sıfır olur. Geri yayılımda çarpıla çarpıla sıfıra yaklaşır; erken katmanlar öğrenemez. ReLU ve Layer Normalization bu problemi hafifletir.

✦ Quiz

Gizli katmanlar için varsayılan aktivasyon fonksiyonu olarak genellikle ne önerilir?

ReLU / Leaky ReLU

·max(0, x) — son derece basit
·Derin CNN ve MLP'lerde standart
·Ölü ReLU riski (negatif bölgede gradyan=0)
·Leaky ReLU negatif bölgeye küçük eğim verir

GELU / SiLU

·Pürüzsüz, stokastik yorumlama
·BERT, GPT, ViT gibi transformer'larda tercih
·Hesaplama biraz daha pahalı
·Pratikte ReLU'yu genellikle geçer

PyTorch'ta aktivasyon fonksiyonları karşılaştırması

Python

1	import torch
2	import torch.nn as nn
3
4	x = torch.linspace(-3, 3, 100)
5
6	relu = nn.ReLU()(x) # max(0, x)
7	gelu = nn.GELU()(x) # pürüzsüz ReLU varyantı
8	sigmoid = torch.sigmoid(x) # (0,1) arası — ikili sınıflandırma çıkışı
9	softmax = torch.softmax( # çok sınıflı çıkış katmanı için
10	torch.randn(5), dim=0
11	)
12
13	# Çıkış katmanı seçimi:
14	# - İkili sınıflandırma → Sigmoid
15	# - Çok sınıflı → Softmax
16	# - Regresyon → Linear (aktivasyon yok)
17	# - Gizli katmanlar → ReLU veya GELU

✦ Quiz

Çıkış katmanında hangi aktivasyon fonksiyonu çok sınıflı sınıflandırma için doğrudur?

Daha derinlemesine