🌍 Gerçek Dünyaorta⏱ 22 dk

NLP: Metin Sınıflandırma

Duygu analizi ve metin kategorilendirme

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

→Metin verisi ön işleme ve tokenization
→Transformer tabanlı metin sınıflandırma
→Fine-tuning stratejilerini uygulamak

⏱ 22 dk okuma·orta

Her gün milyarlarca e-posta spam filtresinden geçiyor, sosyal medya yorumları anlık olarak duygu analizi yapılıyor. Metin sınıflandırma, makinelerin dili anlamasının ilk ve en pratik adımı — kelimelerden anlam çıkaran sistemlerin temel taşı.

Metni bir kelime torbası olarak düşün: sıra önemli değil, sadece hangi kelimenin kaç kez g…

Term Frequency (TF): Kelime belgede kaç kez geçiyor?

TF-IDF(t,d) = TF(t,d) × log(N / DF(t))

t terimi, d belgesi için: terim frekansı × log(toplam belge sayısı / terimi içeren belge sayısı). Nadir ama belgede sık geçen terimler yüksek skor alır.

📚Kütüphaneci Metaforu

TF-IDF bir kütüphaneci gibi çalışır: "Kitap" kelimesi her yerde geçer, önemsiz. Ama "kuantum" kelimesi sadece fizik rafında varsa, o kitabı fizik kategorisine koymanın güçlü bir ipucu.

Tokenizasyon: Metni kelimelere/alt kelimelere ayır.

TF-IDF + Logistic Regression ile Duygu Analizi

Python

1	from sklearn.feature_extraction.text import TfidfVectorizer
2	from sklearn.linear_model import LogisticRegression
3	from sklearn.pipeline import Pipeline
4
5	# Örnek veri
6	yorumlar = ["Harika ürün, çok memnunum", "Berbat kalite, para israfı",
7	"Fiyat performans süper", "Hiç beğenmedim, iade ettim"]
8	etiketler = [1, 0, 1, 0] # 1: pozitif, 0: negatif
9
10	# Pipeline oluştur
11	model = Pipeline([
12	('tfidf', TfidfVectorizer(max_features=1000)),
13	('clf', LogisticRegression())
14	])
15
16	model.fit(yorumlar, etiketler)
17	print(model.predict(["Kaliteli ve hızlı kargo"])) # [1]

💡TF-IDF + Logistic Regression kombinasyonu, derin öğrenme öncesi güçlü bir baseline'dır. Yeni projelerde önce bunu dene — bazen BERT'i bile yener!

Word2Vec ve GloVe, kelimeleri yoğun vektörlere (örn. 300 boyut) dönüştürür. Benzer anlamlı…

Bag of Words / TF-IDF

·Seyrek (sparse) vektörler
·Kelime sırası kaybolur
·Anlam benzerliği yakalanamaz
·Hızlı, yorumlanabilir

Word Embeddings

·Yoğun (dense) vektörler
·Bağlam bir ölçüde korunur
·Semantik ilişkiler öğrenilir
·Transfer learning mümkün

BERT (Bidirectional Encoder Representations from Transformers), metni çift yönlü bağlamla …

ℹ️BERT encoder-only bir Transformer'dır (→ transformer konusuna bak). GPT ise decoder-only. İkisi farklı görevlerde parlar: BERT anlama, GPT üretme.

Türkçe eklemeli (agglutinative) bir dil: "ev" → "evlerimizden" (ev+ler+imiz+den).

⚠️İngilizce için eğitilmiş modelleri direkt Türkçeye uygulamak genellikle kötü sonuç verir. Dil yapısı çok farklı — Türkçe'ye özel modeller (BERTurk, Turkish-BERT) tercih et.

✦ Quiz

TF-IDF'te bir kelimenin IDF değeri yüksekse bu ne anlama gelir?

✦ Quiz

Word2Vec'in 'Kral - Erkek + Kadın ≈ Kraliçe' analojisini yapabilmesinin sebebi nedir?

✦ Quiz

Türkçe NLP'de 'evlerimizden' kelimesinin zorluğu nedir?