React Flow mini map
🌍 Gerçek Dünyaorta22 dk

NLP: Metin Sınıflandırma

Duygu analizi ve metin kategorilendirme

Önce bunlara göz at

🎯

30 saniyede özet · Ne öğreneceksin

  • Metin verisi ön işleme ve tokenization
  • Transformer tabanlı metin sınıflandırma
  • Fine-tuning stratejilerini uygulamak
22 dk okuma·orta

Her gün milyarlarca e-posta spam filtresinden geçiyor, sosyal medya yorumları anlık olarak duygu analizi yapılıyor. Metin sınıflandırma, makinelerin dili anlamasının ilk ve en pratik adımı — kelimelerden anlam çıkaran sistemlerin temel taşı.

Metni bir kelime torbası olarak düşün: sıra önemli değil, sadece hangi kelimenin kaç kez g…

Term Frequency (TF): Kelime belgede kaç kez geçiyor?

TF-IDF(t,d) = TF(t,d) × log(N / DF(t))

t terimi, d belgesi için: terim frekansı × log(toplam belge sayısı / terimi içeren belge sayısı). Nadir ama belgede sık geçen terimler yüksek skor alır.

📚Kütüphaneci Metaforu

TF-IDF bir kütüphaneci gibi çalışır: "Kitap" kelimesi her yerde geçer, önemsiz. Ama "kuantum" kelimesi sadece fizik rafında varsa, o kitabı fizik kategorisine koymanın güçlü bir ipucu.

Tokenizasyon: Metni kelimelere/alt kelimelere ayır.

TF-IDF + Logistic Regression ile Duygu Analizi

Python
1from sklearn.feature_extraction.text import TfidfVectorizer
2from sklearn.linear_model import LogisticRegression
3from sklearn.pipeline import Pipeline
4
5# Örnek veri
6yorumlar = ["Harika ürün, çok memnunum", "Berbat kalite, para israfı",
7 "Fiyat performans süper", "Hiç beğenmedim, iade ettim"]
8etiketler = [1, 0, 1, 0] # 1: pozitif, 0: negatif
9
10# Pipeline oluştur
11model = Pipeline([
12 ('tfidf', TfidfVectorizer(max_features=1000)),
13 ('clf', LogisticRegression())
14])
15
16model.fit(yorumlar, etiketler)
17print(model.predict(["Kaliteli ve hızlı kargo"])) # [1]

💡TF-IDF + Logistic Regression kombinasyonu, derin öğrenme öncesi güçlü bir baseline'dır. Yeni projelerde önce bunu dene — bazen BERT'i bile yener!

Word2Vec ve GloVe, kelimeleri yoğun vektörlere (örn. 300 boyut) dönüştürür. Benzer anlamlı…

Bag of Words / TF-IDF

  • ·Seyrek (sparse) vektörler
  • ·Kelime sırası kaybolur
  • ·Anlam benzerliği yakalanamaz
  • ·Hızlı, yorumlanabilir

Word Embeddings

  • ·Yoğun (dense) vektörler
  • ·Bağlam bir ölçüde korunur
  • ·Semantik ilişkiler öğrenilir
  • ·Transfer learning mümkün

BERT (Bidirectional Encoder Representations from Transformers), metni çift yönlü bağlamla …

ℹ️BERT encoder-only bir Transformer'dır (→ transformer konusuna bak). GPT ise decoder-only. İkisi farklı görevlerde parlar: BERT anlama, GPT üretme.

Türkçe eklemeli (agglutinative) bir dil: "ev" → "evlerimizden" (ev+ler+imiz+den).

⚠️İngilizce için eğitilmiş modelleri direkt Türkçeye uygulamak genellikle kötü sonuç verir. Dil yapısı çok farklı — Türkçe'ye özel modeller (BERTurk, Turkish-BERT) tercih et.

✦ Quiz

TF-IDF'te bir kelimenin IDF değeri yüksekse bu ne anlama gelir?

✦ Quiz

Word2Vec'in 'Kral - Erkek + Kadın ≈ Kraliçe' analojisini yapabilmesinin sebebi nedir?

✦ Quiz

Türkçe NLP'de 'evlerimizden' kelimesinin zorluğu nedir?