React Flow mini map
🌍 Gerçek Dünyaorta22 dk

NLP: Metin Sınıflandırma

Duygu analizi ve metin kategorilendirme

Her gün milyarlarca e-posta spam filtresinden geçiyor, sosyal medya yorumları anlık olarak duygu analizi yapılıyor. Metin sınıflandırma, makinelerin dili anlamasının ilk ve en pratik adımı — kelimelerden anlam çıkaran sistemlerin temel taşı.

Metni bir **kelime torbası** olarak düşün: sıra önemli değil, sadece hangi kelimenin kaç k…

**Term Frequency (TF)**: Kelime belgede kaç kez geçiyor?…

TF-IDF(t,d) = TF(t,d) × log(N / DF(t))

t terimi, d belgesi için: terim frekansı × log(toplam belge sayısı / terimi içeren belge sayısı). Nadir ama belgede sık geçen terimler yüksek skor alır.

📚Kütüphaneci Metaforu

TF-IDF bir kütüphaneci gibi çalışır: "Kitap" kelimesi her yerde geçer, önemsiz. Ama "kuantum" kelimesi sadece fizik rafında varsa, o kitabı fizik kategorisine koymanın güçlü bir ipucu.

**Tokenizasyon**: Metni kelimelere/alt kelimelere ayır.…

TF-IDF + Logistic Regression ile Duygu Analizi

Python
1from sklearn.feature_extraction.text import TfidfVectorizer
2from sklearn.linear_model import LogisticRegression
3from sklearn.pipeline import Pipeline
4
5# Örnek veri
6yorumlar = ["Harika ürün, çok memnunum", "Berbat kalite, para israfı",
7 "Fiyat performans süper", "Hiç beğenmedim, iade ettim"]
8etiketler = [1, 0, 1, 0] # 1: pozitif, 0: negatif
9
10# Pipeline oluştur
11model = Pipeline([
12 ('tfidf', TfidfVectorizer(max_features=1000)),
13 ('clf', LogisticRegression())
14])
15
16model.fit(yorumlar, etiketler)
17print(model.predict(["Kaliteli ve hızlı kargo"])) # [1]

💡TF-IDF + Logistic Regression kombinasyonu, derin öğrenme öncesi güçlü bir baseline'dır. Yeni projelerde önce bunu dene — bazen BERT'i bile yener!

**Word2Vec** ve **GloVe**, kelimeleri yoğun vektörlere (örn. 300 boyut) dönüştürür. Benzer…

Bag of Words / TF-IDF

  • ·Seyrek (sparse) vektörler
  • ·Kelime sırası kaybolur
  • ·Anlam benzerliği yakalanamaz
  • ·Hızlı, yorumlanabilir

Word Embeddings

  • ·Yoğun (dense) vektörler
  • ·Bağlam bir ölçüde korunur
  • ·Semantik ilişkiler öğrenilir
  • ·Transfer learning mümkün

**BERT** (Bidirectional Encoder Representations from Transformers), metni çift yönlü bağla…

ℹ️BERT encoder-only bir Transformer'dır (→ transformer konusuna bak). GPT ise decoder-only. İkisi farklı görevlerde parlar: BERT anlama, GPT üretme.

Türkçe **eklemeli (agglutinative)** bir dil: "ev" → "evlerimizden" (ev+ler+imiz+den).…

⚠️İngilizce için eğitilmiş modelleri direkt Türkçeye uygulamak genellikle kötü sonuç verir. Dil yapısı çok farklı — Türkçe'ye özel modeller (BERTurk, Turkish-BERT) tercih et.

✦ Quiz

TF-IDF'te bir kelimenin IDF değeri yüksekse bu ne anlama gelir?

✦ Quiz

Word2Vec'in 'Kral - Erkek + Kadın ≈ Kraliçe' analojisini yapabilmesinin sebebi nedir?

✦ Quiz

Türkçe NLP'de 'evlerimizden' kelimesinin zorluğu nedir?

Bağlantılı Konular