Duygu analizi ve metin kategorilendirme
Her gün milyarlarca e-posta spam filtresinden geçiyor, sosyal medya yorumları anlık olarak duygu analizi yapılıyor. Metin sınıflandırma, makinelerin dili anlamasının ilk ve en pratik adımı — kelimelerden anlam çıkaran sistemlerin temel taşı.
Metni bir **kelime torbası** olarak düşün: sıra önemli değil, sadece hangi kelimenin kaç k…
**Term Frequency (TF)**: Kelime belgede kaç kez geçiyor?…
TF-IDF(t,d) = TF(t,d) × log(N / DF(t))t terimi, d belgesi için: terim frekansı × log(toplam belge sayısı / terimi içeren belge sayısı). Nadir ama belgede sık geçen terimler yüksek skor alır.
📚Kütüphaneci Metaforu
TF-IDF bir kütüphaneci gibi çalışır: "Kitap" kelimesi her yerde geçer, önemsiz. Ama "kuantum" kelimesi sadece fizik rafında varsa, o kitabı fizik kategorisine koymanın güçlü bir ipucu.
**Tokenizasyon**: Metni kelimelere/alt kelimelere ayır.…
TF-IDF + Logistic Regression ile Duygu Analizi
| 1 | from sklearn.feature_extraction.text import TfidfVectorizer |
| 2 | from sklearn.linear_model import LogisticRegression |
| 3 | from sklearn.pipeline import Pipeline |
| 4 | |
| 5 | # Örnek veri |
| 6 | yorumlar = ["Harika ürün, çok memnunum", "Berbat kalite, para israfı", |
| 7 | "Fiyat performans süper", "Hiç beğenmedim, iade ettim"] |
| 8 | etiketler = [1, 0, 1, 0] # 1: pozitif, 0: negatif |
| 9 | |
| 10 | # Pipeline oluştur |
| 11 | model = Pipeline([ |
| 12 | ('tfidf', TfidfVectorizer(max_features=1000)), |
| 13 | ('clf', LogisticRegression()) |
| 14 | ]) |
| 15 | |
| 16 | model.fit(yorumlar, etiketler) |
| 17 | print(model.predict(["Kaliteli ve hızlı kargo"])) # [1] |
💡TF-IDF + Logistic Regression kombinasyonu, derin öğrenme öncesi güçlü bir baseline'dır. Yeni projelerde önce bunu dene — bazen BERT'i bile yener!
**Word2Vec** ve **GloVe**, kelimeleri yoğun vektörlere (örn. 300 boyut) dönüştürür. Benzer…
Bag of Words / TF-IDF
Word Embeddings
**BERT** (Bidirectional Encoder Representations from Transformers), metni çift yönlü bağla…
ℹ️BERT encoder-only bir Transformer'dır (→ transformer konusuna bak). GPT ise decoder-only. İkisi farklı görevlerde parlar: BERT anlama, GPT üretme.
Türkçe **eklemeli (agglutinative)** bir dil: "ev" → "evlerimizden" (ev+ler+imiz+den).…
⚠️İngilizce için eğitilmiş modelleri direkt Türkçeye uygulamak genellikle kötü sonuç verir. Dil yapısı çok farklı — Türkçe'ye özel modeller (BERTurk, Turkish-BERT) tercih et.
✦ Quiz
TF-IDF'te bir kelimenin IDF değeri yüksekse bu ne anlama gelir?
✦ Quiz
Word2Vec'in 'Kral - Erkek + Kadın ≈ Kraliçe' analojisini yapabilmesinin sebebi nedir?
✦ Quiz
Türkçe NLP'de 'evlerimizden' kelimesinin zorluğu nedir?
Bağlantılı Konular