Veri Bilimi Temelleri: Teknik Özellikler ve Parametreler

101 KöşESI

18 Şubat 2026 15 dk okuma

Veri Bilimi Temelleri: Teknik Özellikler ve Parametreler Nedir? – 101 Rehberi

🟢 Seviye: Başlangıç

Veri bilimi projilerinde doğru özellikler ve parametreler, bir fikri işe yarayan bir modele dönüştürür — bu rehber baştan sona, adım adım başlangıç seviyesine uygun olarak anlatarak yol gösterir.

Bu 101 rehberinde “Veri Bilimi Temelleri: Teknik Özellikler ve Parametreler” konusunu sıfırdan öğreneceksiniz.

Veri Bilimi ve Neden Önemli?

Veri bilimi; veriden içgörü çıkarma, geleceğe yönelik tahminler yapma ve karar destek sistemleri oluşturma süreçlerini kapsar. İşletmeler için hızlı ve isabetli kararlar alınmasını sağlar; örneğin hangi ürünlerin stoklanacağı veya hangi müşteriye hangi kampanyanın gösterileceği gibi sorulara yanıt verir.

Bir veri bilimi projesinin temel bileşenleri:

Veri toplama (data collection): Verinin farklı kaynaklardan (web, loglar, veritabanı vb.) toplanması ve saklanması.
Ön işleme (preprocessing): Eksik verilerin doldurulması, gürültünün temizlenmesi ve verinin analize uygun hâle getirilmesi (ör. tarihten saat/oturum çıkarma).
Modelleme (modeling): Makine öğrenmesi veya istatistiksel yöntemlerle tahmin modelleri oluşturma (sınıflandırma, regresyon, öneri sistemleri vb.).
Değerlendirme (evaluation): Model performansını ölçme (doğruluk, precision, recall gibi metriklerle) ve gerektiğinde iyileştirme.
Dağıtım (deployment): Eğitilmiş modeli üretime alma ve gerçek veriler üzerinde çalıştırma (servisleştirme, API oluşturma).

İş problemini doğru şekilde teknik probleme çevirmek kritik önemdedir. Örneğin “müşteri kaybını azaltmak” iş problemi, teknik olarak “sınıflandırma — bir müşterinin gelecekte ayrılıp ayrılmayacağını tahmin etme” şeklinde modellenebilir. Benzer şekilde e-ticaret için “hangi ürünlerin alınacağını tahmin etme” ya iki sınıflı sınıflandırma (alınır/alınmaz) veya olasılık skoru üreten modellerle (puanlama/sıralama) çözülebilir.

Gerçek dünya örneği — E-ticaret: Kullanıcı davranışlarından (sayfa görüntüleme, tıklama, önceki satın almalar) hangi ürünlerin sepete ekleneceğini ve satın alınacağını tahmin ederek stok ve kampanya stratejileri iyileştirilir. Süreç genelde şu adımlarla ilerler: veri toplama → ön işleme ve özellik mühendisliği → model eğitimi → üretime alma ve otomatik hedefleme.

💡 İpucu: Projeye küçük bir pilot veri setiyle başlayın. Basit bir model (ör. lojistik regresyon) kurup sonuçları gözlemleyin; ardından özellik ekleyip daha karmaşık modellere geçin.

⚠️ Dikkat: Verinin kalitesi ve tarafsızlığı çok önemlidir. Eksik veya önyargılı veri (bias) yanlış sonuçlar doğurur; modelin adil ve güvenilir olduğundan emin olmak için veriyi ve sonuçları dikkatle inceleyin.

Veri Türleri ve Özellikler (Features) Nelerdir?

Bir özellik (feature), modelin öğrenmesi için kullanılan her bir veri sütunudur (ör. “yaş” sütunu). Veriler genellikle şu temel türlere ayrılır: sayısal (numeric), kategorik (categorical), tarih/zaman (datetime), metin (text) ve görüntü/sinyal (image/signal). Her türün davranışı farklıdır ve modellerin nasıl eğitileceğini doğrudan etkiler.

Sayısal (numeric): Kesin veya sürekli değerler (ör. yaş, gelir). Genellikle ölçeklendirme (scaling) veya log dönüşümü gerekir.
Kategorik (categorical): Sınıf etiketleri (ör. şehir isimleri). Modelin anlayacağı sayısal forma çevirmek için kodlama yöntemleri (one-hot, label encoding vb.) kullanılır.
Tarihler/zamanlar (datetime): Tarih ve saat bilgileri. Yıl/ay/gün/hafta/recency gibi türetilmiş özelliklere dönüştürülür.
Metin (text): Serbest yazı, yorumlar. Kelime sayımı, TF-IDF veya embedding yöntemleriyle sayısala dönüştürülür.
Görüntü/sinyal (image/signal): Piksel ya da frekans verileri. Özellik çıkarımı için konvolüsyonel ağlar veya spektrogram dönüşümleri kullanılır.

Gerçek dünya örneği: Müşteri verisinde özellikler: yaş (numeric), şehir (categorical), son işlem tarihi (datetime), yorum metni (text). Bu veri setinde; yaş için eksik değerler varsa medyan ile tamamlama yapılabilir, şehir sütunu için one-hot kodlama uygulanabilir, son işlem tarihinden recency hesaplanabilir ve yorum metni için kelime sayımı veya duygu (sentiment) analizi çıkarılabilir.

Eksik değerler model performansını düşürebilir; hangi stratejinin uygun olduğu verinin doğasına bağlıdır (medyan doldurma, komşu bazlı doldurma veya kaydı silme gibi). Uç değerler (outlier) bazı modelleri (ör. lineer regresyon) güçlü şekilde etkiler; bu nedenle tespit edilip sınırlandırma (capping) veya çıkarma gerekebilir. Veri dönüşümleri —örneğin gelir gibi sağa çarpık dağılım için log dönüşümü— dağılımı normalize ederek modelin daha iyi öğrenmesini sağlar.

💡 İpucu: Özellikleri modellemeden önce her sütunun dağılımını görselleştirin (histogram, kutu grafiği). Basit ön işlemler (medyan imputasyonu, one-hot kodlama, tarihten recency çıkarma) çoğu zaman büyük kazanımlar sağlar.

⚠️ Dikkat: Log dönüşümü sıfır veya negatif değerler için doğrudan uygulanamaz — önce küçük bir sabit eklemek gerekebilir. Ayrıca kategorik değişkenlerde yüksek kardinalite modeli yavaşlatır veya aşırı uyuma yol açabilir; hedef kodlama veya frekans temelli yaklaşımlar değerlendirilmelidir.

Özetle: Özelliğin türünü doğru tanımlamak, eksik ve uç değerleri tespit etmek ve uygun dönüşümleri uygulamak, makine öğrenmesinde başarının temel adımlarıdır. Basit, mantıklı ön işleme genellikle karmaşık modellerden daha fazla fark yaratır.

Parametreler ile Hiperparametreler Arasındaki Fark

Parametreler, modelin eğitim sırasında veriden öğrendiği değerlere denir (ör. doğrusal regresyondaki katsayılar, bir sinir ağındaki ağırlıklar). Eğitim sürecinde optimizasyon yöntemleri (ör. gradient descent) ile güncellenirler.

Hiperparametreler ise eğitimi ve model yapısını kontrol eden, eğitim başlamadan önce seçilen ayarlardır (ör. öğrenme hızı, karar ağacı derinliği, rastgele ormandaki ağaç sayısı n_estimators). Hiperparametreler doğrudan veriden öğrenilmez; model kapasitesi, eğitim süresi ve genelleme yeteneğini etkiledikleri için genellikle grid search veya Bayesian optimization gibi yöntemlerle ayarlanır.

Basit örnek: Doğrusal regresyondaki katsayılar parametredir. Rastgele ormandaki kaç ağaç kullanılacağı (n_estimators) ise hiperparametredir — çok az ağaç modelin zayıf olmasına (underfitting), aşırı çok ağaç ise hesaplama maliyetini artırıp hafifçe overfitting’e yol açabilir.

Parametre (örnek): Doğrusal regresyondaki katsayılar.
Hiperparametre (örnek): Rastgele ormandaki n_estimators (ağaç sayısı).
Parametreler eğitim sırasında optimizasyonla güncellenir.
Hiperparametreler genellikle grid search veya Bayesian optimization ile seçilir.

💡 İpucu: Başlangıçta varsayılan hiperparametrelerle başlayın; sonra küçük bir grid ile hangi hiperparametrelerin performansı etkilediğini test edin.

⚠️ Dikkat: Hiperparametre ayarlarken doğrulama verisini (validation set) kullanın; test verisini hiperparametre ayarı için kullanmak data leakage’a ve yanıltıcı sonuçlara yol açar.

Özellik Mühendisliği (Feature Engineering) Temelleri

Özellik mühendisliği, ham veriyi model için daha açıklayıcı hâle getirme sürecidir. Amaç, kategorik verileri kodlamak, sayısal verileri ölçeklendirmek ve dönüşümlerle (log, karekök, etkileşim terimleri) modelin öğrenmesini kolaylaştıracak yeni temsiller oluşturmaktır. Bu adımlar özellikle yeni başlayanlar için modelin veriyi “anlamasını” kolaylaştırır.

Yaygın teknikler:

One-hot encoding: Bir kategoriyi birden fazla ikili sütuna dönüştürme (ör. renk: kırmızı, mavi → kırmızı=1, mavi=0 vb.).
Label encoding: Sıralı kategorileri sayısal değerlere dönüştürme (ör. küçük=0, orta=1, büyük=2).
Scaling: Min-Max (0–1 aralığı) ve Standard (ortalama 0, std 1): mesafe tabanlı modellerde önemlidir.
Etkileşim özellikleri: İki veya daha fazla özelliğin çarpımı/etkileşimi (ör. kredi_tutarı * faiz_oranı).
Tarihten türetmeler: Saat, gün, ay, hafta içi/hafta sonu, recency gibi sütunlar oluşturma.

Yüksek boyutlu veri ile çalışırken boyut indirgeme ve özellik seçimi önem kazanır. PCA (Principal Component Analysis) ile boyut azaltılabilir. Özellik seçimi yöntemleri veya L1 düzenleme (L1 regularization) ile gereksiz özellikler elenerek daha sade modeller elde edilir. Bu yaklaşımlar hesaplama maliyetini düşürür ve overfitting riskini azaltır.

Gerçek dünya örneği — Kredi skorlama: ‘gelir’ ve ‘borç’ sütunları varsa yeni bir özellik olarak ‘borç/gelir oranı’ oluşturmak faydalıdır. Bu oran, benzer gelire sahip kişiler arasındaki borç yükünü karşılaştırmayı kolaylaştırır ve kredi geri ödeme riskini daha iyi yansıtabilir.

💡 İpucu: Özellikleri oluştururken önce eğitim verisi üzerinde EDA (keşifçi veri analizi) yapın. Kategorik değişkenlerin yüksek kardinalite göstermesi durumunda one-hot yerine embedding ya da target encoding düşünün.

⚠️ Dikkat: Özellik türetirken veri sızıntısı (data leakage) yapmamaya dikkat edin. Test setinden veya gelecekteki zaman noktalarından gelen bilgileri eğitim sırasında kullanmayın.

Görsel önerileri: Borç ve gelir arasındaki ilişki için scatter plot; borç/gelir oranının dağılımı için histogram; özelliklerin hedefle korelasyonunu görmek için correlation heatmap. Bu görseller hangi türevlerin işe yarayacağını sezgisel olarak görmenize yardımcı olur.

Model Değerlendirme ve Performans Ölçütleri

Model değerlendirmede veriyi doğru şekilde ayırmak (training/validation/test) ilk adımdır. Yaygın oranlar %70/%15/%15 veya %60/%20/%20’dir. Çapraz doğrulama (cross-validation) özellikle veri azsa faydalıdır; k-fold yöntemi veriyi k eş parçaya böler ve her parça bir kez test olurken kalan k−1 parça eğitim için kullanılır. Bu, modelin farklı veri bölümlerindeki davranışını görmeyi sağlar.

Sınıflandırma problemlerinde tek metrik yanıltıcı olabilir. Kullanılan yaygın metrikler:

Accuracy: Doğru tahminlerin oranı.
Precision: Pozitif tahminlerin gerçekten pozitif olma oranı.
Recall (sensitivity): Gerçekte pozitif olanların ne kadarının doğru tespit edildiği.
F1 score: Precision ve recall’un harmonik ortalaması.
ROC-AUC: Modelin farklı eşiklerde sınıfları ayırt etme yeteneğinin genel ölçüsü.

Regresyonda ise:

MAE (Mean Absolute Error): Hata mutlaklarının ortalaması — yorumlaması kolay ve uç değerlere daha dayanıklıdır.
MSE (Mean Squared Error): Hataların karelerinin ortalaması — büyük hataları daha ağır cezalandırır.
RMSE: MSE’nin karekökü — hata birimini orijinal hedef değişkenle eşleştirir.

Hangi metriğin seçileceği iş hedefine bağlıdır; örneğin büyük sapmaları önlemek kritikse MSE/RMSE, orta hataları azaltmak isteniyorsa MAE tercih edilebilir.

Veri ayırma önerisi: Sınıflarda dengesizlik varsa stratified split kullanın; bu, her bölümde sınıf oranlarını korur.
Çapraz doğrulama: k=5 veya k=10 yaygın seçimlerdir; veri azsa k’yi büyütün, hesaplama sınırlıysa k’yi küçültün.

Gerçek dünya örneği: E-posta spam sınıflandırmasında veri genelde dengesizdir; örneğin %95 “ham”, %5 “spam” ise model her zaman “ham” dese accuracy %95 çıkar fakat spamleri yakalayamaz. Bu yüzden spam için precision ve recall daha anlamlı metriklerdir; genelde yüksek recall istenirken yanlış pozitifleri (gerçek e-postaların spam işaretlenmesi) sınırlayacak makul bir precision hedeflenir.

💡 İpucu: İş hedefini net belirleyin — örneğin yanlış pozitifleri mi azaltmak gerekiyor yoksa kaçan önemli vakaları mı yakalamak? Hedefe göre precision, recall veya MAE/MSE/RMSE’den uygun olanını seçin.

⚠️ Dikkat: Sadece tek bir metriğe bakmak genelde eksik bilgi verir. Model karşılaştırmalarını aynı veri bölmeleri ve aynı ön işleme adımlarıyla yapın; aksi takdirde sonuçlar yanıltıcı olur.

Veri Kalitesi ve Ön İşleme

IoT sensörlerinden gelen verilerde sıkça eksik kayıtlar ve sapmalar (aykırı değerler) görülür. Ön işleme bu eksik ve bozuk verileri düzeltip modelin güvenilir sonuç üretmesini sağlar. Temel yaklaşım: önce eksikleri tanımlamak, sonra aykırı değerleri tespit etmek ve son olarak ölçekleme/normalizasyon uygulamaktır.

Eksik veri stratejileri şunlardır:

Silme (listwise deletion): Eksik gözlemi veri setinden çıkarma — basit ama büyük veri kaybına yol açabilir.
Ortalama/Medyan ile doldurma: Kolay uygulanır; ancak varyansı küçültebilir ve zaman serilerinde trendleri bozabilir.
Model tabanlı imputasyon: Regresyon, KNN imputasyonu veya zaman serisi interpolasyonu ile eksik değerleri diğer değişkenlerden tahmin etme — daha gerçekçi ama karmaşıktır.

Aykırı değerler ve gürültü için tespit yöntemleri:

Boxplot ile görsel inceleme.
Z-score eşiği kullanarak sayısal tespit (genelde |z|>3 kabul edilir).

Gerektiğinde aykırılar üzerinde dönüşüm (ör. log dönüşümü), kırpma/clip veya winsorizing uygulayabilirsiniz. Eğer anormali gerçek sensör hatasından kaynaklanıyorsa o kayıtları kaldırmak daha doğru olabilir.

Ölçekleme ve normalizasyon özellikle mesafe temelli modeller için kritiktir:

Standardizasyon (ortalama 0, std 1) ve Min-Max normalizasyon en yaygın yöntemlerdir.
kNN ve SVM gibi mesafe tabanlı yöntemler ölçek farklılıklarından ciddi şekilde etkilenir; bu yüzden önceden ölçekleme yapmak gerekir.

Gerçek dünya örneği: Fabrikadaki IoT sıcaklık sensörleri birkaç saat atlama yapıyor (eksik kayıt) ve bazı dakikalarda sensör paraziti nedeniyle ani 80°C sıçramaları görülebiliyor. Yol haritası: önce zaman serisi interpolasyonu veya KNN imputasyonuyla eksikler doldurulur, sonra z-score ile anormal sıçramalar tespit edilir; tek seferlik hataysa o ölçüm çıkarılır veya kırpılır, tekrarlayan sapma varsa sensör kalibrasyonu gerekir. Son adımda model eğitimi öncesi standardizasyon uygulanır ki kNN veya SVM doğru mesafe hesapları yapsın.

💡 İpucu: Zaman serilerinde komşu değerleri kullanan interpolasyon çoğu durumda ortalama doldurmadan daha doğrudur — çünkü çevresel değişkenler zamana bağlıdır.

⚠️ Dikkat: Eksik veriyi otomatik ve bilinçsizce ortalama ile doldurmak, özellikle anormallik tespiti veya arıza belirleme senaryolarında gerçek problemlerin maskelenmesine neden olabilir.

Görsel önerileri: Zaman serisi grafiği (sıcaklık vs. zaman) — eksik noktaları gösteren işaretlemeler; sensör başına boxplot karşılaştırması; z-score dağılımını gösteren histogram. Bu görseller veri kalitesini ve uygulanan önlemlerin etkisini anlatmak için faydalıdır.

Tarihsel Bağlam: Veri Biliminin Kısa Tarihi

Veri biliminin kökleri 19. ve 20. yüzyıla kadar uzanır. Bu dönemde istatistik ve matematiksel modelleme ön plandaydı; hipotez testi gibi yöntemler kullanılarak küçük veri kümeleriyle elle hesaplamalar yapılırdı.

1950’lerden 1990’lara kadar bilgisayar biliminin yükselişiyle temel makine öğrenmesi yaklaşımları geliştirildi: erken yapay sinir ağları (perceptron), karar ağaçları, destek vektör makineleri gibi algoritmalar araştırma ve uygulama alanında yerini aldı.

2010’dan itibaren büyük veri, bulut ve derin öğrenme teknolojilerinin yaygınlaşmasıyla “data science” (veri bilimi) terimi popülerleşti. Artık veri bilimciler; devasa kullanıcı etkileşimlerini, akış verilerini ve karmaşık modelleri kullanarak tahmin ve öneri sistemleri kuruyorlar.

19.–20. yy: İstatistik ve matematiksel modelleme öne çıktı.
1950’ler–1990’lar: Bilgisayar bilimi ve makine öğrenmesi algoritmaları geliştirildi.
2010+: Büyük veri, bulut ve derin öğrenme ile uygulamalar hızla yayıldı; “data science” terimi yaygınlaştı.

Gerçek dünya örneği: Netflix öneri motorunun evrimi. Başlangıçta basit işbirlikçi filtreleme yöntemleriyle öneriler verilirken, zamanla matris çarpanlaştırma ve günümüzde derin öğrenme yaklaşımları kullanılarak izleme davranışı, arama geçmişi ve içerik özetleri gibi çok daha fazla bilgiyle kişiselleştirilmiş öneriler üretiliyor.

💡 İpucu: Temel istatistik kavramlarını (ortalama, varyans, hipotez testi) ve en az bir programlama dilini (ör. Python) öğrenmek, veri bilimine başlamanın en pratik yoludur.

⚠️ Dikkat: Büyük veri ve güçlü modeller yanıltıcı olabilir; verinin önyargılı veya eksik olması yanlış sonuçlara yol açar. Ayrıca korelasyonun nedensellik anlamına gelmediğini unutmayın.

📌 Önemli Çıkarımlar

Özellikler (features) model başarısında belirleyici rol oynar; doğru özellik seçimi ve mühendisliği kritiktir.
Parametreler modelin öğrendiği değerlerdir; hiperparametreler ise eğitimi ve yapıyı kontrol eder.
Veri kalitesi, ön işleme ve uygun performans metriklerini seçme projelerin başarısını doğrudan etkiler.
Basit kavramları (train/test, overfitting, underfitting) iyi anlamadan ileri tekniklere geçilmemeli.
Gerçek dünya uygulamalarında iş problemi ile teknik çözümün doğru eşleştirilmesi en önemli adımdır.

📚 İleri Okuma

Andriy Burkov — The Hundred-Page Machine Learning Book (özet ve temel kavramlar için)
Scikit-learn documentation — Feature engineering ve model evaluation bölümleri
Coursera: Data Science Specialization (Johns Hopkins) — başlangıç uygulamaları
Hastie, Tibshirani & Friedman — The Elements of Statistical Learning (daha derin istatistiksel arka plan)

Sonuç

Kendi veri setinizle küçük bir deneme başlatın: bir CSV yükleyin, 3–5 temel özellik çıkarın, basit bir model eğitin ve iki uygun metrikle (ör. doğruluk ve recall veya MAE ve RMSE) sonucu değerlendirin. Sonra öğrendiğiniz bir hiperparametreyi değiştirip farkı gözlemleyin.

Etiketler: veri bilimi, özellik mühendisliği, özellik seçimi, hiperparametre ayarı, veri ön işleme

Kategori: 101 – yapay-zeka

İLGİLİ YAZILAR

İşlemci (CPU) Nedir ve Nasıl…

Kondansatörler (Kapasitörler): Teknik Özellikler ve…

Kondansatörler (Kapasitörler): Çeşitleri ve Sınıflandırma