Denetimli Öğrenme Yönteminde Problemin Tanımlanması

08/02/202208/02/2022 Kardelen ERDEM YÜNEY 0 Comments #classification, #datascience, #dataset, #denetimliöğrenme, #doğrusalmodel, #gözetimliöğrenme, #machinelearning, #makineöğrenmesi, #pandas, #python, #regression, #regresyon, #sınıflama, #sınıflandırma, #supervisedlearning, #veribilimci

This image has an empty alt attribute; its file name is Untitled-2.jpg

Bir önceki yazıda denetimli öğrenme, denetimsiz öğrenme, takviyeli öğrenme ve yarı denetimli öğrenme kavramlarından bahsetmiştim. Bu yazıda ise denetimli öğrenme yöntemlerini biraz daha yakından tanıyıp veri seti önümüze geldiğinde problem tespiti (sınıflandırma-regresyon) nasıl yaparız bu konu üzerinde duracağız.

Öncelikle denetimli (supervised) öğrenme neydi ufak bir tekrar edelim. Eğer çalışacağınız veri setinde makinenin öğrenmesini istediğiniz yanıt(hedef-target) değişkeniniz varsa denetimli öğrenme gerçekleştirebilirsiniz.

Hangi veri setinde denetimli öğrenme gerçekleştireceğimizi artık biliyoruz. Bu noktada dikkat etmemiz gereken bir diğer önemli şey hedef değişkenimizin tipi. Hedef değişkenimizin tipine göre sınıflandırma ya da regresyon problemi olduğunu belirleriz.

LİNEER REGRESYON PROBLEMİNİN TANIMLANMASI

Regresyon, değişkenler arasındaki matematiksel ilişkiyi analiz edip modellemek için kullanılan istatistiksel bir yöntemdir. Hedef (target) değişkenimiz sayısal bir değer alıyorsa o zaman veri setini lineer regresyon algoritmaları kullanarak modelleriz.

!DİKKAT! Burada dikkat etmemiz gereken en önemli şey hedef değişkeninin matematiksel bir değerinin olmasıdır. Bazı veri setlerinde 0-1-2 gibi verilerle karşılaşabiliriz, bu verilerin aslında matematiksel bir değeri yoktur ve regresyon değil sınıflandırma problemidir.

This image has an empty alt attribute; its file name is Ekran-Alıntısı-1.jpg — Burada beta 0 katsayısı doğrunun orijini kestiği noktayı, diğer beta değerleri ise değişkenlerin ağırlıklarını temsil eder. Lineer regresyonda değişkenler hedef değişkeni açıklama oranına göre ağırlıklandırılır. Yani tahmin(hedef) verisini en çok etkileyen değişken hangileriyse onlara yüksek katsayı(ağırlık) verilir.

Gelin bir örnek üzerinden giderek kendi veri setimizi oluşturup regresyon kavramını anlamlandıralım. Piyasaya yeni sürülen bir ilacın insanlar üzerinde iyileşme süresinin kaç gün olduğu araştırılmak istensin. Bu araştırma için 15 kişiden yaş, kilo, ilaç dozu(mg), kronik rahatsızlık durumu ve iyileşme süresi(gün) bilgileri alınsın.

This image has an empty alt attribute; its file name is Ekran-Alıntısı.jpg

This image has an empty alt attribute; its file name is Ekran-Alıntısı2.jpg

Oluşturduğumuz liste yapılarını sözlük olarak tanımlayıp pandas dataFrame oluşturalım.

This image has an empty alt attribute; its file name is Ekran-Alıntısı3.jpg — 15 gözlemden oluşturduğumuz veri setimiz hazır.

Bu veri setinde iyileşme süresi bizim modellemede kullanacağımız hedef değişkenimiz. Regresyon algoritmalarını kullanmamız için hedef değişkeninin burada matematiksel olarak bir anlamı olması gerekiyor. Regresyon verisine son bir örnek daha vererek sınıflandırma örneğine geçelim. Araba konusunda teknik bilgiye sahip olmayan birinin arabasını satmak istediğini düşünelim. Satıcı fiyat belirlerken iki farklı yol seçebilir. İlk yol çevresinde tanıdığı kişilere, teknik servis ve galerilere aracının fiyatının ne olduğunu sormak ikinci yol ise internetten aracıyla benzer özelliklere sahip araç fiyatlarını araştırmaktır. İlk yöntem pek yeterli gelmeye bilir ancak ikinci yöntemde binlerce aracın özelliklerinden (araç yaşı, kilometresi, kaza-hasar durumu, yakıt tipi vb.)ve satış fiyatından oluşan bir veri seti modellemesi yapıldığında kişi belirtilen özellikleri girerek en doğru sonuca ulaşacaktır.

SINIFLANDIRMA PROBLEMLERİNİN TANIMLANMASI

Peki sınıflandırma problemlerini neden lineer regresyon yöntemiyle çözemeyiz? Lineer regresyon problemlerinde bizim tahmin etmek istediğimiz değişken -∞ ve +∞ aralığında türlü değer alabilir ve değişkenler arasında matematiksel modelleme yapılırken bu değerlere en yakın doğru çizilerek bir denklem oluşturulur. Sınıflandırma problemlerinde ise tahmin değişkenimiz kesikli bir değere sahiptir. Evet-hayır, iyi-kötü, katılıyorum-kararsızım-katılmıyorum gibi etiketler vardır. Modelleme yapılırken bu etiketleri temsil edecek 0-1-2 gibi sayısal değerler verilir. Bu etiketlerin sayısal değeri yoktur ve lineer regresyon doğrusu çizilemez. Burada hedef iki sınıfı birbirinden en doğru ayıracak bir lojistik eğrisi belirlemektir.

This image has an empty alt attribute; its file name is 0_LeezUk9jfv6X7DG-.png

Gelin son olarak bir sınıflandırma örneği verelim ve bu yazıyı bitirelim. Örneğin bir bölgedeki balık popülasyonunu sınıflandırmak istediğimizi düşünelim. Balıkların pulluluk oranı, omurga özelliği, boyu, ağırlığı, yaşadığı derinlik, solungaç özellikleri değişkenleri kullanarak popülasyonu türlerine göre (hamsi, çipura, kolyoz, kılıç, …) ya da yenilebilen balıklar, yenilemeyen balıklar olarak sınıflandırabiliriz.

Umarım makine öğrenmesine yeni başlayanlar için ve ‘evet regresyon-sınıflandırma problemleri farklı kavramlar ama neden yapıyoruz hala çok anlayamadım‘ diyenler için açıklayıcı ve keyifli bir yazı olmuştur.

Bir sonraki yazıda görüşmek dileğiyle 🙂

Keyifli Çalışmalar 🙂

LİNEER REGRESYON PROBLEMİNİN TANIMLANMASI

SINIFLANDIRMA PROBLEMLERİNİN TANIMLANMASI

Leave a Reply Cancel reply