Veri Ön İşleme Adım 2 : Aykırı Gözlem Analizi

This image has an empty alt attribute; its file name is 27688ab9247714dff3f6fc10df2a3193e254159d.jpg

Bir önceki yazıda teorik ve uygulamalı olarak veri setimizde eksik gözlem ile karşılaştığımızda neler yapabileceğimizi konuşmuştuk. Bu yazıda ise yine teorik ve uygulamalı olarak aykırı gözlem nedir aykırı gözlem analizi nasıl yapılır bundan bahsedeceğim.

Arkamıza yaslanıp kemerlerimizi bağlayalım 🙂 Veri Ön İşleme Adım 2 yolculuğu başlıyor, şimdiden keyifli okumalar 🙂

UYGULAMALI KODLAR İÇİN BURAYA GÖZATABİLİRSİNİZ

Aykırı Gözlem Nedir ?

İstatistiksel olarak anormal davranış gösteren değerlere aykırı gözlem denir. Bir başka değişle veri setindeki genel eğilimin (dağılımın) dışında kalan gözlemlere aykırı (uç) gözlem adı  verilir.

  • Aykırı gözlemler veri setinde yanlılığa sebep olurlar.  Peki bu yanlılık nasıl oluşur gelin bir örnekle inceleyelim.
This image has an empty alt attribute; its file name is 7-1.jpg

Yukarıdaki örneğe bakarak ortalama mutfak harcamasının 6.725 TL olduğu söylenir. Ancak geri  planda veri seti incelendiğinde aslında doğru ortalamanın 2.300 olması gerektiğini söyleriz. Ahmet veri setimize göre aykırı / beklenmedik  bir harcama yapmıştır ve bu aykırılığı tespit edemememiz sonuçlarımızda yanıltıcılığa sebep olur.

Aykırı gözlem veri setinde her zaman yüksek değer almayabilir. Bir örnek daha inceleyelim.

This image has an empty alt attribute; its file name is 7-2.jpg

Yukarıdaki örnekte gerçek vize not ortalaması 85 olması gerekirken aykırı gözlemler sebebiyle ortalama 56 olarak hesaplanmaktadır. Sınıf aslında başarılı bir sınıfken anormal gözlem sebebiyle orta başarıda bir sınıf olarak yorumlanır.

Aykırı gözlemler istatistiksel hesaplamalarda mıknatıs gibi hareket ederler. Anormal gözlemler olmalarına rağmen sonuçları kendi taraflarına çekerek gerçek gözlem değerlerini manipüle ederler.

Aykırı Gözlem Neden Olur?

  • Hatalı veri girişi. ( Fazladan ya da eksik değer girilerek)
  • Ölçüm hatası.
  • Verideki bozulumlar.
  • Doğal sebepler.  (Düşük olasılıkla gerçekleşmiş değerler)

Aykırı Gözlem Sorununu Çözmezsek Nelerle Karşılaşırız?

  • Makine öğrenmesi modellerinde eksik öğrenme (underfitting) ya da aşırı öğrenme (overfitting) durumlarıyla karşılaşma olasılığımız yüksektir.
  • Hata varyansı yükselir.
  • Normal dağılımdan gelen veri seti çarpık gibi gözükür.
  • İstatistiksel testlerin gücünü azaltır.

NOT: Aykırı gözlemin fazla olduğu veri setinde ortalama üzerinden yorumlama yapmak yanlıştır. Bu tarz veri setlerinde uç değerlere karşı robust (sağlam) olan medyan değeri üzerinden konuşmak daha mantıklıdır.

Aykırı Gözlem Türleri

  1. Nokta Aykırı Değer: Bir gözlemin dikkat çekecek şekilde diğer gözlemlerden ayırt edildiği durumlar. Yaş değişkeninin 35’ten küçük değer aldığı bir grupta 60 yaşında birinin olması.
  2. Bağlamsal Aykırı Değer: Öznitelik bakımından incelendiğinde aykırı gözlem olmayıp iki öznitelik birlikte incelendiğinde aykırı gözlem tespit edilmesi. Yaş ve kilo değişkeni bir arada incelendiğinde 5 yaşında birinin 35kg olması.
  3. Toplu Aykırı Değer: Veri setinde belirli bir grup içinde normal davranış gösteren ancak tüm veri seti incelendiğinde aykırı olarak belirlenen değişkenler. Ankara’daki hastaneler üzerinde yapılan araştırmada bazı hastanelerin kapandığına rastladığımızda bu bir aykırılık ifade etmez ancak kapanan hastanelerin tek bir ilçede meydana gelmesi toplu aykırılık oluşturur. ( Kapanan tüm hastanelerin Çankaya ilçesinde yer alması.)

Nasıl Tespit Edilir ?

Aykırı değer nasıl tespit edilir konusuna geçmeden önce biraz temel istatistiksel ölçümler ve aykırı gözlem arasındaki ilişkiden söz etmekte fayda var. Normal dağılım gösteren verilerin ortalama, medyan ve mod değerleri genellikle birbirine eşit ya da çok yakın değerler olurlar. Bu yüzden eğer öznitelik medyan ve ortalaması birbirinden anlamlı düzeyde farklılık gösteriyorsa veride aykırı değer varlığından şüphelenebiliriz.

DİKKAT!! Burada özellikle şüphe kavramını kullandım çünkü bu farklılık her zaman aykırı değer varlığını yansıtmaz. Bu farklılığın sebebi varyans kaynaklıda olabilir. Özniteliğin ortalama ve medyan değeri birbirinden çok farklı ise bundan şüphe duyup daha detaylı inceleme yapmalıyız.

This image has an empty alt attribute; its file name is 7-3.jpg
Eksik gözlem analizinde kullandığımız veri seti üzerinden devam edelim. Değişkenlerimizi incelediğimizde ortalama ve medyan değerleri hemen hemen aynı. Yalnızca Solids değişkeninde çok ufak bir farklılık var. Bundan şüphelenip yöntemleri anlattıkça daha detaylı inceleyelim.

Aykırı gözlem tespiti genel olarak 2 özellik bakımından tespit edilebilir.

  • Tek Değişkenli (Univariate)
  • Çok Değişkenli (Multivariate)

Tek Değişkenli Aykırı Gözlem Tespiti

Eğer veri setindeki her değişkenin tek başına incelenip aykırı gözlem analizinin yapılması tek değişkenli aykırı gözlem tespiti olarak adlandırılır.

Tek Değişkenli Yöntemler

1) Grafiksel Yaklaşımlar

1.1 Histogram : Histogram grafiği ile hızlıca değişken dağılımı kontrol edilip uçlarda yer alan gözlemler değerlendirilebilir.

This image has an empty alt attribute; its file name is 7-4.jpg

1.2 Box-Plot (Kutu Grafiği) : Kutu grafiği istatistikte sıkça kullanılan grafiklerden birisidir. Değişkenin çarpıklığı, min-maks, ortalama ve medyan değeri gibi birçok bilgiyi bu grafik yardımıyla edinebiliriz.

This image has an empty alt attribute; its file name is 1_2c21SkzJMf3frPXPAR_gZA-1024x512.png

Görselde de belirtildiği gibi verinin genel yığılım gösterdiği alan pembe bölgede bulunur. Medyan değeri çizgisi de bize dağılımın şekli hakkında bilgi verir. Eğer medyan çizgisi tam ortada ya da ortaya yakın konumdaysa veri normal dağılımlı, Q1 değerine yakın konumdaysa sağa çarpık ve Q3 değerine yakın konumdaysa sola çarpık olarak yorum yapılır. En uçtaki çizgiler ise veri setinde yer alan maksimum ve minimum değerlerden oluşur. Bu sınırların dışında değer alan gözlemlere ise aykırı gözlem adı verilir.  

This image has an empty alt attribute; its file name is 7-5.jpg

Bizim veri setimizde Solids değişkenine ait grafiği incelediğimizde minimumu aşan aykırı gözlem bulunmadığını ancak maksimum değeri aşan aykırı gözlemler var olduğunu söyleriz.

2) İstatistiksel Yaklaşımlar

2.1 Çeyrekler Açıklığı (IQR): Box-Plot grafiğindeki Q1 ve Q3 değerleri kullanılarak hesaplanır.

IQR = Q3 – Q1

Bu yöntem Tukey testi olarakta bilinir. Amaç 75. Çeyrek değerinden 25. Çeyrek değerini çıkartarak bir alt ve üst sınır oluşturmaktır.

  • alt_sınır= Q1 – 1.5*IQR
  •  ust_sınır= Q3 – 1.5*IQR
  •  Burada IQR değerini çarptığımız katsayı bizim sınırımızı oluştururken seçtiğimiz standart sapma değeridir. Yaygın kullanımı 1.5 standart sapmadır ancak bu değer 2, 2.5, 3 olarakta alınabilir.
This image has an empty alt attribute; its file name is 7-6.jpg
This image has an empty alt attribute; its file name is 8.jpg

2.2 Z-Skoru : Z- Skoru yöntemini kullanmak için değişkenlerin normal dağılımdan geldiğinden emin olmamız gerekir. Bu yöntemde değişkenin ölçeği değiştirilerek ortalamanın +-3 std.sapma dışında kalan gözlemler belirlenerek aykırı gözlem olarak kabul edilir.

Özniteliklerin ölçeği değiştirilirken aşağıdaki formül kullanılır:

  • Z = (x – μ) / σ
This image has an empty alt attribute; its file name is 7-7.jpg

2.3 Standart Sapma Yöntemi : Gözlemlerin ortalamanın kaç standart sapma uzağında olduğu kontrol edilir. 3 standart sapma uzakta kalan alt ve üst gözlemler aykırı değer olarak tanımlanır.

This image has an empty alt attribute; its file name is 8-1.jpg

2.4 Ortanca Mutlak Sapma (MAD) : Bu yöntem standart sapma yöntemine benzer bir yöntemdir. Tek fark burada değişkenlerin ortalamadan uzaklığına değil medyandan uzaklığına bakılmasıdır.

Çok Değişkenli Aykırı Gözlem Tespiti

Bazı analizlerde iki veya daha fazla değişkenin birbiri üzerine etkilerini inceleyerek gitmek isteyebiliriz. Böyle durumlarda çok değişkenli uç gözlem tespiti uygularız. Örneğin obezite durumu kontrolünde kişinin boy ve kilo değişkenlerini birlikte incelemek bize daha fazla bilgi verir. Bu gibi örneklerde iki değişkeni aynı anda inceleyerek aykırı değer belirleme gerekir.

Çok Değişkenli Yöntemler

1) Grafiksel Yaklaşım

Scatter Plot (Saçılım Grafiği) : Saçılım grafiği bize iki değişkenin birlikte nasıl dağılım gösterdiği bilgisini verir.

This image has an empty alt attribute; its file name is 7-8.jpg

2) İstatistiksel Yaklaşımlar

2.1 DBSCAN : K-Means’e alternatif bir kümeleme tekniğidir ve öncesinde küme sayısı belirtilmesine ihtiyaç yoktur. Bu yöntemde öznitelikler bakımından benzer olan gözlemler bir araya getirilerek kümeleme yöntemiyle analiz edilir. Kümeleme sonucunda -1 ve 0 değerleri döner. -1 değeri kümelenemeyen gözlemleri temsil ederken 0 değeri ise kümelenmiş değişkenleri ifade eder.

This image has an empty alt attribute; its file name is 7-9.jpg

2.2 LOFT (Local Outliers Factor) : LOFT yönteminde gözlemler bulundukları konumda yoğunluk tabanlı skorlanır ve aykırı olabilecek gözlemler tanımlanır. Buradaki noktaların local yoğunluğu komşularıyla karşılaştırılır. Eğer gözlem birimi komşularından anlamlı düzeyde farklılaşmışsa aykırı gözlem olarak belirlenir.

This image has an empty alt attribute; its file name is 7-10.jpg
  • LOFT Yöntemi Uyguladıktan Sonra Tespit Edilen Aykırı Gözlemler
This image has an empty alt attribute; its file name is 7-11.jpg

2.3 İzolasyon Ormanı (Izolation Forest) : Bu yöntemde amaç karar ağaçlarında olduğu gibi değişkenin köküne inerek aykırı gözlemleri kaçırmadan tespit edebilmektir. İzolasyon ormanı ile aykırı değer tespitinde belirli kriterlere dayanarak gözlemler için bir anormallik puanı hesaplanır. Puan -1 ve 1 değerlerini alır. -1 değerini alan gözlemler aykırı gözlem olarak belirlenir.

This image has an empty alt attribute; its file name is 7-12.jpg
This image has an empty alt attribute; its file name is 8-2.jpg

3) Makine Öğrenmesi Tabanlı Yaklaşım

Elliptic Envelope : Mantığı çok basittir, gözlemler etrafında eliptik bir çizgi oluşturularak iç gözlemler ve uç gözlemler birbirinden ayrılır. Çizgi içinde kalan gözlemler iç gözlem, dışarıda kalanlar ise aykırı gözlemlerdir. Burada contamination parametresine dikkat etmek gerekir. Bu parametre veri setindeki aykırı gözlem oranını temsil eder. Eğer herhangi bir değer girilmezse analizde 0.1 değeri kullanılır. Normalde 0-0.5 arasında değer alabilir, eğer aykırı gözlem oranınız fazlaysa contamination değerini yüksek almalısınız.

NOT: Veri setindeki aykırı gözlem oranını bilmiyorsanız bu yöntemin kullanılması pek önerilmez.

This image has an empty alt attribute; its file name is 7-13.jpg
This image has an empty alt attribute; its file name is 8-3.jpg

Aykırı Gözlemleri Tespit Ettik Peki Şimdi Ne Yapacağız?

Yukarıdaki yöntemleri kullanarak aykırı gözlemleri tespit ettik ve bu gözlemlerin indexlerine ulaştık. Bu aşamadan sonra yapmamız gerekenler eksik gözlem analizinde yaptıklarımızla neredeyse aynı işlemler.

  • Aykırı Gözlemler Silinebilir
  • Aykırı Gözlemler Doldurulabilir ( Ortalama, Medyan, Mod, Makine Öğrenmesi Tahminlemesi)
  • Aykırı Gözlemler Baskılanabilir (Alt sınırı aşan minimum değer ile, üst sınırı aşan maksimum değer ile değiştirilerek)
  • Aykırı Gözlemler Gözardı Edilebilir

Geçen yazıda bunlardan uzun uzun bahsettiğim için bu yazıda bunlara değinmeyeceğim. Bu yöntemler için uygulama kodlarına buradan ulaşarak detaylı inceleyebilirsiniz.

Ve Tabiki BONUS!! Aykırı gözlemler üzerinde işlem yapmak istemiyorum direkt makine öğrenmesi algoritmalarını kullanmak istiyorum diyorsanız uç değerlere karşı robust algoritmalar mevcut bunlar:

  • Decision Tree
  • Random Forest
  • XGBoost
  • AdaBoost
  • Naive Bayes

Bir Sonraki Yazıda Görüşmek Dileğiyle 🙂

Keyifli Çalışmalar 🙂

Leave a Reply

Your email address will not be published. Required fields are marked *