Korelasyon Analizi
Korelasyonun bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ve ilişki yönünü gösteren bir istatistiksel ölçü olduğundan serinin ilk yazısında bahsetmiştik.
Korelasyon bağımlı ve bağımsız değişkenler arasındaki ilişkiyi pozitif yönlü ve negatif yönlü olarak iki şekilde açıklar. Pozitif yönlü ilişkide bağımlı değişken arttıkça bağımsız değişkende artar, negatif yönlü ilişkide ise bağımlı ya da bağımsız değişkenlerden biri artarken diğeri azalır.
Yazıya geçmeden projeyi incelemek isterseniz buradan ulaşabilirsiniz.
- Pozitif Yönlü Korelasyon
Aşağıdaki görselde hava sıcaklığı arttıkça dondurma satışının arttığını gözlemleyebiliriz.
- Negatif Yönlü Korelasyon
Negatif yönlü ilişkiyi aşağıdaki görselde gözlemleyebiliriz. Kaygı seviyesi arttıkça mutluluk düzeyinde artış olur. Ya da tam tersi şekilde ifade edersek mutluluk düzeyi arttıkça kaygı seviyesinde azalma görünür.
Eğer iki değişken arasında bir ilişki yoksa korelasyon görseli aşağıdaki gibi olur.
İki değişken arasındaki korelasyon ölçümü ‘basit korelasyon’, ikiden fazla değişken arasındaki korelasyon ölçümü ise ‘çoklu korelasyon’ olarak adlandırılır.
NOT: 3 ve daha fazla değişken olduğunda belirli değişkenleri sabit tutarak yalnız iki değişken arasındaki korelasyonun ölçülmesine ‘kısmı korelasyon’ adı verilir.
!!! Korelasyon Analizi python’da SciPy, Pandas ve Pingouin gibi kütüphaneler aracılığı ile yapılabilir.
Belirli Korelasyon Katsayıları
- Pearson Korelasyon Katsayısı
Pearson korelasyon katsayısı iki değişken arasındaki doğrusal ilişkinin derecesi belirlenirken kullanılır. Bu katsayıyı kullanmak için iki değişkeninde sürekli değişkenler olduğundan emin olmamız gerekir.
NOT: Burada doğrusal ilişki söz konusu olduğu için korelasyon hesabından önce aradaki doğrusallık tespit edilmelidir. Bunun için öncelikle serpilme grafiği kullanılarak doğrusallık kriteri gözden geçirilebilir. Eğer değişkenler arasında doğrusal ilişki yoksa bu katsayı kullanılmamalıdır.
Pearson korelasyon katsayısı “r” ile gösterilir ve [-1,1] arasında değer alır. Eksili değerler Negatif Yönlü İlişki, artılı değerler Pozitif Yönlü İlişki olarak yorumlanır.
| r = 0.00 – 0.25 | Çok Zayıf İlişki |
| r = 0.26 – 0.49 | Zayıf İlişki |
| r = 0.50 – 0.69 | Orta İlişki |
| r = 0.70 – 0.89 | Güçlü İlişki |
| r = 0.90 – 1.00 | Çok Güçlü İlişki |
- SciPy
import scipy.stats
r, p = scipy.stats.pearsonr(pozitif_corr['sicaklik'], pozitif_corr['dondurma_satisi'])
print(r,p)
0.9185113164055592 2.901513894542322e-08
- Pandas
pozitif_corr['dondurma_satisi'].corr(pozitif_corr['sicaklik'])
0.918511316405559
NOT: Burada method belirterek pearson-spearman gibi katsayıları hesaplayabiliriz. Yukarıda olduğu gibi hiçbirşey belirtmezsek default olarak pearson korelasyon katsayısını hesaplayacaktır.
- Spearman Korelasyon Katsayısı
Pearson korelasyon katsayına bakmadan önce doğrusallık kontrolü yapmamız gerektiğinden bahsetmiştik. Serpilme (saçılım) grafiğinde değişkenler doğrusal değilse, normal dağılmıyorsa ve gözlem birimimiz (n) yetersizse Spearman Korelasyon Katsayısı kullanılır.
Spearman korelasyon katsayısında her iki değişkende sürekli, sıralı ya da kesikli ölçüm düzeyinde olmalıdır. Burada sıralı ölçüm düzeyinden kasıt değişken değerlerinin bilinmeyip sadece sıra değerlerinin bilinmesi durumudur.
Spearman katsayısı da [-1,1] arasında değer alır ve yukarıdaki tablo bu katsayının yorumlanmasında da kullanılabilir. Katsayılar 1’e yaklaştıkça pozitif yönlü güçlü bir değişkenin varlığından, -1’e yaklaştıkça ise negatif yönlü güçlü bir ilişkinin varlığından söz edilir.
NOT: İlişki doğrusalsa ve veride aşırı aykırı değer yoksa Spearman ve Pearson katsayıları yaklaşık aynı sonucu verirler.
- SciPy
r, p = scipy.stats.spearmanr(negatif_corr['kaygı_seviyesi'], negatif_corr['mutluluk'])
print(r,p)
-0.9500986162296566 1.5195514411700465e-10
- Pandas
pozitif_corr['dondurma_satisi'].corr(pozitif_corr['sicaklik'],method='spearman')
0.9015021185424552
Diğer İlişki Katsayılarını Aşağıdaki Tablodan İnceleyebilirsiniz
Kısmi Korelasyon Katsayısı
Kısmi korelasyon katsayısı girişte belirttiğimiz gibi 3 veya daha fazla değişken olduğunda kullanılır. Bu gibi durumlarda ikili ilişkiyi doğru ölçebilmek için bir ya da daha fazla değişkenin etkisini kontrol altına almak gerekir.
Bu konuyu ufak bir örnekle detaylandıralım. Dondurma satışı ve tatil bölgesine ziyaret arasındaki ilişkiyi ölçmek istediğimizi düşünelim. Burada her iki değişkenide etkileyecek bir başka değişken hava sıcaklığı olacaktır. Hava sıcaklığının varlığı iki değişken arasındaki ilişkinin net olarak ölçülmesini engeller. Bu durumda yapmamız gereken kısmi korelasyon yöntemini kullanarak hava sıcaklığı değişkenini sabit tutmak ve dondurma satışı ile tatil bölgesine ziyaret arasındaki net korelasyonu bulmaktır.
Aşağıdaki grafikte göründüğü üzere Hava sıcaklığının dondurma satışı ve turist sayısı ile ilişkisi vardır.
- Turist değişkeninin etkisi sabit tutulduğunda hava sıcaklığı ve dondurma satışı arasında pozitif yönlü güçlü bir ilişki bulunmaktadır.
- Hava sıcaklığı değişkeni sabit tutulduğunda dondurma satışı ve turist değişkenleri arasında negatif yönlü zayıf bir ilişki bulunmaktadır.
Korelasyon analizini konu edindiğim yazı burada son buluyor. Umarım sizler için açıklayıcı ve faydalı olmuştur. 🙂
Bir Diğer Yazıda Görüşmek Dileğiyle,
Keyifli Çalışmalar 🙂