Muhteşem Üçlü Varyans – Kovaryans – Korelasyon
Her alanın bir yapı taşı vardır. Varyans, Standart Sapma, Kovaryans ve Korelasyon kavramları da istatistik biliminin yapı taşları arasında yer alır. Öyle ki basit şeyleri ve temeli iyi kavramak kavramları zihinde somutlaştırmak bilginin kalıcılığını artırır. Şimdi bu kavramları hep birlikte inceleyelim.
Yazıya başlamadan önce kısa bir ön bilgi için Tanımlayıcı İstatistik Araçları Nelerdir? yazısını okumanızı tavsiye ederim.
VARYANS – STANDART SAPMA
Tanımlayıcı istatistik araçlarından en yaygın olarak kullanılan aritmetik ortalamadır. Ortalama çoğunlukla yeterli gibi gözükse de bazı durumlarda yeterli olmadığı gibi yanıltıcı bir istatistikte olabilir. Bu gibi durumlarda farklı istatistiki ölçüm araçlarına ihtiyaç duyulur. Peki ortalama hangi durumlarda yeterli olmaz öncelikle bunu açıklayarak konuya giriş yapalım.
10 kişilik bir sınıfta istatistik dersi için vize not ortalamasının 60 olarak hesaplandığını varsayalım.
Tüm sınıfın notlarını bilmeyip yalnız sınıf ortalamasını bilen birisi sınıfın başarılı olduğunu düşünebilir. Ancak yukarıdaki notları incelediğinde aslında sınıfta herkesin başarılı olmadığını, aksine bazı notlar çok yüksek olduğu için ortalamanın yukarı çekildiğini fark edecektir. Bu küçük ve gözlemlenebilir veri seti için büyük bir soruna yol açmayabilir ancak verideki gözlem sayısının artmasıyla gözlemler gözden kaçar ve yanlış istatistiki yoruma sebep olur. Varyans tam bu noktada büyük rol oynar. Çünkü varyans verideki değişkenliğin ölçüsüdür.
Varyans hesabı ile bir dağılımdaki verilerin ortalamadan ne kadar uzaklaştığı ölçülür. Varyans formülünde her bir gözlem önce ortalamadan çıkarılır sonra karesi alınır ve böylelikle uçlarda olan değerlere fazla ağırlık verilmiş olur. Varyans ve Standart Sapmanın yüksek olması veride birbirinden uzak gözlemlerin olduğu anlamına gelir. Gelin yukarıdaki veri setimiz için varyans ve standart sapmayı hesaplayalım.
NOT: Standart sapma varyansın karekönün alınmasıyla bulunur.
Buradan Varyans= 1250, Standart Sapma = 35.35 olarak hesaplanır. Görüldüğü üzere örneğimiz için varyans ve standart sapma değerleri çok yüksek çıktı. Zaten veriye baktığımız zaman notların uç değerler aldığını ve birbirinden farklılaştığını görebiliyoruz. Peki veri ile ilgili bilgimiz olmaksızın elimizde yalnızca ortalama ve standart sapma bilgileri varken biz nasıl bir yorum yaparız? Bu örneğimiz için ortalama değerimiz 60 standart sapma ise yaklaşık 35 çıkmıştı, bu da demek oluyor ki bizim veri setimizdeki gözlemler ortalamadan +35 ve -35 arasında değer alıyor. En yüksek gözlemin yaklaşık 60+35=95 en düşük gözlemin ise yaklaşık 60-35=25 olduğunu söyleyebiliriz.
Artık varyans ve Standart Sapma ölçülerinin istatistiki açıdan neden çok değerli olduğunu biliyorsunuz 🙂
NOT: Burada varyansın regresyon analizi ve makine öğrenmesinde neden önemli olduğundan çok ufak bahsetmek istiyorum. Regresyon analizi istatistikte ve makine öğrenmesinde kullanılan bir yöntem. Bu analizde amaç tahmin etmek istediğimiz bağımsız(hedef) değişkeni en çok etkileyen/açıklayan değişkenleri bulup ağırlıklandırma yaparak bir model çıkartmaktır. Gözlem birimleri sütun bazında çok fazla değişkenlik göstermiyorsa bu değişkenler regresyon modeli için fazla öneme sahip olmaz. (Kişinin not ortalamasını etkileyen faktörler araştırılırken maddi durum, yaşadığı yer ve yaş değişkenlerini kullandığımızı düşünelim. Eğer araştırma yaptığımız grup aynı yaşa sahipse her gözlem birimi aynı değeri alacağı için yaş değişkeni artık not ortalaması açısından bir önem arz etmez ve modelden çıkarılabilir.)
KOVARYANS
Kovaryans kavramı iki değişken arasındaki ilişkiyi tanımlar. Örneğin kaygı düzeyi ve mutluluk seviyesi değişkenlerini düşünelim. Mantıken düşündüğümüzde kaygısı az olan insanların daha mutlu olacağını söyleriz. Ancak bilimsel bir araştırma yaparken mantık süzgeciyle değerlendirmenin yeterli olmayacağı kesindir ve bunu söyleyebilmemiz için bilimsel geçerliliği olan bir kanıta ihtiyacımız vardır. Bu durumda iki değişken arasındaki ilişkiyi pozitif-negatif olarak yorumlamamızı sağlayacak kavram kovaryanstır.
Burada kovaryans değerini -893.4 olarak hesapladık. Sonucun negatif çıkması iki değişkenin birbiriyle ters bir ilişkisinin olduğunu ifade eder. Yani bu veri seti için iki değişken arasında bir ilişki olduğu, kaygı düzeyi arttıkça mutluluk azalmakta ya da tam tersi mutluluk arttıkça kaygı düzeyinin azaldığı yorumunu yapabiliriz.
KORELASYON
Az önce kovaryansın iki değişken arasındaki ilişkiyi tanımlayan bir istatistiki ölçüm olduğundan bahsetmiştik. Korelasyon ise bize iki değişken arasındaki ilişkinin yönünü ve ölçüsünü verir. Peki bu neden önemli? Şöyle düşünelim gün içerisinde yaşadığımız bir sürü olay var ve bu olaylar bizim motivasyonumuzu etkiliyor. Yani yaşanan her şeyin bizim ruhsal durumumuz üzerinde bir etkisi olduğu kesin. Burada dikkat etmeniz gereken nokta yaşanılan her olayın sizi aynı ölçüde etkilememesidir. Sabah işe giderken trafiğe takılıp geç kalmanız üstüne birde bir ton laf işitmeniz ile uğurlu saydığınız kalemi evde unutmanız motivasyonunuzu aynı ölçüde etkilemeyecektir. İşte bu örnek üzerinden ilk durum (trafiğe takılma) ve motivasyon değişkenleri arasında bir korelasyon hesaplaması yapılsa tahminen ters yönlü ve güçlü bir ilişki olacağını, ikinci durum ve motivasyonunuz arasındaki ilişkiyi ölçtüğümüzde ise yine ters yönlü ancak çok güçlü bir ilişki olmadığı yorumunu yapmayı bekleriz.
Korelasyon formülü ve hesabına geçmeden önce ufak bir örnek daha vermek istiyorum. Hepimiz bir alışveriş yapacağımızda ya da kitap alıp, sinemaya gideceğimizde arkadaşlarımıza, aile bireylerimize sorup fikir almak isteriz. Fikir almamızın temelinde onların bizleri çok iyi tanıması ve zevklerimizi bilmesi yatar. Çünkü bu kişiler bizlerin önceki tercihleri hakkında bilgi sahibidir ve ne tarz şeyler beğenebileceğimizi daha iyi bilirler. Bu sebeple verecekleri tavsiyelerde bir eleme yapar zevkimiz ile korelasyonunun yüksek olduğunu düşündüğü öneriler sunar. Tıpkı online alışveriş yaptığınız sitenin sizin alışveriş değerlendirme puanlarınızı ve gezdiğiniz ürünleri analiz edip diğer ürünler ile karşılaştırıp ortak özellik ve değerlendirmelere sahip (aldığınız ürün ve satıştaki ürün arasındaki yüksek korelasyona sahip ürünleri) olanları size öneri olarak sunması gibi.
Yukarıdaki mutluluk ve kaygı örneği üzerinden devam edecek olursak örnek için X’in std.sapması 35.35 Y’nin std.sapması ise 26.9 olarak bulunur. Bu değerleri kullanarak korelasyon değerini yukarıdaki formül yardımıyla -0.93 olarak buluruz.
Korelasyon -1 ve +1 arasında değer alır. Negatif değerler ters ilişki(biri artarken diğeri azalan), pozitif değerler ise aynı yönlü(biri artarken diğeride artan) ilişki olarak açıklanır. Değerler -1 ve +1 ‘e yaklaştıkça ilişkinin gücünün arttığından bahsedilir. Bu örnek için kovaryans hesabında da belirttiğimiz gibi kaygı ve mutluluk değişkenleri arasında ters yönlü kuvvetli bir ilişki bulunur diye yorum yapabiliriz.
Umarım bu önemli kavramlar için verdiğim örnekler yeterince açıklayıcı olmuştur. İstatistik uzaktan karmaşık ve korkunç görünse de yakından tanıdıkça ve anlamlandırdıkça çok seveceğinize eminim 🙂
Keyifli Çalışmalar Dilerim 🙂