Kovaryans Analizi (ANCOVA)
İlk yazıda temel olarak kavramlardan , ikinci yazıda ise varyans analizinden bahsetmiştim. Bu yazıda önce kovaryans nedir tekrar kısaca hatırlayıp kovaryans analizi üzerinde konuşacağız.
Kovaryans iki değişkenin birlikte değişimlerinin ölçüsüdür.
KOV(X , Y) = E[ X- E(X)] – [(Y- E(Y)]
= E(XY) – E(X)E(Y)
X ve Y değişkeni birbirinden bağımsızsa (iki değişken birbirini etkilemiyorsa) ya da bir diğer deyişle birlikte hareket etmiyorlarsa KOV(X, Y) = 0 olur.
!! NOT: Dikkat edelim ! KOV(X, Y) = 0 olması bizi X ve Y değişkenlerinin bağımsız olduğu yanılgısına düşürmemeli. Bu durum iki değişken arasında doğrusal ilişkinin sıfır olduğu anlamına gelir.
KOVARYANS ANALİZİNE NEDEN GEREK VAR ?
Varyans analizi 2’den fazla bağımsız değişken olduğu durumlarda bağımsız değişkenlerin bağımlı değişkenler üzerinde ortalama olarak farkı var mı belirlemek için yapılan bir analizdi. Kovaryans analizide varyans analizinden çok farklı değildir. Kovaryans analizini varyans analizinin ve regresyonun uzantısı olarak düşünebiliriz. Peki ANOVA’dan çok farklı değilse neden kovaryans analizine (ANCOVA) ihtiyaç duyuyoruz gelin birkaç örnekle açıklayalım.
Kanser hastalığının tedavisinde 3 farklı ilaç grubunun kullanıldığını ve bu grupların iyileşme süresinde üzerinde farklılığa sebep olup olmadığı araştırılmak istensin. Burada göz ardı edilmemesi gereken bir durum var. İyileşme sürecine etki eden tek değişken ilaç grupları değildir. İyileşmeyi etkileyen stres düzeyi, yaş, beslenme düzeni gibi dış etkenler bulunur. Hesaba katılmayan bu değişkenler gözardı edildiğinde ilacın etkisi net olarak ölçülemeyeceği gibi hata varyansının artmasına sebep olur.
Kovaryans analizini doğru anlamlandırabilmek için her yerde rasgelebileceğiniz bir örnek daha verelim. 4 gruptan oluşan yarış atlarının hızları bakımından aralarında farklılık olup olmadığı ölçülmek istensin. Burada hızı etkileyecek tek faktör atların cinsi değildir. Atların yaşı, kilosu gibi değişkenlerde hızı etkileyen faktörlerdendir. Yapılacak araştırmada hız üzerinde grupların etkisini net olarak görebilmek için dış etkenlerden arınmamız yani dış etkenlerin yarattığı etkiyi baskılamamız gerekir.
Kovaryans analizinde stres düzeyi, beslenme durumu, atın yaşı ve kilosu gibi etkenler ‘kodeğişken (covariate- ortak değişken)’ olarak adlandırılır ve analize alınır. Böylelikle dış etkenler kontrol altına alınır, hata varyansı küçültülür ve işlemin ana etkisi daha başarılı ortaya çıkarılmış olur.
!!DİKKATT!! Kodeğişken belirlenirken çok dikkat edilmeli mümkünse önceki çalışmalardan referans alınmalı ya da alan bilgisine sahip birinden kullanılacak değişken ile ilgili destek istenmelidir. Kodeğişken aralıklı veya oransal verilerden oluşmalıdır. Bir diğer dikkat edilmesi gereken husus ise çalışmada birden fazla kodeğişken kullanılacaksa değişkenler arasındaki korelasyona bakılmalı ve yüksek korelasyonlu (0.8 ve üzeri) olanlar arasında elemeye gidilmeli aynı anda çalışmada kullanılmamalıdır. Son olarak kodeğişken ve bağımsız arasında doğrusal bir ilişki olduğundan emin olunmalıdır.
ANCOVA Varsayımları
- Gruplar birbirinden bağımsız olmalı.
- Varyans homojenliği olmalı.
- Grup içi regresyon katsayısı eşit olmalı. (Ortak değişken ve bağımlı değişken arasındaki ilişkinin yönü ve gücü her grupta benzer olmalı)
Şimdi örnek veri seti üzerinde Python ve SPSS uygulamaları yapalım.
PYTHON ANCOVA UYGULAMASI
- Gerekli Kütüphanelerin Yüklenmesi
pip install pingouin
import numpy as np
import pandas as pd
from pingouin import ancova
from scipy.stats import levene
import pingouin as pg
- Veri Setinin Oluşturulması
ancova_data= pd.DataFrame({'drug' : np.repeat(['A','B','C'],10),
'stress_level': [5,6,4,7,2,2,4,7,9,6,3,5,3,8,4,6,2,2,8,3,1,5,7,3,4,5,6,2,8,4],
'recuperation': [12,15,18,5,7,9,24,7,13,16,11,17,10,9,16,7,18,28,15,17,26,13,14,16,19,11,22,16,17,12
- Varyans Homojenliğinin Test Edilmesi
H0: Grup varyansları homojendir
H1: Grup varyansları homojen değildir
pg.homoscedasticity(data=ancova_data, dv='recuperation', group='drug')
- ANCOVA Analizinin Yapılması
ancova(data=ancova_data, dv='recuperation', covar='stress_level', between='drug')
- punc düzeltilmiş p değeri anlamına gelmektedir.
- Drug değişkeni için punc değer 0.37 > 0.05 olduğu için H0 hipotezi reddedilemez.
- İyileşmeyi etkileyen stres düzeyini hesapladıktan sonra bile ilaç gruplarının iyileşme süresine etkileri arasında farklılık yoktur.
SPSS ANCOVA UYGULAMASI
- Veri Girişini Yapalım
- Varyans Homojenliğini Test Edelim
- ANCOVA Analizinin Yapılması
Kovaryans analizini konu alan yazı ve uygulamalar burada bitiyor. Umarım herkes için açıklayıcı ve eğlenceli bir yazı olmuştur. Diğer yazılarda görüşmek dileğiyle 🙂
Kaynaklar:
- https://www.statisticssolutions.com/analysis-of-covariance-ancova/
- SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri ( Doç.Dr. Şeref Kalaycı)