Hipotez Testi ve P-Value

This image has an empty alt attribute; its file name is 87-0.jpg

Hipotez testi istatistiksel çıkarım araçlarından biridir. Her istatistiksel çıkarım temelinde bir varsayım ile başlar. Bu varsayım sıfır(yokluk) hipotezi olarak kabul edilir.  Yapılacak istatistiksel analizden sonra sıfır hipotezini ya reddederiz ya da reddedemeyiz. Yokluk hipotezini reddetmemiz demek başka bir alternatif hipotezi kabul etmemiz anlamına gelir.

Bir hipotez testi aşağıdaki adımları içerir:

  • Araştırılması gereken H0 (yokluk) hipotezi ve H1 (alternatif) hipotezi belirlenir.
  • Hipotez test istatistiğinin hesabında kullanılacak veriler elde edilir.
  • İlgilenilen H0 hipotezi için kullanılacak hipotez testi belirlenir ve test istatistiği hesaplanır.
  • Hesaplanan istatistik değerinin veri setine uygun olan olasılık dağılımından elde edilen değerle karşılaştırılır.
  • P-value ve sonuçların karşılaştırılarak yokluk hipotezinin reddedilip reddedilmesine karar verilir ve sonuçlar yorumlanır.

Hipotez testini oluştururken en zorlanılan kısımlardan birisi hipotezlerin nasıl ifade edileceğidir. Özellikle çok fazla istatistik bilgisi olmayan bir araştırmacı için tüm istatistiksel kavramlar karmaşıklık ve hipotez testlerinin ifade edilmesi tam bir muammadır. Şimdi beraber bir kaç hipotez yazalım ve işlerin aslında göründüğü kadar karmaşık olmadığını anlayalım.

  • Sıfır/ yokluk (H0) Hipotezi adından da anlaşılacağı şekilde bir yokluk üzerine kurulur. Örneğin: İki grup üzerinde çalışma yapıyorsak bu grupların yaş ortalamaları üzerinde bir hipotez kurulması söz konusu ise hipotezimiz şöyle olur ‘İki grup ortalamaları arasında fark yoktur’ yine bu grup verilerinin aynı dağılımdan gelip gelmediğini araştırmak istediğimizde kuracağımız yokluk hipotezi şöyle olur ‘ İki grubun geldikleri dağılımlar arasında farklılık yoktur’.
  • Alternatif (H1) Hipotezi bu hipotezde H0 hipotezinin zıt ifadesini ifade edecek şekilde kurulur. Çünkü kurulan yokluk hipotezi reddedildiği zaman aradaki ilişkiyi açıklayacak alternatif bir olguya ihtiyaç duyulur. Bu düşünce ile H0 ve H1 hipotezleri birbirini tamamlayan ifadelerdir diyebiliriz. Yine yukarıda kurduğumuz yokluk hipotezlerinin alternatif hipotezleri şöyle ifade edilebilir, İki grup ortalamaları arasında fark vardır’ , ‘İki grubun geldikleri dağılımlar arasında farklılık bulunur’.
H0: Vitamin takviyesi alan kişiler ve almayan kişilerin Covid-19'a yakalanma olasılıkları arasında fark yoktur.
H1:  Vitamin takviyesi alan kişiler ve almayan kişilerin Covid-19'a yakalanma olasılıkları arasında fark vardır.

NOT: Yokluk hipotezi genellikle aynı kurulsada alternatif hipotezi belirlerken farklı hipotezler kurabiliriz. Test etmek istediğimiz şey her zaman iki ortalamanın eşitliği durumunu kontrol etmek olmayabilir. Yukarıdaki örnek üzerinden devam edersek araştırmamızda birinci grubun yaş ortalamasının ikinci grubun yaş ortalamasından büyük ya da küçük olduğunu varsayan bir analiz yapmak isteyebiliriz. Bu gibi alternatif hipotezin eşitliğini değil küçük-büyük olduğunu test etmeye yönelik kurulan hipotezler ‘Tek Yönlü Hipotez Testi’ olarak adlandırılır.

Şimdi adım adım bir analiz yaptığımızı düşünürsek öncelikle hipotez testimizin nasıl kurulacağını öğrendik sonra ki aşama olan verileri toplamaya sıra geldi. Veri toplamak analiz kısmının en önemli işlerinden birisidir. Çünkü yapacağımız analiz sonucunun tutarlı ve kullanılabilir olması için örneklem çapımızın yeterli ve popülasyonu en iyi temsil eden örneklerden oluşmasını isteriz. Bu konudan Örnekleme yazısında daha detaylı bahsedeceğim ancak bu kısmın daha açık ve net olabilmesi için örneklemede rasgelelik kavramını açıklamam gerekiyor. Rasgelelik kavramı herkesten duyup hemen hemen her istatistiki yazıda okuyabileceğimiz klasik bir kavram. Temelinde bu kavram örneklem oluşturulurken her biriminin seçilmesine eşit şans vermek anlamına gelir. Gelin bunu şöyle düşünelim biz bir araştırmacı olarak Ankara ili genelinde bir bütçe çalışması yapıyor olalım. Bunun için öncelikle Ankara’nın bazı ya da tüm ilçelerini belirlememiz daha sonra bu ilçelerden rasgele birimler seçerek örneklemi oluşturmamız gerekir böylelikle her ilçe ve her ilçede yaşayan kişilere eşit seçilme hakkı vermiş oluruz. Burada dikkat etmemiz gereken bir diğer nokta ise her ilçenin içerdiği kitle bakımından aynı maddi duruma sahip olamadığı gibi ilçeye ait mahallelerinde maddi gelir seviyesi açısından aynı olmadığıdır. Yani her birime eşit seçilme hakkının sağlanması rasgelelik kavramının karşılığıdır diyebiliriz. Kaliteli seçilmiş ve yeterince bir örneklem yığını mükemmel tahmin edemese de mükemmele yakın tahmin edebilir.



Hipotezimizi belirledik, verilerimizi topladık ve istatistiksel testimizi uyguladık diyelim şimdi sırada sıfır hipotezini reddetmek için kullanacağımız eşik değerini belirlemek var. Yaptığımız her testte bir hata payı vardır. Araştırmacı bu hata payını kendisi belirler. Hata payının yüksek olması yapılan analizin güvenilirliğini düşürürken, hata payının çok düşük seçilmesi güvenirlirliği artırsa da yokluk hipotezinin reddedilme olasılığını düşürür. İstatistikte bu hata eşiği/ hata payı genellikle 0.05 olarak alınır. Bu durum yapacağımız analiz sonucunun %95 güvenirlilikle olduğunu ifade eder. Bu 0.05 değer alfa, anlamlılık düzeyi, önem düzeyi ve hata payı olarak farklı şekillerde adlandırılabilir.

Şimdi benim aklım karıştı hata payını 0.05 almak tam olarak nedir, diye düşünebilirsiniz. O halde bu durumu hemen açıklıyorum: ‘Eğer H0 yokluk hipotezimiz reddedilemediyse (H0 doğru ifadesini kullanmak pek doğru değil ancak anlamlandırmak için böyle düşünebilirsiniz) bu aralıkta bir sonucu gözlemleme şansımızın %5 ten daha az olduğunu söyleriz’.

P-VALUE

Hipotez testi istatistik değerini de bulduğumuzda test için uygun olasılık dağılımını belirleyip p-value ile karşılaştırıp nihai bir sonuca ulaşmayı hedefleriz.

P-value değişkenler arasında var olan farklılığın şans eseri meydana gelmesi durumunun olasılığını verir. Eğer var olan farklılık şans eseri olmuşsa p-value > alfa olur ve yokluk hipotezini reddedemeyiz. Bu kavramı öğrencilik yıllarımda sıklıkla karıştırdığım için biraz daha net hale getirmek istiyorum. Test için olasılık dağılımlarından yararlanırken baktığımız şey aslında belirlediğimiz alfa sınırları içinde kaç gözlemin red bölgesine düştüğünü kontrol etmek.

This image has an empty alt attribute; its file name is WhatsApp-Image-2021-05-13-at-02.10.34-1024x576.jpeg

 20 deneğin bulunduğu bir araştırmada 3 denek red bölgesine düşüyorsa  p-value 3/20 olarak hesalanır. Bu değeri belirlediğimiz alfa/ hata payı ile karşılaştırarak yorumda bulunuruz.

p-value < alfa ise H0 Reddedilir

P-value hipotezin haricindeki tüm durumların olasılığıdır.

Hipotez Testi ve P-value hakkında temel kavramlardan bahsettiğim bu yazının devamı olarak bir diğer yazıda veri türümüze uygun olan istatistiksel hipotez testini nasıl seçmemiz gerektiğinden bahsedeceğim.

Okuduğunuz için teşekkürler.

Bir sonraki yazıda görüşmek dileğiyle…

İyi Çalışmalar 🙂

Leave a Reply

Your email address will not be published. Required fields are marked *