Değişken Tipleri ve Veri Kaynakları

Veri bilimine giriş yaparken konuyu en temelden ele almanın sağlıklı olacağını düşünüyorum. İlk yazıda bu işin temelinde istatistik olduğundan bahsetmiştim. Şimdi veri biliminin yapı taşını oluşturan ve istatistik bölümünün ilk derslerinde anlatılan değişken ve değişken tipleri terimlerinden bahsedeceğim.

  • Değişken: Değişken her gözlem birimi için farklı değerler alabilen bir özelliktir. Diğer bir tanımla her gözlem birimi için farklılıklar gösteren nesne özellikleridir. Örneğin: Kişisel özelliklerden oluşan bir veri kümesinde cinsiyet, boy uzunluğu, yaş, kilo gibi soruların hepsi değişken kavramına denk düşer.

Değişken Türleri

İstatistiksel olarak yapılan analizler değişkenleri (veriyi) anlamlandırarak gerçekleştirilir. İstatistiksel analiz kısmına geçmeden önce değişkenlerin türleri ve ölçme düzeylerinin belirlenmesi gerekir. Yukarıdaki örnekten devam edecek olursak cinsiyet ve yaş aynı anlamsal cevaplar almazlar. Bu yüzden bu değişkenleri belirlemek ve ön bir aşamadan geçirmek gerekir.

Değişkenleri ölçü birimi bakımından değişken ve değer aralığı bakımından değişken olarak iki başlıkta inceleyebiliriz.

ÖLÇÜ BİRİMİ BAKIMINDAN DEĞİŞKEN

  • NİTEL DEĞİŞKENLER

Bir birimin niteliğini ifade ederlerdir ve sayısal değerler almazlar.

  • NİCEL DEĞİŞKENLER

Bir birimin sayısal değerler ile ifade edildiği değişkenlerdir.

DEĞER ARALIĞI BAKIMINDAN DEĞİŞKEN

  • KESİKLİ DEĞİŞKEN

Kesikli değişkenler bir değer aralığındaki tüm değerleri alamayan değişkenlerdir. Genellikle tamsayılardan oluşur. Örneğin öğrenci sayısı, yaş, bir mağazadaki ürün sayısı.

  • SÜREKLİ DEĞİŞKEN

Sürekli değişken ise kesikli değişkenin aksine bir değer aralığındaki tüm değerleri alabilen değişkenlerdir. Örneğin bir cismin ağırlığı, boy, sıcaklık.

DEĞİŞKEN ÖLÇME DÜZEYLERİ

  • SINIFLAMA (NOMİNAL) ÖLÇME DÜZEYİ

Soruya verilen yanıt sayısal ya da birbirine üstünlük göstermeyen cevaplar içeriyorsa bu tarz değişkenlerin ölçüm düzeyi sınıflamadır. Burada veriye etiketleme yapacak cevaplar verilir. Örneğin: cinsiyet, meslek, doğum yeri.

  • SIRALAMA (ORDİNAL) ÖLÇME DÜZEYİ

Sıralama ölçme düzeyi sınıflama ölçme düzeyine göre daha hassas ölçümleri içerir. Burada veriye yapılan etiketlemede bir sıralama vardır. Etiketlerin birbiri üzerine üstünlükleri/ önemi vardır. Örneğin Başarı durumu (kötü-iyi-orta), Eğitim durumu (ilkokul-lise-lisans), Semineri beğenme durumu (1-2-3-4-5) burada sayısal olarak atanmış cevabın sayısal bir değeri yoktur soruya göre üstünlüğü gösteren bir anlam ifade eder.

  • EŞİT ARALIKLI ÖLÇÜM DÜZEYİ

Eşit aralıklı ölçüm düzeyinde soruya yanıt olan sayısal ifadelerin matematiksel olarak bir anlamı vardır ve üzerinde matematiksel işlemler yapılabilir. Bu ölçüm düzeyinde mutlaka bilinmesi gereken bir şey vardır, burada mutlak bir sıfır noktası yoktur. Yani sıfır değeri bir yokluğu ifade etmez. Örneğin sıcaklık, zaman, başarı puanı.

  • ORANSAL (ORANLAMA) ÖLÇME DÜZEYİ

En hassas ölçüm düzeyidir. Burada sayısal değerler mutlak sıfır noktasına sahiptir. Burada mutlak sıfır noktası var olduğu için birimler arasında oransal farklılıklardan söz edilebilir. Örneğin ağırlık, uzunluk, gelir.

VERİ KAYNAKLARI

Günümüzde artan veri sebebiyle veriler veri tabanlarında ya da cloud sistemlerde saklamaktadır. En yaygın olarak kullanılan veritabanları sistemlerine göz atalım. Veri bilimi ve Makine öğrenmesi alanında SQL diline hakim olmak ve bir veritabanı yönetim sistemi kullanımını bilmek önemlidir. Çünkü çoğu çalışmada verileri veritabanlarından uygulama yaptığımız programlara çekerek işlem yaparız.

SQL (Structured Query Language – Yapılandırılırmış Sorgu Dili)

SQL veriler üzerinde sorgu ve işlemler yapmamıza imkan veren bir dildir. Aşağıda gösterilen yazılım dillerinde kolaylıkla kullanılabilirler. SQL veritabanı oluşturmak, tablo oluşturmak, veri eklemek, sorgulamak, silmek ve veri güvenliği sağlamak için kullanılır.

  • MySQL Veritabanı

MySQL 1995’te piyasaya sürülmüş ücretli ve ücretsiz sürümleri bulunan ilişkisel bir veri tabanıdır. Hızlı, sağlam ve pratik olması sebebiyle günümüzde hala popülerliğini korumaktadır.

  • ORACLE

Oracle temeli SQL sorgulama dili üzerine kurulmuş ilişkisel bir veritabanı yönetim sistemidir. Burada verilerini güvenle düzenleyip saklayabilirsiniz. Kurumsal amaçlı kullanımda esnek ve uygulanabilir olması sebebiyle çok tercih edilir.

  • SQLİTE

SQLİTE bağımsız ve sunucusuz bir veritabanıdır ve verileri bir cihazdaki metin dosyasına kopyalayan açık kaynaklı, ilişkisel bir veritabanıdır. Kullanımı kolaydır ve günümüzde pek çok işletim sistemi ve cep telefonu gibi gömülü sistemlerde kullanılmaktadır.

  • POSTGRESQL

POSTGRESQL veri tabanı açık kaynaklı ücretsiz ve ilişkisiz bir veritabanıdır.  SQL sorgu dilini destekleyen güvenilir ve yüksek performanslı olması sebebiyle çok tercih edilir. Tutulan veriler farklılaştığında tablosal yapılandırmaya gerek kalmaması kullanımını kolaylaştıran özelliklerinden biridir.

Günümüzde veri çok yaygın ve herkes tarafından kolaylıkla erişilebilir düzeyde. Çalışma yaparken açık veri kaynaklarını (TUİK, MERKEZ BANKASI, İBB Açık Veri Portalı) kullanabileceğimiz gibi bireysel çalışmalar için ise Kaggle ve Google gibi büyük platformların hazır verilerini de kullanabilirsiniz.

Umarım sizin için keyifli bir yazı olmuştur. Bir sonraki yazıda görüşmek dileğiyle.

İyi Çalışmalar 🙂

Leave a Reply

Your email address will not be published. Required fields are marked *