Jenis-jenis Data Dalam Analisis Statistik

Jenis-jenis Data Dalam Analisis Statistik

Sebelum kita melakukan analisis data untuk nantinya mendapatkan insights dari data tersebut ataupun melakukan pengambilan keputusan, maka kita harus mengetahui jenis tipe dan karakteristik dari data tersebut. Mengapa penting? Karena masing-masing tipe data memiliki karakteristik sendiri-sendiri dan tentunya cara mengolah datanya pun berbeda.

Hal ini bisa dianalogikan jika kita memiliki beras dan ketan, maka keduanya memiliki karakteristik dan cara pengolahan yang berbeda. Jika kita memasaknya dengan cara yang sama unuk membuat nasi goreng misalnya, maka tentunya output (hasil) yang diharapkan tidaklah sama.

Lalu apa saja jenis-jenis data (tipe data) yang harus kita kenal?

  • Data numerik (numerical) – interval & ratio
  • Data kategori (nominal)
  • Data ranking (ordinal)

Data Numerik (numerical)

Data numerik atau dalam bahasa inggris dikenal dengan sebutan numerical adalah data di mana ia direpresentasikan dalam sebuah angka. Karakteristik dari angka adalah ia merepresentasikan sifat kuantitatif dari data itu sendiri. Maksud dari kuantitatif adalah jumlah, kadar, kapasitas yang bisa diukur dengan jelas. Misal air dalam gelas bisa kita ukur volumenya. Berat beras dalam karung beras bisa kita ukur beratnya, dan seterusnya.

Tipe data numerik ini dibagi menjadi beberapa jenis:

  • Data diskret (discrete)
  • Data kontinu (continuous)

Data diskret

Data diskret adalah data numerik (angka) yang tidak memiliki koma, atau dalam bahasa matematik dan programming disebut dengan integer. Dalam konteks statistik, data diskret juga disebut dengan attribute data. Karakteristik lain dari data diskret ini adalah tidak ada pecahan yang lebih kecil lagi. Misal kita tidak mungkin mengatakan 1,5 (satu setengah) orang. Maka yanga da adalah 1 orang atau 2 orang. Biasanya tipe data ini dihitung dalam satuan waktu tertentu.

Contoh dari data diskret adalah:

  • Berapa banyak pembelian yang dilakukan pelanggan dalam satu tahun? Nilainya bisa 20 pembelian/tahun, 30, 40, dan seterusnya.
  • Berapa kali kita mengedipkan mata dalam satu menit? Nilainya bisa 10 kali/menit, 40 kali bahkan 100 kali.
  • Apa hasil melempar dadu sebanyak 2 buah? Nilainya bisa 2,3,4,5,6,7,8,9,10,11,12.

Data kontinu

Data kontinu atau juga disebut dengan continuous data adalah tipe data yang memiliki nilai tak terbatas (dalam rentang tertentu) dan bisa disajikan dalam bentuk koma.

Contoh data kontinu antara lain:

  • Tinggi badan seseorang. Nilainya bisa 170,4 cm, 165,87 cm dan seterusnya.
  • Berat badan seseorang. Nilainya bisa 67.9 kg, 78,88 kg dan seterusnya.
  • Berapa lama waktu yang diperlukan pelanggan untuk memutuskan membeli (check-out) di toko online? Nilainya bisa 15 menit, 29,87 menit dan seterusnya.

Dalam konteks statistik, tipe data numerik ini juga sering digolongkan ke dalam 2 jenis, yaitu:

  • Data interval
  • Data ratio

Data interval

Data interval adalah data numerik (angka) yang karakteristiknya mirip dengan integer di mana ia tidak dinyatakan dalam decimal. Kemudian data interval tidak memiliki nilai 0 dalam makna matematis yang sesungguhnya (disebut dengan true zero). Misal suhu 0 derajat celcius bukan berarti ia bernilai 0 (kosong), melainkan ia adalah nilai kadar saja. Walau demikian, kita bisa menyatakan minus 15 derajat celcius, 0 derajat celcius, dan 15 derajat celcius seperti sebuah urutan dari kecil ke besar. Karena sifatnya yang tidak memiliki true zero maka kita hanya bisa melakukan operasi penjumlahan dan pengurangan, tapi tidak bisa melakukan operasi perkalian maupun pembagian.

Data ratio

Berbeda dengan data interval, maka data ratio memiliki true zero. Dengan demikian kita bisa melakukan banyak operasi matematika. Ini adalah tipe data favorit para data scientist, karena bisa melakukan banyak teknik statistik untuk mengolah data ini, termasuk penjumlahan, pengurangan, perkalian, dan pembagian.

Secara definitif, ia memang sangat mirip dengan data numerik kontinu (continuous), namun yang membedakan adalah ia tidak memiliki nilai minus. Contoh dari data ratio antara lain:

  • Luas tanah. Bisa diukur dalam meter persegi, hektar, dan lain-lain
  • Kadar dosis dalam obat. Bisa diukur dalam mg dan satuan lainnya.
  • Response time (kecepatan respons), bisa diukur dalam ms, s, jam, dan lain-lain.

Data Kategori (nominal)

Tipe data kategori ini tidak memiliki nilai numerik dan sifatnya lebih kepada kualitatif daripada kuantitatif. Dlam istilah statistik ia juga sering disebut sebagai data nominal. Sesuai namanya, data tipe kategori merupakan bagian dari beberapa kelompok. Misal, jika ada besar maka ada kecil, jika ada laki-laki maka ada perempuan, jika ada benar maka ada salah, jika ada ringan maka ada sedang kemudian berat (3 kategori), dan seterusnya.

Contoh dari data kategori antara lain:

  • Data biner (binary) yaitu data dengan 2 kategori. Misal cacat/tidak cacat, yes/no, baik/buruk, dan seterusnya.
  • Data ras , misalnya jawa, sunda, bugis, minang, dan seterusnya.
  • Data warna rambut, misalnya hitam, coklat, pirang, merah, dan seterusnya

Hal yang perlu diingat bahwa kita bisa merubah data kategori menjadi numerik. Misal data ras, hitam=1, coklat=2, pirang=3, dan seterusnya. Walau demikian, angka numerik dari data kategori ini tidak memiliki nilai matematis apapun. Jadi bukan berarti rambut warna hitam karena bernilai 1 lebih jelek dari rambut warna coklat yang bernilai 2, begitu pula pirang tidak lebih baik/buruk dari merah.


Data Ranking (ordinal)

Data ranking (ordinal) ini adalah campuran antara data numerik dan data kategori. Angka yang dimiliki oleh data ordinal memiliki arti matematis. Jadi nilai 2 memang lebih baik dari 1, nilai 5 memang lebih baik dari ilai 3 dan seterusnya.

Nilai yang dimungkinkan dalam data ordinal ini biasaya memiliki rentang tertentu. Misal ketika kita memberikan nilai (rating) untuk sebuah film yang baru saja kita tonton, maka kita memberikan rating mulai dari 1 (sangat tidak suka) hingga 5 (sangat suka).

Contoh lain dari data ordinal antara lain:

  • Rating yang kita berikan saat mengisi data kuesioner. Biasanya rentang antara 1 sampai 5 atau bahkan 1 sampai 10.
  • Rating yang kita berikan di aplikasi toko online apakah penjualnya memiliki rasting buruk (1) atau sangat baik (5). Biasanya dalam bentuk bintang.

Jadi itu adalah beberapa jenis-jenis data yang harus kita kenal agar ketika kita berhadapan dengan data, kita tahu teknik statistik yang tepat untuk mengolah data tersebut.

Di kesempatan lain saya akan bahas cara analisis data untuk masing-masing tipe data tersebut. Tetap kunjungi website saya untuk belajar data science.

Semoga bermanfaat!

Bagikan artikel ini:
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments