Data is the new soil

Data is not the new oil, but it’s the new soil (David McCandless, TedTalks)
Anda sudah pernah lihat video Mas David McCandless di Youtube? Kalau belum lihat ya. Mampir juga nonton video gurunya, Hans Rosling.
Data juga dapat mengungkap hal-hal yang tersembunyi di balik suatu fenomena yang kita hadapi. Tapi data dalam bentuk tabel kurang cepat memberi gambaran apa yang terjadi, karena itulah kita perlu visualisasi.
Untuk para geologiwan, peta geologi adalah hanya salah satu saja bentuk visualisasi. Peta ini mentransformasi tabel jurus dan kemiringan batuan, jenis batuan, dll menjadi zonasi batuan, penampang lapisan batuan, garis sesar, lipatan dll, ke dalam selembar kertas.
Berikut ini adalah contoh lain dari visualisasi yang bisa kita lakukan untuk mengungkap sesuatu yang sebelumnya tidak terlihat. Saya menggunakan “R” dan “mtcars” data set. Data set ini adalah salah satu saja dari data set yang sudah menyatu di dalam distribusi R. Data ini diekstraksi dari Majalah “Motor Trend” tahun 1974 yang terbit di AS. Isinya adalah 10 variabel spesifikasi dari 32 merek mobil buatan tahun 1973 – 1974 Motor Trend US magazine. Spesifikasi variabel atau parameter spesifikasi yang ada dalam data ini adalah:
mpg Miles/(US) gallon              di Indonesia dibaca sebagai km per liter BBM
cyl Number of cylinders         jumlah silinder
disp Displacement (cu.in.)        di Indonesia mengenalnya sebagai cc
hp Gross horsepower             tenaga kuda
drat Rear axle ratio                   di Indonesia dikenal sebagai rasio gear
wt Weight (lb/1000)              berat kendaraan
qsec 1/4 mile time                      waktu yang diperlukan dari diam hingga 0.25 mil
vs V/S                                     ada yang tahu ini apa?
am Transmission                      transmisis matik atau manual
gear Number of forward gears  jumlah gigi maju
carb Number of carburetors      jumlah karburator
Data ini pertama kali dianalisis oleh Henderson and Velleman (1981) dalam papernya Building multiple regression models interactively. Biometrics, 37, 391–411.
Ada yang masih menggunakan Ms Excel? Anda mungkin akan berpikir ulang.
Saya akan menggunakan R dalam membuat beberapa visualisasi dalam bentuk grafik sebagai berikut.
Dengan perintah “pairs(mtcars, main = “mtcars data”)” anda sudah bisa mendapatkan grafik matriks korelasi seperti di bawah ini. Coba anda lihat, banyak yang bilang keiritan mobil (mpg) hanya ditentukan oleh cc. Karena itu kalau di Indonesia harga mobil bekas ber-cc besar akan “jatuh bebas” dibandingkan yang ber-cc kecil.
Coba kita lihat grafik 1 di bawah ini sebagian saja. Tarik garis diagonal yang ada tulisan “mpg”, “cyl” dst, dan pilih setengah saja, apakah anda ingin lihat setelah segitiga yang atas atau yang bawah. They’re all the same. Let’s just choose the lower part.
Anda lihat pola titik-titik data yang membentuk garis lurus atau mirip garis lurus (berarah diagonal), dan ada pula yang acak. Pola yang pertama menunjukkan adanya korelasi antara kedua parameter dan pola yang kedua memperlihatkan korelasi yang sangat kecil atau bahkan tidak berkorelasi sama sekali.
Pola yang membentuk keteraturan diagonal dengan mpg adalah:
  • mpg ~ disp (cc) -> keiritan dengan cc
  • mpg ~ hp -> keiritan dengan tenaga kuda
Korelasi yang relatif lebih lemah terlihat antara:
  • mpg ~ drat -> keiritan dengan rasio gear
  • mpg ~ wt -> keiritan dengan berat kendaraan
Korelasi yang lebih lemah (tapi ada) adalah antara:
  • mpg ~ qsec -> keiritan denga waktu yang diperlukan dari diam hingga menempuh 0.25 mil
Dari sini terlihat bahwa keiritan mobil anda bukan hanya ditentukan oleh besar kecilnya cc, tapi juga dengan gaya mengemudi anda (diwakili variabel qsec).
image
Gambar 1 Correlation matrix BW
Kalau anda senang warna, maka dengan satu baris perintah “corrgram(mtcars)” anda bisa membuat grafik sejenis di bawah ini.
mtcarscorrgram2
Gambar 2 Correlation matrix berwarna
Grafik pada Gambar 3 berikut ini juga dibuat hanya dengan sebaris perintah “heatmap(as.matrix(mtcars))”. Juga dapat dilihat hirarki pengelompokkannya dalam bentuk garis. Yang menarik adalah:
  • bagaimana merk-merk Jepang mengelompok dengan merk Eropa, sementara merk Amerika membentuk kelompok sendiri (kecuali Dodge Challenger, AMC Javelin, Hornet, dan Valiant). Saya akan bahas di lain waktu.
  • Corolla dan Civic sekelompok dengan Ferrari Dino dan Fiat, Mazda dengan Merc 280 berada pada kamar yang sama, serta Corona, Datsun di dalam ruangan yang sama dengan Porsche.
Sangat menarik bukan. Yang seperti ini sangat bisa diterapkan di geologi juga.
IMG_0020
Gambar 3 Heatmap dan PCA
Yang menarik lagi grafik pada Gambar 4 berikut ini. Ada yang bisa menjelaskan? Saya akan bahas di lain waktu, atau sekaligus saya harus alih profesi jadi wartawan tabloid “Otomotif”.
Masih mau pakai Excel?
🙂
image
Gambar 4 Analisis mpg ~ disp (cc) ~ cyl

 

Leave a Reply

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s