Tag Archives: data visualization

Data story teller

Menceritakan data seperti dongeng sebelum tidur

Beberapa hari ini saya sering kali mendengar kata data story teller. Profesi baru katanya dengan pekerjaan utama membuat data analisis terdengar seperti dongeng sebelum tidur. Ya data selama ini hanya berakhir dengan grafik statis. Bahkan kalupun sudah jadi grafik dinamis pun, kita sering belum dapat membuat kisah menarik darinya.

Continue reading Data story teller

(accepted) Topic Modeling: An Approach for Research Design

The following abstract is accepted for the upcoming 6th International Conference on Educational, Management, Administration and Leadership (6th ICEMAL 2016) will be held on August 28, 2016 in Bandung, Indonesia. Below I’ve updated with pre-event video presentation.

————————————-

Topic Modeling: An Approach for Research Design

Dasapta Erwin Irawan (a*), Adhi Priyambodho (b)

a) Faculty of Earth Sciences and Technology,
Bandung Institute of Technology
Jalan Ganesha 10, Bandung 40132, Indonesia
*erwin@fitb.itb.ac.id

b) Faculty of Water Resources,
TU Delft, The Netherlands

Abstract

Research design has been a major problem for early career researcher, especially PhD students. This paper discusses new approach to assist a researcher choosing their research topic based on previous papers/studies. Here we use open source tools (Vosviewer and Zotero reference manager) to visualize research topic under keywords “groundwater Jakarta” from close to 256 papers harvested from Google Scholar and Crossref scientific database. Using this approach we can identify the change of main research issues in groundwater resources from the 70s to date. We also see the research flow path during the period and determine new interesting subtopics. Based on the result we believe that this technique is applicable for postgraduate students

Keywords: topic modeling, data visualization, reference manager

Topic: Internet technologies in Education

Full paper and other resources (datasets, images) are stored here, and the slide v1.0 is already available on SpeakerDeck.

https://speakerdeck.com/dasaptaerwin/topic-modeling-an-approach-for-research-design

 

Ch 7: Analisis (Menulis–ilmiah–itu menyenangkan)

Blogpost ini akan sedikit lompat dari yang kemarin. Sekarang kita coba langsung ke Bab Analisis dalam proyek buku selanjutnya (WTF: (scientific) Writing is Totally Fun).

Sebagai ahli kebumian,  output utama kita biasanya peta, tapi sejalan dengan perkembangan teknik analisis spasial, (geo)statistik, dll, maka presentasi data dalam bentuk tabel dan grafik (chart) juga memegang peranan penting, terutama bagi pembaca awam (tidak punya latar belakang ilmu kebumian). Mereka juga akan mencermati angka-angka yang tertera dalam tabel dan grafik.

Berikut ini sebuah rujukan ringkas dari Dinas Statistik UK yang straight forward mengenai penyajian data. Beberapa catatan sangat penting untuk dicermati, misalnya:

  • di mana meletakkan variabel dan lokasi pengukuran (atau sampel),
  • bagaimana mengurutkan dan membandingkan data dalam tabel,
  • pentingnya memberikan anotasi garis pada grafik, misalnya untuk memperlihatkan batas ambang.

Saya akan coba sarikan dengan memperhatikan sumber lainnya dan pengalaman (pendapat) pribadi saya dalam blogpost berikutnya.

Screen Shot 2015-07-10 at 05.40.40

(dipinjam dari: http://style.ons.gov.uk/category/data-visualisation/)

Data is the new soil

Data is not the new oil, but it’s the new soil (David McCandless, TedTalks)
Anda sudah pernah lihat video Mas David McCandless di Youtube? Kalau belum lihat ya. Mampir juga nonton video gurunya, Hans Rosling.
Data juga dapat mengungkap hal-hal yang tersembunyi di balik suatu fenomena yang kita hadapi. Tapi data dalam bentuk tabel kurang cepat memberi gambaran apa yang terjadi, karena itulah kita perlu visualisasi.
Untuk para geologiwan, peta geologi adalah hanya salah satu saja bentuk visualisasi. Peta ini mentransformasi tabel jurus dan kemiringan batuan, jenis batuan, dll menjadi zonasi batuan, penampang lapisan batuan, garis sesar, lipatan dll, ke dalam selembar kertas.
Berikut ini adalah contoh lain dari visualisasi yang bisa kita lakukan untuk mengungkap sesuatu yang sebelumnya tidak terlihat. Saya menggunakan “R” dan “mtcars” data set. Data set ini adalah salah satu saja dari data set yang sudah menyatu di dalam distribusi R. Data ini diekstraksi dari Majalah “Motor Trend” tahun 1974 yang terbit di AS. Isinya adalah 10 variabel spesifikasi dari 32 merek mobil buatan tahun 1973 – 1974 Motor Trend US magazine. Spesifikasi variabel atau parameter spesifikasi yang ada dalam data ini adalah:
mpg Miles/(US) gallon              di Indonesia dibaca sebagai km per liter BBM
cyl Number of cylinders         jumlah silinder
disp Displacement (cu.in.)        di Indonesia mengenalnya sebagai cc
hp Gross horsepower             tenaga kuda
drat Rear axle ratio                   di Indonesia dikenal sebagai rasio gear
wt Weight (lb/1000)              berat kendaraan
qsec 1/4 mile time                      waktu yang diperlukan dari diam hingga 0.25 mil
vs V/S                                     ada yang tahu ini apa?
am Transmission                      transmisis matik atau manual
gear Number of forward gears  jumlah gigi maju
carb Number of carburetors      jumlah karburator
Data ini pertama kali dianalisis oleh Henderson and Velleman (1981) dalam papernya Building multiple regression models interactively. Biometrics, 37, 391–411.
Ada yang masih menggunakan Ms Excel? Anda mungkin akan berpikir ulang.
Saya akan menggunakan R dalam membuat beberapa visualisasi dalam bentuk grafik sebagai berikut.
Dengan perintah “pairs(mtcars, main = “mtcars data”)” anda sudah bisa mendapatkan grafik matriks korelasi seperti di bawah ini. Coba anda lihat, banyak yang bilang keiritan mobil (mpg) hanya ditentukan oleh cc. Karena itu kalau di Indonesia harga mobil bekas ber-cc besar akan “jatuh bebas” dibandingkan yang ber-cc kecil.
Coba kita lihat grafik 1 di bawah ini sebagian saja. Tarik garis diagonal yang ada tulisan “mpg”, “cyl” dst, dan pilih setengah saja, apakah anda ingin lihat setelah segitiga yang atas atau yang bawah. They’re all the same. Let’s just choose the lower part.
Anda lihat pola titik-titik data yang membentuk garis lurus atau mirip garis lurus (berarah diagonal), dan ada pula yang acak. Pola yang pertama menunjukkan adanya korelasi antara kedua parameter dan pola yang kedua memperlihatkan korelasi yang sangat kecil atau bahkan tidak berkorelasi sama sekali.
Pola yang membentuk keteraturan diagonal dengan mpg adalah:
  • mpg ~ disp (cc) -> keiritan dengan cc
  • mpg ~ hp -> keiritan dengan tenaga kuda
Korelasi yang relatif lebih lemah terlihat antara:
  • mpg ~ drat -> keiritan dengan rasio gear
  • mpg ~ wt -> keiritan dengan berat kendaraan
Korelasi yang lebih lemah (tapi ada) adalah antara:
  • mpg ~ qsec -> keiritan denga waktu yang diperlukan dari diam hingga menempuh 0.25 mil
Dari sini terlihat bahwa keiritan mobil anda bukan hanya ditentukan oleh besar kecilnya cc, tapi juga dengan gaya mengemudi anda (diwakili variabel qsec).
image
Gambar 1 Correlation matrix BW
Kalau anda senang warna, maka dengan satu baris perintah “corrgram(mtcars)” anda bisa membuat grafik sejenis di bawah ini.
mtcarscorrgram2
Gambar 2 Correlation matrix berwarna
Grafik pada Gambar 3 berikut ini juga dibuat hanya dengan sebaris perintah “heatmap(as.matrix(mtcars))”. Juga dapat dilihat hirarki pengelompokkannya dalam bentuk garis. Yang menarik adalah:
  • bagaimana merk-merk Jepang mengelompok dengan merk Eropa, sementara merk Amerika membentuk kelompok sendiri (kecuali Dodge Challenger, AMC Javelin, Hornet, dan Valiant). Saya akan bahas di lain waktu.
  • Corolla dan Civic sekelompok dengan Ferrari Dino dan Fiat, Mazda dengan Merc 280 berada pada kamar yang sama, serta Corona, Datsun di dalam ruangan yang sama dengan Porsche.
Sangat menarik bukan. Yang seperti ini sangat bisa diterapkan di geologi juga.
IMG_0020
Gambar 3 Heatmap dan PCA
Yang menarik lagi grafik pada Gambar 4 berikut ini. Ada yang bisa menjelaskan? Saya akan bahas di lain waktu, atau sekaligus saya harus alih profesi jadi wartawan tabloid “Otomotif”.
Masih mau pakai Excel?
🙂
image
Gambar 4 Analisis mpg ~ disp (cc) ~ cyl