Category Archives: Tables and figures

Research sphere and citation connections

Yth pembaca, semoga menikmati libur panjangnya. Saya bukannya tidak libur, saya juga libur tapi di sela-sela waktu, saya berhasil mencuri waktu untuk membuat dua buah diagram yang akan saya jelaskan di bawah ini: research sphere dan citation connections.

Continue reading Research sphere and citation connections

Data is the new soil

Data is not the new oil, but it’s the new soil (David McCandless, TedTalks)
Anda sudah pernah lihat video Mas David McCandless di Youtube? Kalau belum lihat ya. Mampir juga nonton video gurunya, Hans Rosling.
Data juga dapat mengungkap hal-hal yang tersembunyi di balik suatu fenomena yang kita hadapi. Tapi data dalam bentuk tabel kurang cepat memberi gambaran apa yang terjadi, karena itulah kita perlu visualisasi.
Untuk para geologiwan, peta geologi adalah hanya salah satu saja bentuk visualisasi. Peta ini mentransformasi tabel jurus dan kemiringan batuan, jenis batuan, dll menjadi zonasi batuan, penampang lapisan batuan, garis sesar, lipatan dll, ke dalam selembar kertas.
Berikut ini adalah contoh lain dari visualisasi yang bisa kita lakukan untuk mengungkap sesuatu yang sebelumnya tidak terlihat. Saya menggunakan “R” dan “mtcars” data set. Data set ini adalah salah satu saja dari data set yang sudah menyatu di dalam distribusi R. Data ini diekstraksi dari Majalah “Motor Trend” tahun 1974 yang terbit di AS. Isinya adalah 10 variabel spesifikasi dari 32 merek mobil buatan tahun 1973 – 1974 Motor Trend US magazine. Spesifikasi variabel atau parameter spesifikasi yang ada dalam data ini adalah:
mpg Miles/(US) gallon              di Indonesia dibaca sebagai km per liter BBM
cyl Number of cylinders         jumlah silinder
disp Displacement (cu.in.)        di Indonesia mengenalnya sebagai cc
hp Gross horsepower             tenaga kuda
drat Rear axle ratio                   di Indonesia dikenal sebagai rasio gear
wt Weight (lb/1000)              berat kendaraan
qsec 1/4 mile time                      waktu yang diperlukan dari diam hingga 0.25 mil
vs V/S                                     ada yang tahu ini apa?
am Transmission                      transmisis matik atau manual
gear Number of forward gears  jumlah gigi maju
carb Number of carburetors      jumlah karburator
Data ini pertama kali dianalisis oleh Henderson and Velleman (1981) dalam papernya Building multiple regression models interactively. Biometrics, 37, 391–411.
Ada yang masih menggunakan Ms Excel? Anda mungkin akan berpikir ulang.
Saya akan menggunakan R dalam membuat beberapa visualisasi dalam bentuk grafik sebagai berikut.
Dengan perintah “pairs(mtcars, main = “mtcars data”)” anda sudah bisa mendapatkan grafik matriks korelasi seperti di bawah ini. Coba anda lihat, banyak yang bilang keiritan mobil (mpg) hanya ditentukan oleh cc. Karena itu kalau di Indonesia harga mobil bekas ber-cc besar akan “jatuh bebas” dibandingkan yang ber-cc kecil.
Coba kita lihat grafik 1 di bawah ini sebagian saja. Tarik garis diagonal yang ada tulisan “mpg”, “cyl” dst, dan pilih setengah saja, apakah anda ingin lihat setelah segitiga yang atas atau yang bawah. They’re all the same. Let’s just choose the lower part.
Anda lihat pola titik-titik data yang membentuk garis lurus atau mirip garis lurus (berarah diagonal), dan ada pula yang acak. Pola yang pertama menunjukkan adanya korelasi antara kedua parameter dan pola yang kedua memperlihatkan korelasi yang sangat kecil atau bahkan tidak berkorelasi sama sekali.
Pola yang membentuk keteraturan diagonal dengan mpg adalah:
  • mpg ~ disp (cc) -> keiritan dengan cc
  • mpg ~ hp -> keiritan dengan tenaga kuda
Korelasi yang relatif lebih lemah terlihat antara:
  • mpg ~ drat -> keiritan dengan rasio gear
  • mpg ~ wt -> keiritan dengan berat kendaraan
Korelasi yang lebih lemah (tapi ada) adalah antara:
  • mpg ~ qsec -> keiritan denga waktu yang diperlukan dari diam hingga menempuh 0.25 mil
Dari sini terlihat bahwa keiritan mobil anda bukan hanya ditentukan oleh besar kecilnya cc, tapi juga dengan gaya mengemudi anda (diwakili variabel qsec).
image
Gambar 1 Correlation matrix BW
Kalau anda senang warna, maka dengan satu baris perintah “corrgram(mtcars)” anda bisa membuat grafik sejenis di bawah ini.
mtcarscorrgram2
Gambar 2 Correlation matrix berwarna
Grafik pada Gambar 3 berikut ini juga dibuat hanya dengan sebaris perintah “heatmap(as.matrix(mtcars))”. Juga dapat dilihat hirarki pengelompokkannya dalam bentuk garis. Yang menarik adalah:
  • bagaimana merk-merk Jepang mengelompok dengan merk Eropa, sementara merk Amerika membentuk kelompok sendiri (kecuali Dodge Challenger, AMC Javelin, Hornet, dan Valiant). Saya akan bahas di lain waktu.
  • Corolla dan Civic sekelompok dengan Ferrari Dino dan Fiat, Mazda dengan Merc 280 berada pada kamar yang sama, serta Corona, Datsun di dalam ruangan yang sama dengan Porsche.
Sangat menarik bukan. Yang seperti ini sangat bisa diterapkan di geologi juga.
IMG_0020
Gambar 3 Heatmap dan PCA
Yang menarik lagi grafik pada Gambar 4 berikut ini. Ada yang bisa menjelaskan? Saya akan bahas di lain waktu, atau sekaligus saya harus alih profesi jadi wartawan tabloid “Otomotif”.
Masih mau pakai Excel?
🙂
image
Gambar 4 Analisis mpg ~ disp (cc) ~ cyl

 

WTF: Sepuluh hal penting dalam menyiapkan tabel data

Ten things in dataset preparation

oleh: Dasapta Erwin Irawan, Institut Teknologi Bandung

22 Oktober 2014

(pdf is available at Academia.edu)

Tools: spreadsheets (LibreOffice, Microsoft Office)

Data harus benar (Put in correct data)

Put in the correct data, even if it contains “NA”.

Tidak hanya informasi yang dimasukkan harus benar tapi juga berarti luas. Salah satunya adalah untuk format numerik. Cek lagi jangan sampai isi kolom yang dimaksudkan sebagai “numerik” ternyata terbaca oleh Excel sebagai “text”. Cara mudah: buat kolom baru di sebelah kanan atau kiri dari kolom yang akan anda verifikasi. Di kolom yang baru ketik rumus “=1*(kolom X)“. (Kolom X) adalah baris yang sama pada kolom yang akan anda verifikasi. Kemudian copy-paste rumus itu ke bawah. Lihat apakah semua baris pada kolom yang baru mengandung hasil perkalian, ataukan ada yang”error“. Baris yang”error” biasanya karena angka pada kolom yang anda periksa terbaca sebagai teks oleh Excel.

Kolom berisi parameter/variable (Columns are for parameters/variables)

Each column means one variable.

Kolom dalam tabel data merupakan parameter atau variabel yang anda ukur di lapangan, misal: temp, TDS, koordinat X, koordinat Y dll.

Baris berisi sampel/lokasi pengukuran (Rows are for samples/observations)

Each row means one sample or observation.

Baris dalam tabel data merupakan sampel atau lokasi pengukuran. Andaikan anda punya 10 lokasi sumur yang diukur, maka tabel anda akan memiliki 10 baris, yang masing-masing berisi satu lokasi sumur. Baris pertama berisi column header.

Berikan kolom nomor urut (Use a manual  row number) 

This point won’t be doable if you have thousand of lines. But if you have, you wouldn’t use spreadsheet in the analysis.

Kolom nomor urut diperlukan agar pembaca tahu dengan cepat berapa jumlah sampel anda. Excel tidak bisa memberikan nomor urut secara otomatis. Jumlah sampel akan selalu minus satu baris. Kalau anda lihat baris pertama dalam Excel akan selalu berisi column header. Ini berbeda dengan kalau anda menggunakan aplikasi statistik, seperti SPSS atau Stata. Column header tidak dihitung sebagai baris data.

Berikan identitas yang bersistem (Use a systematic identity)

Develop your own system. Avoid to combine alphabets and numerics for identity.

Tidak ada yang agak menjengkelkan (maaf agak vulgar karena memang begitu adanya) saat melihat kode lokasi tanpa tahu artinya apa. Misal SG-1, SW-2, dll. Akan lebih baik kalau menggunakan konsensus nomor saja. Sebagai contoh: kalau anda punya tiga jenis data (sumur, sungai, mata air), maka anda gunakan kode angka no 1-10 untuk sumur, 20-30 untuk sungai, 40-50 untuk mata air. Gunakan perbedaan angka yang ekstrim supaya mudah mengenali. Atau anda bisa menggunakan sistem digit satu dan digit dua, contoh: semua sampek bernomor awal 1 untuk sumur, 2 untuk sungai, dan 3 untuk mata air. Jadi sampel bernomor 11 sampai 110 untuk sumur, 21 – 210 untuk sungai, 31-310 untuk mata air.

Jumlah kolom boleh banyak (Use as many column as you need)

One column is for one variable. So you can use as many column as you need to describe you observation.

Anda tidak hidup di jaman aplikasi spreadsheet Lotus 123 yang hanya bisa menangani kolom kurang dari 100 buah. Saat ini aplikasi spreadsheet sudah bisa menangani ribuan kolom. Jadi jangan terlalu irit dalam membuat kolom. Contoh: anda bisa menambahkan kolom berisi “jenis mata air=depresi/rekahan dll”, “cuaca=cerah/hujan dll”, “litologi=pasir/lempung”, “strike and dip” dll. Yang penting adalah sebanyak mungkin informasi yang anda ukur dan rekam di suatu lokasi observasi bisa anda terjemahkan dalam tabel data anda. Gunanya untuk apa? Banyak sekali. Salah satunya untuk keperluan filtering data.

Nama kolom pendek tapi jelas (Use short-clear headers)

Ini berkaitan dengan no 2 dan 6. Nama kolom atau column header harus bisa masuk dalam satu baris. Untuk itu jangan terlalu panjang. Bisa disingkat saja kalau panjang. Yang terpenting, dilarang membuat nama kolom sampai menggunakan merge row atau merge column.

Jangan melakukan merge row atau merge column 

(Don’t merge)

Columns or rows merging must be avoided if you are planning to apply some sortings or filterings on the data.

Ini berkaitan dengan beberapa no di atas. Merge akan mengacaukan proses filtering, sorting, dan manipulasi data lainnya. Kalau perlu bisa menambahkan kolom saja, jangan menggabungkan dua kolom. Proses merge bisa dilakukan saat kita menyajikan tabel di dalam teks.

Jangan menambahkan judul tabel (Don’t add table title)

Table titles should be put in the text, not in the worksheet. Instead, put the title in the worksheet tab.

Jangan anda menambahkan judul tabel di bagian baris teratas. Tidak ada gunanya. Anda bisa memberi judul tabel di bagian sheet tab di masing-masing lembar kerja. Judul tabel juga bisa anda berikan saat tabel sudah masuk ke teks. Ini bisa mengacaukan analisis.

Berikan keterangan identitas kolom (Make an explanation sheet)

Remember the point of using short and clear headers, the column width will be you boundary. To solve that, generally you can make an explanation sheet to describe each of the columns you made: what you’ve measured, what was the terms and conditions when you took the measurements, etc.

Buat worksheet khusus pada file yang sama, berisi keterangan tentang setiap kolom yang anda buat. Misal: “TDS27” = data pengukuran TDS pada suhu 27 oC. Kalau anda punya 10 kolom mungkin tidak perlu, tapi kalau anda perlu 30, 40, 50 dst, di sinilah pentingnya Lembar Penjelasan (Explanation Sheet).

The following is a snapshot of a data set.

Screen Shot 2014-10-26 at 7.18.57 AM

WTF: Lima hal penting saat menyiapkan peta kerja

Five things in map preparation

oleh: Dasapta Erwin Irawan, Institut Teknologi Bandung

22 October 2014


(pdf is available at Academia.edu)

Salah satu komponen paling penting di awal menulis adalah menyiapkan peta kerja atau peta dasar. Berikut beberapa catatan untuk peta:

Jelas (Clear)

Peta harus menunjukkan daerah penelitian yang benar. Daerah penelitian berada di tengah peta tidak di tepi. Seluruh batas daerah masuk ke dalam peta, tidak setengah atau seperempat.

Tajam (resolusi cukup) (Enough resolution)

Peta tidak buram. Jadi anda harus punya peta original dengan resolusi pixel yang tajam, dan versi yang lain untuk diperkecil. Versi resolusi rendah juga kita perlukan untuk keperluan kirim-kirim file via email.

Memiliki koordinat (Show coordinate)

Untuk keperluan positioning, diperlukan koordinat pada peta. Kita sepakati sistem UTM saja.

Bersih (Clean)

Jangan menggunakan peta seperti Google Maps yang mengandung warna topografi. Terlalu “ramai”. Gunakan peta geografis biasa, yang telah: dikurangi komponen nama lokasi, pilih beberapa nama daerah penting dan terkenal agar pembaca mudah mengenali daerah penelitian kita. Komponen seperti simbol puncak gunung, jalan utama, jalan kereta, danau, sungai, boleh ditampilkan selama tidak membuat peta menjadi terlalu “ramai”.

Hindari hindari warna dan arsiran untuk peta dalam teks (Avoid color for in-text map)

Banyak yang suka peta berwarna, tapi itu hanya bagus kalau anda punya printer laser berwarna dengan resolusi tinggi. Pada banyak kasus, gradasi warna dari putih, abu, ke hitam, lebih mudah dilihat. Jangan juga menggunakan arsiran. Banyak jurnal melarang submission artikel dengan peta yang berwarna/arsiran atau menarik tarif yang mahal per halaman untuk peta yang berwarna. Namun untuk peta lampiran yang lepas dari dokumen boleh saja menggunakan warna.

The following map is one of the fine example, borrowed from Dylan Burge’s blog.

Maps