Category Archives: Data Analysis

Some visualisations of Bandung water quality data

Here I learn some more type visualizations to understand groundwater behavior based on groundwater quality data set. I have 142 data points of water quality data measured in 2015. The dataset can be downloaded from our OSF repository. Currently we are on our way in writing a paper out of the data set based on multivariate analysis. I use free apps to produce all plots. I will add the plots as I move along in the analysis.

Continue reading Some visualisations of Bandung water quality data

Mining PLOS and PubMed data

Intro

This post was inspired from Jon Tennant’s post on his blog (here). He was talking about the number of papers on paleontology field published in PLOSone. His post was mainly based on his code using `rplos` package (Github repo/CRAN repo) from `ropensci` community. Jon’s post was kind of fire up my R life again, especially in the field of text mining. So in this post, I will connect this original post with my research about analyzing biodiversity of Cikapundung riverbank area (on Figshare).

Continue reading Mining PLOS and PubMed data

Identifying hidden pattern in the hot water dataset using R

The following abstract is part of our full report on our small research funded by ITB Research Grant 2016. The code and dataset are available here and the Markdown Source of the complete report can be find here.

Continue reading Identifying hidden pattern in the hot water dataset using R

Problem input csv data dalam R

Assalamu’alaikum wrwb. Selamat pagi R user.
Berbagai pengalaman saya saat menyimpan data dengan R. Memang belajar itu adalah pekerjaan setiap hari dan tidak kenal usia. Walaupun sudah menggunakan R sejak 2013 — “menggunakan” ya bukan “memprogram” karena saya memang bukan programmer ūüôā — tapi masih saja banyak hal yang saya pelajari. Bahkan untuk hal-hal mendasar.
idiom-sleep-illustration-58365318
(gambar dipinjam dari sini)
Salah satunya adalah saat saya akan menginput data dalam format csv awal minggu ini. Data seperti biasa saya input dan rapihkan menggunakan LibreOffice. Reformatting yang saya lakukan seperti biasa adalah:
  • cek judul kolom dan baris, apakah ada yang di-merge;
  • penamaan ulang judul kolom dan baris agar lebih ringkas tapi tidak kehilangan info utama;
  • cek jenis data: apakah numerik atau bukan dst.

Kemudian tabel saya save as ke dalam for csv. Sebelum akhirnya saya baca dalam R.

Baca data seperti biasa perintahnya:

foo

Kemudian cek jenis data dengan perintah:

str(foo)

Yang aneh data yang saya harapkan numerik jenisnya, terbaca sebagai factor. Saya cek balik ke tabel, Googling bagaimana cara mengkonversi tipe data dst, tidak berhasil!

Kemudian saya tinggal tidur. Ya betul kalau ada yang tidak beres, masalah apapun Sleep on it. ūüôā

Keesokan paginya saya coba lagi buka data spreadsheet nya. Kemudian saya iseng ubah format angkanya. Yang sebelumnya format angkanya dengan koma dan titik, saya kembalikan ke default. Artinya angka anda hanya ada tanda desimalnya (bisa koma atau titik), sedangkan pemisah untuk ribuannya hilang.

Saya save as ke csv kembali, dan baca di dalam R.

Dan voila!

Kolom numerik yang sebelumnya terbaca sebagai factor, sekarang terbaca sebagai numerik.

Jadi kalau anda masih menggabungkan pola kerja data input dengan spreadsheet seperti saya, maka hilangkan segala formatting, terutama terhadap angka sebelum meyimpannya ke dalam format ASCII (misal csv atau txt)

Moral of the story: Sleep on it ūüôā

Introduction to R for Computational Chemistry Students

This morning I’ll be introducing R for computational chemistry class at Room 9305 Labtek V (hosted by Dr. Rukman Hertadi, ResearchGate profile). Check out this map for the location. See you there.

The following Prezi slide could be used as teaser.

https://prezi.com/embed/drh1d-tv8voi/?bgcolor=ffffff&lock_to_path=0&autoplay=0&autohide_ctrls=0&landing_data=bHVZZmNaNDBIWnNjdEVENDRhZDFNZGNIUE43MHdLNWpsdFJLb2ZHanI5ejVXb1NCRFhSVnl2RkwyVHIvUWNaWHhnPT0&landing_sign=8wCuMN1Y5Y5ErdKipL0_N9EcPYPf_KXfSQgyjTtShQk

 

A fresh start

Screen Shot 2016-04-10 at 7.13.42 AM

I wrote this post back on my blog which has been moved to the new blog for almost a year. The reason was, the analytical tools from native WordPress are much more complete than the ones in my new blog. Therefore I need to reorganize both blogs. This old blog will contains materials related to my research interests, while the new blog covers more on open science and research method.

Some future topics on this blog:

  1. shared role on managing groundwater: a serial of posts following our work to assist Bandung City govt in revising the old groundwater regulation.
  2. the use of multivariate analysis to classify water quality: frankly this one was old topics, but the upcoming updates will tell a story based on my papers using R to implement sample classifications. This research is funded by ITB Research Grant 2016.
  3. the open source platform for groundwater management dashboard: this activity is funded by Directorate of Higher Education, Ministry of Research Tech and Higher Education.

Ch 7: Analisis (Menulis–ilmiah–itu menyenangkan)

Blogpost ini akan sedikit lompat dari yang kemarin. Sekarang kita coba langsung ke Bab Analisis dalam proyek buku selanjutnya (WTF: (scientific) Writing is Totally Fun).

Sebagai ahli kebumian,  output utama kita biasanya peta, tapi sejalan dengan perkembangan teknik analisis spasial, (geo)statistik, dll, maka presentasi data dalam bentuk tabel dan grafik (chart) juga memegang peranan penting, terutama bagi pembaca awam (tidak punya latar belakang ilmu kebumian). Mereka juga akan mencermati angka-angka yang tertera dalam tabel dan grafik.

Berikut ini sebuah rujukan ringkas dari Dinas Statistik UK yang straight forward mengenai penyajian data. Beberapa catatan sangat penting untuk dicermati, misalnya:

  • di mana meletakkan variabel dan lokasi pengukuran (atau sampel),
  • bagaimana mengurutkan dan membandingkan data dalam tabel,
  • pentingnya memberikan anotasi garis pada grafik, misalnya untuk memperlihatkan batas ambang.

Saya akan coba sarikan dengan memperhatikan sumber lainnya dan pengalaman (pendapat) pribadi saya dalam blogpost berikutnya.

Screen Shot 2015-07-10 at 05.40.40

(dipinjam dari: http://style.ons.gov.uk/category/data-visualisation/)