Microarray Data merupakan jenis data yang dipakai dalam bioinformatika. Jenis data ini merupakan salah satu jenis data yang “menantang” untuk dimining.
Karakteristik microarray data adalah :

  • Jumlah data sedikit.
  • Jumlah feature yang sangat banyak.

Data ini berisi informasi gen karena itu jumlah featurenya sangat banyak misalnya banyaknya gen manusia yang dewasa ini diketahui jumlahnya sekitar 32 ribu. Sedangkan jumlah data sedikit karena cost untuk mendapatkan data sangat mahal. Satu sample data saja bisa mencapai 100 USD. Bayangkan, 100 sample saja bisa mencapai 10,000 USD. Padahal ukuran 100 data tersebut sangat sedikit untuk dapat dimining.
Ada dua jenis microarray :

Selain itu microarray juga terbagi atas samplenya : protein microarray dan DNA/RNA microarray. DNA/RNA microarray sendiri terbagi lagi untuk 2 tujuan : analisa ekspresi dan analisa genotyping/haplotyping. Untuk analisa ekspresi, tipe datanya bisa mencapai multidimensional matrix misalnya data pasien vs genes vs treatment vs time (matrix 4 dimensi). Sedangkan genotyping, datanya bisa dianggap table biasa (matrix 2 dimensi).
Tantangan mining data seperti ini adalah karakteristiknya, jumlah feature yang sangat banyak dengan jumlah data sedikit sangat tidak ideal untuk dimining. Namun, hasil yang diperoleh akan sangat berguna misalnya penemuan obat-obatan baru (drug discovery) dan penentuan jenis treatment yang tepat untuk penyakit tertentu. Selain itu perlu diingat bahwa effort data cleaning untuk microarray juga sangat besar.
N.B : Terima kasih kepada Pak Anto S. Nugroho dan Pak Anto Eijkman atas penjelasan microarray data di milis indo-dm.