Mei 2007


Internet adalah gudang informasi yang sangat luas. Mencari informasi apapun hampir dipastikan dapat ditemukan di internet, apalagi jika berkaitan dengan topik-topik penelitian.
Masalahnya banyak yang kesulitan menemukan informasi di internet.
Artikel “Pencarian Resource di Internet” saya tulis berdasarkan pengalaman saya berburu informasi dan resource di internet. Semoga berguna bagi rekan-rekan yang berburu resource di internet. Artikel ini dapat didownload dari site softcomputing indonesia di bagian link repository (public).
Ditunggu saran, kritik, dan komentarnya.

Machine Learning merupakan area yang sangat berkaitan erat dengan data mining. Sangat tepat sekali jika mengenal machine learning dari sudut pandang pakar machine learning.
Tom Mitchell adalah salah satu pakar machine learning, salah satu bukunya “Machine Learning” merupakan salah satu text book machine learning yang populer dan banyak dipakai hingga saat ini.
Papernya “The Discipline of Machine Learning” memberikan gambaran beliau secara personal tentang machine learning sebagai suatu disiplin ilmu, dan hubungannya dengan bidang ilmu pengetahuan lain dan bidang sosial. Paper ini juga memaparkan secara singkat current states dan arah perkembangan machine learning. Saya banyak belajar dari paper ini, sungguh sangat menarik mengetahui banyak hal yang dilakukan oleh machine learning. Peranan machine learning pada dunia computer science juga dipaparkan dengan sangat menarik di sini.
Satu hal yang menarik adalah research question yang menunjukkan arah yang ingin dicapai oleh machine learning. Apakah unlabeled data berguna untuk supervised learning? Bagaimana cara memindahkan pengetahuan yang sudah diperoleh pada suatu proses training agar dapat digunakan untuk meningkatkan pelatihan pada task yang lain? Apa hubungan antara algoritma-algoritma learning, algoritma apa yang seharusnya dipakai dalam suatu problem? Semua itu muncul sebagai research question yang akan terus digali oleh para peneliti machine learning. Lebih jauh lagi muncul pertanyaan seperti ini: dapatkah kita membangun sebuah never-ending learner (seperti makhluk hidup belajar dan beradaptasi)? Dapatkah teori dan algoritma machine learning digunakan untuk menjelaskan cara manusia belajar? Jika cara manusia belajar bisa dijelaskan, wah ini digunakan untuk meningkatkan strategi dan metode pengajaran di sekolah. Sungguh sangat menarik mengetahui usaha-usaha yang ingin dicapai.

Banyak pencapaian ilmu pengatahuan dan teknologi dipicu oleh adanya tantangan berhadiah (challenge).
Jika bidang robotika ada DARPA Grand Challenge tahun 2005 tentang robotic car navigation, dan RoboCup yang goalnya mengembangkan tim robot humanoid yang dapat mengalahkan tim pemenang world cup pada 2050. Apakah grand challange untuk data mining?

KDD2006 panel mengusulkan beberapa kriteria grand challenge data mining:

  1. Permasalahannya harus sulit – sangat sulit untuk diselesaikan dengan teknik-teknik yang ada saat ini
  2. Melibatkan data mining – data mining harus memiliki peranan yang sangat penting untuk menyelesaikan permasalahan tersebut
  3. Menggunakan large dataset yang tersedia secara publik
  4. Goal yang jelas – sehingga dapat diketahui kapan permasalahan tersebut terselesaikan
  5. Permasalahannya harus menarik bagi para peneliti
  6. Adanya manfaat bagi masyarakat jika permasalahan tersebut dapat diselesaikan

Saat ini, tantangan yang berkaitan dengan data mining yang berhasil menarik banyak perhatian adalah Netflix Challenge. Tantangan lain yang mungkin berhubungan dengan data mining adalah Archon X Prize for Genomics, 10 juta dollar untuk tim pertama yang berhasil melakukan sequencing human genome 100 orang dalam 10 hari.

KDD2006 panel report, “What are The Grand Challenges for Data Mining?”, mengusulkan beberapa permasalahan untuk grand challange data mining mulai dari multimedia data mining, link mining, large-scale modelling, text mining, sampai mining proteomics.
Paper report ini sangat menarik, menawarkan beberapa macam permasalahan yang dapat dipertimbangkan sebagai grand challenge. Misalnya pada multimedia mining: annotate (memberi keterangan) 1000 jam digital video dalam 1 jam, prediksi minat user pada video tertentu berdasarkan browsing lima menit pertama, pencarian interview seseorang yang mirip pada arsip video broadcast. Pada text mining, grand challenge yang diusulkan adalah sistem text mining yang mampu melewati standard reading comprehension tests seperti SAT, GRE, GMAT. Pada link mining, grand challengenya dinamai Wikipedia Test, mempertandingkan artikel oleh participatory journalism (seperti para penulis artikel di Wikipedia) dengan artikel oleh link mining tool yang dilakukan secara otomatis. Dapatkah orang membedakan artikel wikipedia asli atau yang dibuat secara otomatis oleh link mining tool? dan mana yang lebih baik? Grand challenge link mining ini mengingatkan saya pada Turing test.
Area mining proteomics mengusulkan grand challenge untuk menentukan keberadaan protein beserta jumlah dan interaksinya. Sedangkan, pada large-scale modelling diusulkan challange yang mengestimasi jutaan hingga miliaran parameter data mining model.
Saya banyak belajar dari paper report ini tentang permasalahan-permasalahan yang berkaitan dengan data mining, ternyata banyak sekali.

Grand Challenge seperti apa yang akan muncul? kita tunggu saja nanti. 🙂