Banyak pencapaian ilmu pengatahuan dan teknologi dipicu oleh adanya tantangan berhadiah (challenge).
Jika bidang robotika ada DARPA Grand Challenge tahun 2005 tentang robotic car navigation, dan RoboCup yang goalnya mengembangkan tim robot humanoid yang dapat mengalahkan tim pemenang world cup pada 2050. Apakah grand challange untuk data mining?

KDD2006 panel mengusulkan beberapa kriteria grand challenge data mining:

  1. Permasalahannya harus sulit – sangat sulit untuk diselesaikan dengan teknik-teknik yang ada saat ini
  2. Melibatkan data mining – data mining harus memiliki peranan yang sangat penting untuk menyelesaikan permasalahan tersebut
  3. Menggunakan large dataset yang tersedia secara publik
  4. Goal yang jelas – sehingga dapat diketahui kapan permasalahan tersebut terselesaikan
  5. Permasalahannya harus menarik bagi para peneliti
  6. Adanya manfaat bagi masyarakat jika permasalahan tersebut dapat diselesaikan

Saat ini, tantangan yang berkaitan dengan data mining yang berhasil menarik banyak perhatian adalah Netflix Challenge. Tantangan lain yang mungkin berhubungan dengan data mining adalah Archon X Prize for Genomics, 10 juta dollar untuk tim pertama yang berhasil melakukan sequencing human genome 100 orang dalam 10 hari.

KDD2006 panel report, “What are The Grand Challenges for Data Mining?”, mengusulkan beberapa permasalahan untuk grand challange data mining mulai dari multimedia data mining, link mining, large-scale modelling, text mining, sampai mining proteomics.
Paper report ini sangat menarik, menawarkan beberapa macam permasalahan yang dapat dipertimbangkan sebagai grand challenge. Misalnya pada multimedia mining: annotate (memberi keterangan) 1000 jam digital video dalam 1 jam, prediksi minat user pada video tertentu berdasarkan browsing lima menit pertama, pencarian interview seseorang yang mirip pada arsip video broadcast. Pada text mining, grand challenge yang diusulkan adalah sistem text mining yang mampu melewati standard reading comprehension tests seperti SAT, GRE, GMAT. Pada link mining, grand challengenya dinamai Wikipedia Test, mempertandingkan artikel oleh participatory journalism (seperti para penulis artikel di Wikipedia) dengan artikel oleh link mining tool yang dilakukan secara otomatis. Dapatkah orang membedakan artikel wikipedia asli atau yang dibuat secara otomatis oleh link mining tool? dan mana yang lebih baik? Grand challenge link mining ini mengingatkan saya pada Turing test.
Area mining proteomics mengusulkan grand challenge untuk menentukan keberadaan protein beserta jumlah dan interaksinya. Sedangkan, pada large-scale modelling diusulkan challange yang mengestimasi jutaan hingga miliaran parameter data mining model.
Saya banyak belajar dari paper report ini tentang permasalahan-permasalahan yang berkaitan dengan data mining, ternyata banyak sekali.

Grand Challenge seperti apa yang akan muncul? kita tunggu saja nanti.🙂