Akhirnya bisa blogging lagi setelah sekian lama.
Kali ini saya ingin menyoroti beberapa tantangan-tantangan (challenge) / kompetisi yang saat ini sedang rame. Saya sendiri banyak belajar dari beberapa kompetisi dan challenge data mining yang pernah ada, terutama dari sisi aplikasinya.
Umumnya, problem-problem yang diangkat dalam kompetisi-kompetisi tersebut diambil dari real world problem yang saat itu sedang menjadi issue hangat. Jadi, kompetisi-kompetisi yang ada merefleksikan real world problem yang sedang terjadi. Saya sering melihatnya juga sebagai tren-tren yang saat ini sedang dihadapi.

Berikut ini akan saya berikan review singkat beberapa kompetisi/challenge yang saat ini sedang berlangsung:

  1. Netflix Challenge (http://www.netflixprize.com/)
    Tantangan dari netflix ini cukup menarik perhatian banyak pihak. Salah satu sebabnya adalah prize money yang disediakan sebagai hadiah utama sebesar US$1juta. Permasalahannya tentang collaborative filtering. Tantangan dibuka selama 5 tahun (sampai 2011), dan berakhir jika ada yang berhasil menyelesaikannya. Saat ini aja udah lebih dari 16ribu tim dari 135 negara terdaftar sebagai peserta.
  2. KDD Cup 2007 (http://www.cs.uic.edu/~liub/Netflix-KDD-Cup-2007.html)
    ACM SIGKDD merupakan salah satu pihak yang tertarik dengan tantangan dari netflix. Rencananya KDD Cup tahun ini, SIGKDD bekerja sama dengan Netflix menyediakan dataset dan permasalahannya. Walaupun datasetnya berasal dari Netflix, namun task-nya akan berbeda dengan Netflix Challenge.
  3. PAKDD Competition 2007 (http://levis.shu.edu.cn/pakdd2007/competition/overview)
    Problemnya adalah tentang Cross Selling. Permasalahannya dari sebuah perusahaan financial yang memiliki credit card customer dan home load customer, dimana irisan antara dua jenis customer tersebut sangat sedikit. Tugasnya adalah scoring customer, semakin besar scoring semakin besar kecenderungan customer yang membuka credit card akan membuka home load dalam 2 tahun. Datasetnya berisi 40.700 data (700 label positif, dan 40.000 label negatif). Mungkin inilah yang akan menjadi problem, jumlah data tiap kelas tidak seimbang, beda jauh malahan.
  4. Web Spam Challenge (http://webspam.lip6.fr/)
    Permasalahannya adalah memberi label sebuah large graph yang diaplikasikan pada web spam. Akan didiskusikan dua kali tahun ini salah satunya pada AIRWeb 2007.
  5. Challenge on Time Series Classification at SIGKDD 2007 (http://www.cs.ucr.edu/~eamonn/SIGKDD2007TimeSeries.html)
    Tantangan ini sebenarnya untuk sebuah workshop di SIGKDD tentang time series mining. Tantangan ini berusaha mencari algoritma klasifikasi time series yang paling baik. Yang menarik perhatian saya dari tantangan ini adalah jangka waktu publikasi dataset dengan pengumpulan hasil yang hanya 24 jam. Karena algoritma yang dicari adalah algoritma yang secara umum baik, tidak hanya pada kondisi-kondisi tertentu saja, maka penyelenggara meminimalisasi waktu bagi peserta untuk mempelajari data. Jadi waktu 24 jam tersebut hanya disiapkan untuk running algoritma secara langsung, biarkan segalanya dilakukan secara otomatis oleh program. Meminimalisasi campur tangan manusia. Publikasi di webnya saat ini dimaksudkan agar semua bisa mulai mendesain dan berlatih dengan dataset-dataset yang ada.
  6. Mining Software Repositories Challenge 2007 (http://msr.uwaterloo.ca/msr2007/challenge/)
    Tantangan yang baru berakhir bulan ini sangat menarik karena tantangan ini memberikan gambaran aplikasi data mining pada bidang software engineering. Yang dimining adalah software repository terkenal yaitu Eclipse dan Firefox. Menarik bukan. Ternyata dari sebuah software repository dapat dimining beberapa hal seperti bug analysis, change analysis, dan process analysis.

Ternyata begitu banyak kompetisi yang berhubungan dengan data mining. Umumnya mereka secara rutin mengadakan kompetisi setiap tahunnya.