Kompetisi


Beberapa kompetisi data mining yang sedang/akan diadakan di tahun 2011 ini.

KDDCup 2011 baru saja di mulai tanggal 15 Maret yang lalu. Kompetisi in tentang rating musik, datanya dari Yahoo. Informasi lengkapnya di KDDCup 2011 from Yahoo! labs.

Beberapa kompetisi data mining lainnya ada di Kaggle. Saat ini ada dua kompetisi data mining yang sedang berjalan: Avoid Overfitting, dan Arabic Writer Identification.

Kompetisi terbesar data mining (melebihi rekor Netlfix challenge) akan dimulai tanggal 4 April mendatang, namanya Heritage Health Prize. Kompetisi ini tentang data health care system.

Have fun.

Update (5 April 2011): kompetisi Heritage Health sudah dimulai. Silahkan bermain-main di kompetisi ini.

Iklan

IEEE ICDM Data Mining Contest 2007 (IEEE ICDM DMC’07) adalah kompetisi pertama kali diadakan pada IEEE ICDM.
Kompetisi pertama ini mengambil permasalahan tentang estimasi lokasi indoor radio signal strength (RSS) yang diterima oleh sebuah client device dari berbagai WiFi access points.
Registrasi kompetisi ini sudah dibuka. Detil tentang kompetisi ini dapat dilihat di http://www.cse.ust.hk/~qyang/ICDMDMC07/.

Banyak pencapaian ilmu pengatahuan dan teknologi dipicu oleh adanya tantangan berhadiah (challenge).
Jika bidang robotika ada DARPA Grand Challenge tahun 2005 tentang robotic car navigation, dan RoboCup yang goalnya mengembangkan tim robot humanoid yang dapat mengalahkan tim pemenang world cup pada 2050. Apakah grand challange untuk data mining?

KDD2006 panel mengusulkan beberapa kriteria grand challenge data mining:

  1. Permasalahannya harus sulit – sangat sulit untuk diselesaikan dengan teknik-teknik yang ada saat ini
  2. Melibatkan data mining – data mining harus memiliki peranan yang sangat penting untuk menyelesaikan permasalahan tersebut
  3. Menggunakan large dataset yang tersedia secara publik
  4. Goal yang jelas – sehingga dapat diketahui kapan permasalahan tersebut terselesaikan
  5. Permasalahannya harus menarik bagi para peneliti
  6. Adanya manfaat bagi masyarakat jika permasalahan tersebut dapat diselesaikan

Saat ini, tantangan yang berkaitan dengan data mining yang berhasil menarik banyak perhatian adalah Netflix Challenge. Tantangan lain yang mungkin berhubungan dengan data mining adalah Archon X Prize for Genomics, 10 juta dollar untuk tim pertama yang berhasil melakukan sequencing human genome 100 orang dalam 10 hari.

KDD2006 panel report, “What are The Grand Challenges for Data Mining?”, mengusulkan beberapa permasalahan untuk grand challange data mining mulai dari multimedia data mining, link mining, large-scale modelling, text mining, sampai mining proteomics.
Paper report ini sangat menarik, menawarkan beberapa macam permasalahan yang dapat dipertimbangkan sebagai grand challenge. Misalnya pada multimedia mining: annotate (memberi keterangan) 1000 jam digital video dalam 1 jam, prediksi minat user pada video tertentu berdasarkan browsing lima menit pertama, pencarian interview seseorang yang mirip pada arsip video broadcast. Pada text mining, grand challenge yang diusulkan adalah sistem text mining yang mampu melewati standard reading comprehension tests seperti SAT, GRE, GMAT. Pada link mining, grand challengenya dinamai Wikipedia Test, mempertandingkan artikel oleh participatory journalism (seperti para penulis artikel di Wikipedia) dengan artikel oleh link mining tool yang dilakukan secara otomatis. Dapatkah orang membedakan artikel wikipedia asli atau yang dibuat secara otomatis oleh link mining tool? dan mana yang lebih baik? Grand challenge link mining ini mengingatkan saya pada Turing test.
Area mining proteomics mengusulkan grand challenge untuk menentukan keberadaan protein beserta jumlah dan interaksinya. Sedangkan, pada large-scale modelling diusulkan challange yang mengestimasi jutaan hingga miliaran parameter data mining model.
Saya banyak belajar dari paper report ini tentang permasalahan-permasalahan yang berkaitan dengan data mining, ternyata banyak sekali.

Grand Challenge seperti apa yang akan muncul? kita tunggu saja nanti. 🙂

Satu lagi challenge yang berkaitan dengan data mining.
Spock (http://www.spock.com/), people search application, memberikan tantangan berhadiah $50000. Problemnya tentang entity resolution.
Entity resolution merupakan salah satu permasalahan link mining yang menarik (survey link mining dapat dilihat di SIGKDD Exploration Volume 7, Issue 2, December 2005, review singkat dalam bahasa Indonesia dapat dilihat di Survey Link Mining).
Jelas sekali bahwa entity resolution sangat diperlukan pada people search application karena di dunia ini banyak orang yang memiliki nama yang sama. Nama Michael Jackson misalnya, bisa jadi nama penyanyi atau nama pemain football di Amerika.
Task problem ini adalah menentukan real world entity (nama orang) pada dataset yang berupa dokumen, membagi dokumen-dokumen tersebut pada real world entity (nama orang) yang relevan. Jadi, misalnya jika ada orang mencari Michael Jackson seorang penyanyi, maka hasilnya jangan sampai tercampur dengan Michael Jackson seorang pemain football. Menarik bukan??
Detil informasi lebih lengkap tentang Spock Challenge : http://challenge.spock.com/

ECML/PKDD 2007 Discovery Challenge juga telah dimulai. Ada tiga problem yang dapat dipilih untuk diikuti: User’s behaviour prediction, HTML traffic prediction, dan Sumerian literature understanding.
Informasi lebih lengkap tentang Discovery Challenge ini dapat dilihat pada:
http://www.ecmlpkdd2007.org/challenge/

Data Mining Cup 2007 telah dimulai. Tasknya seputar rebate system pada check-out couponing.
Detil lebih lengkap dapat dilihat pada:
http://www.data-mining-cup.com/2007/Wettbewerb/

Detil kompetisi dan task KDD Cup 2007 telah diumumkan. KDD Cup 2007 diadakan oleh ACM SIGKDD bekerjasama dengan Netflix. Datanya menggunakan Netflix Prize training dataset, yang merupakan data rating film. Ada dua task pada KDD Cup 2007. Detilnya dapat dilihat pada http://www.cs.uic.edu/~liub/Netflix-KDD-Cup-2007.html.

Laman Berikutnya »