Salah satu konferensi internasional terbesar tentang data mining, IEEE ICDM, baru saja berakhir tanggal 22 Desember 2006 yang lalu. Seperti yang telah saya umumkan pada posting saya yang lalu tentang 10 Well-Known Algorithm in Data Mining, salah satu feature pada ICDM kali ini adalah identifikasi top 10 algorithms in Data Mining. Dari 18 nominasi algoritma yang dibagi dalam 10 topik, telah diumumkan 10 Algoritma tersebut.
Dari 18 nominasi tersebut dilakukan voting oleh anggota program committee KDD-06, ICDM’06, SDM’06, pemenang ACM KDD Innovation Award, dan pemenang IEEE ICDM Research Contribution Award yang kemudian diperoleh ranking 10 algoritma teratas. Berikut ini adalah hasilnya:
   #1: C4.5
   #2: K-Means
   #3: SVM
   #4: Apriori
   #5: EM
   #6: PageRank
   #7: AdaBoost
   #7: kNN
   #7: Naive Bayes
   #10: CART
AdaBost, kNN, dan Naive Bayes memperoleh jumlah voting yang sama.
Ada yang menarik dari hasil ini. Semua nominasi (4 algoritma: C4.5, kNN, Naive Bayes, CART) dari area klasifikasi data masuk dalam top 10. Hal ini menunjukkan bahwa klasifikasi data merupakan task data mining yang paling umum dan paling sering dilakukan. Kemudian, semua nominasi area statistical learning (SVM dan EM) juga masuk dalam 10 ranking teratas. Topik-topik advance seperti sequential patterns, integrated mining, rough sets, graph mining agaknya masih kurang terlalu populer. Hanya PageRank dari area link mining yang masuk dalam top 10 (mungkin, karena terkatrol popularitas Google). Dan yang terakhir, algoritma-algoritma teratas ini merupakan algoritma yang banyak dipakai tidak hanya dalam data mining saja.
Jika dihubungkan dengan kompetisi-kompetisi data mining yang pernah dilakukan, umumnya para pemenangnya menggunakan algoritma-algoritma ada pada daftar ini. Algoritma-algoritma seperti SVM, dan Naive Bayes sangat sering kali digunakan.
Mungkin tidak lama lagi akan segera muncul survey paper untuk algoritma-algoritma ini.

Referensi:
1. Top 10 Algorithms in Data Mining. http://www.cs.uvm.edu/~icdm/algorithms/index.shtml.