Salah satu konferensi internasional terbesar tentang data mining, IEEE ICDM, baru saja berakhir tanggal 22 Desember 2006 yang lalu. Seperti yang telah saya umumkan pada posting saya yang lalu tentang 10 Well-Known Algorithm in Data Mining, salah satu feature pada ICDM kali ini adalah identifikasi top 10 algorithms in Data Mining. Dari 18 nominasi algoritma yang dibagi dalam 10 topik, telah diumumkan 10 Algoritma tersebut.
Dari 18 nominasi tersebut dilakukan voting oleh anggota program committee KDD-06, ICDM’06, SDM’06, pemenang ACM KDD Innovation Award, dan pemenang IEEE ICDM Research Contribution Award yang kemudian diperoleh ranking 10 algoritma teratas. Berikut ini adalah hasilnya:
#1: C4.5
#2: K-Means
#3: SVM
#4: Apriori
#5: EM
#6: PageRank
#7: AdaBoost
#7: kNN
#7: Naive Bayes
#10: CART
AdaBost, kNN, dan Naive Bayes memperoleh jumlah voting yang sama.
Ada yang menarik dari hasil ini. Semua nominasi (4 algoritma: C4.5, kNN, Naive Bayes, CART) dari area klasifikasi data masuk dalam top 10. Hal ini menunjukkan bahwa klasifikasi data merupakan task data mining yang paling umum dan paling sering dilakukan. Kemudian, semua nominasi area statistical learning (SVM dan EM) juga masuk dalam 10 ranking teratas. Topik-topik advance seperti sequential patterns, integrated mining, rough sets, graph mining agaknya masih kurang terlalu populer. Hanya PageRank dari area link mining yang masuk dalam top 10 (mungkin, karena terkatrol popularitas Google). Dan yang terakhir, algoritma-algoritma teratas ini merupakan algoritma yang banyak dipakai tidak hanya dalam data mining saja.
Jika dihubungkan dengan kompetisi-kompetisi data mining yang pernah dilakukan, umumnya para pemenangnya menggunakan algoritma-algoritma ada pada daftar ini. Algoritma-algoritma seperti SVM, dan Naive Bayes sangat sering kali digunakan.
Mungkin tidak lama lagi akan segera muncul survey paper untuk algoritma-algoritma ini.
Referensi:
1. Top 10 Algorithms in Data Mining. http://www.cs.uvm.edu/~icdm/algorithms/index.shtml.
September 24, 2007 at 2:27 am
P Philips Yth,
Yg termasuk dlm statistical learning adalah SVM dan EM, EM itu singkatan dari apa ya?
Terimakasih banyak.
Februari 5, 2008 at 6:44 am
Pak, KNN itu singkatan dr apa ya pak? Neural network bukan pak?
mm..sy ingin bertanya lagi, apakah antara decision tree, neural network, dan naive bayes terletak dalam satu level yang sm apabila dijadikan suatu penelitian untuk membandingkan ketiganya?? parameter apa yang dapat sy jadikan perbandingan? terima kasih pak
Februari 12, 2008 at 3:07 am
@Santi:
EM = Expectation Maximization
@Amel
KNN = K Nearest Neighbour
Februari 13, 2008 at 6:14 am
Ehm…. kLo bLh tau aLgoritma yang biasa dipakai pada Machine Learning apa yah???
TruZ pertanyaan yang kedua
5 Buah contoh ApLikasi yang menggunakan Machine Learning apa yah…???
tLong di jawab
Februari 13, 2008 at 7:46 am
@aGoenK:
algoritma-algoritma di atas bisa juga dibilang algoritmanya machine learning. Pada dasarnya banyak sekali algoritma machine learning. Aplikasinya juga amat sangat banyak, berbagai bidang lain juga banyak yang menggunakan machine learning.
Semoga membantu.
Desember 4, 2008 at 7:34 am
Saya sedang menyusun Tugas Akhir, dan saya tertarik dengan Classification Based on Association (CBA) pada data mining. Saya menggunakan SQL Server dan C#.
Mohon Bantuannya.
Terima Kasih.