(Presented at ICDM 2006 in Hong Kong by Xindong Wu and Vipin Kumar)
Selalu saja ada hal menarik dari IEEE ICDM (International Conference on Data Mining). Jika tahun lalu IEEE ICDM mengidentifikasi 10 Challenging Problem in Data Mining, maka tahun ini IEEE ICDM mengidentifikasi algoritma data mining yang paling dikenal. Hal inilah yang membedakan IEEE ICDM dengan konferensi lainnya.
Setelah melewati proses seleksi (proses seleksinya dapat dilihat melalui link yang ada pada referensi di bawah), berikut ini adalah nominasi 10 Well-Known Algorithm in Data Mining (berikut dengan perhitungan citation dengan Google Scholar sampai akhir Oktober 2006 yang digunakan sebagai verifikasi) yang terbagi dalam 10 kategori:

Classification
#1. C4.5 (Google Scholar Count in October 2006: 6907)
#2. CART (Google Scholar Count in October 2006: 6078)
#3. Naive Bayes (Google Scholar Count: 498)
#4. K Nearest Neighbours (kNN) (Google SCholar Count: 183)

Statistical Learning
#5. SVM (Google Scholar Count in October 2006: 6441)
#6. EM (Google Scholar Count in October 2006: 848)

Association Analysis
#7. Apriori (Google Scholar Count in October 2006: 3639)
#8. FP-Tree (Google Scholar Count in October 2006: 1258)

Link Mining
#9. PageRank (Google Shcolar Count in October 2006: 2558)
#10. HITS (Google Shcolar Count in October 2006: 2240)

Clustering
#11. K-Means (Google Scholar Count in October 2006: 1579)
#12. BIRCH (Google Scholar Count in October 2006: 853)

Bagging and Boosting
#13. AdaBoost (Google Scholar Count in October 2006: 1576)

Sequential Patterns
#14. GSP (Google Scholar Count in October 2006: 596)
#15. PrefixSpan (Google Scholar Count in October 2006: 248)

Integrated Mining
#16. CBA (Google Scholar Count in October 2006: 436)	 

Rough Sets
#17. Finding reduct (Google Scholar Count in October 2006: 329)

Graph Mining
#18. gSpan (Google Scholar Count in October 2006: 155)

Dari daftar nominasi, algoritma-algoritma yang masuk nominasi merupakan algoritma-algoritma pionir pada masing-masing pendekatan. Dan, banyak pengembangan lebih lanjut dari masing-masing algoritma tersebut. Hal ini dapat dilihat dari banyaknya paper yang mengutip algoritma tersebut. Sebagai informasi, algoritma yang jumlah citation berdasarkan Google Scholar tidak sampai 55 citation sudah tereliminasi.
Algoritma-algoritma ini adalah yang paling umum digunakan dalam data mining, tentunya dengan masing-masing modifikasi sesuai dengan permasalahan yang dihadapi. Sangat baik jika kita mengenal dengan baik algoritma-algoritma ini.
Menurut saya semakin simpel algoritma tersebut, jelas semakin populer. Banyak orang yang lebih tertarik untuk menggunakannya. Kita tunggu saja, algoritma-algoritma mana yang termasuk 10 Well-Known Algorithm in Data Mining. Dilihat dari nominasinya, 18 algoritma tersebut akan bersaing ketat.

Referensi:
1. 10 Well-Known Algorithm in Data Mining. http://www.cs.uvm.edu/~icdm/algorithms/index.shtml.

Iklan