10 Well-Known Algorithm in Data Mining

November 19, 2006

10 Well-Known Algorithm in Data Mining

Posted by Philips Kokoh Prasetyo under News, Review
[40] Comments

(Presented at ICDM 2006 in Hong Kong by Xindong Wu and Vipin Kumar)
Selalu saja ada hal menarik dari IEEE ICDM (International Conference on Data Mining). Jika tahun lalu IEEE ICDM mengidentifikasi 10 Challenging Problem in Data Mining, maka tahun ini IEEE ICDM mengidentifikasi algoritma data mining yang paling dikenal. Hal inilah yang membedakan IEEE ICDM dengan konferensi lainnya.
Setelah melewati proses seleksi (proses seleksinya dapat dilihat melalui link yang ada pada referensi di bawah), berikut ini adalah nominasi 10 Well-Known Algorithm in Data Mining (berikut dengan perhitungan citation dengan Google Scholar sampai akhir Oktober 2006 yang digunakan sebagai verifikasi) yang terbagi dalam 10 kategori:

Classification
#1. C4.5 (Google Scholar Count in October 2006: 6907)
#2. CART (Google Scholar Count in October 2006: 6078)
#3. Naive Bayes (Google Scholar Count: 498)
#4. K Nearest Neighbours (kNN) (Google SCholar Count: 183)

Statistical Learning
#5. SVM (Google Scholar Count in October 2006: 6441)
#6. EM (Google Scholar Count in October 2006: 848)

Association Analysis
#7. Apriori (Google Scholar Count in October 2006: 3639)
#8. FP-Tree (Google Scholar Count in October 2006: 1258)

Link Mining
#9. PageRank (Google Shcolar Count in October 2006: 2558)
#10. HITS (Google Shcolar Count in October 2006: 2240)

Clustering
#11. K-Means (Google Scholar Count in October 2006: 1579)
#12. BIRCH (Google Scholar Count in October 2006: 853)

Bagging and Boosting
#13. AdaBoost (Google Scholar Count in October 2006: 1576)

Sequential Patterns
#14. GSP (Google Scholar Count in October 2006: 596)
#15. PrefixSpan (Google Scholar Count in October 2006: 248)

Integrated Mining
#16. CBA (Google Scholar Count in October 2006: 436)	 

Rough Sets
#17. Finding reduct (Google Scholar Count in October 2006: 329)

Graph Mining
#18. gSpan (Google Scholar Count in October 2006: 155)

Dari daftar nominasi, algoritma-algoritma yang masuk nominasi merupakan algoritma-algoritma pionir pada masing-masing pendekatan. Dan, banyak pengembangan lebih lanjut dari masing-masing algoritma tersebut. Hal ini dapat dilihat dari banyaknya paper yang mengutip algoritma tersebut. Sebagai informasi, algoritma yang jumlah citation berdasarkan Google Scholar tidak sampai 55 citation sudah tereliminasi.
Algoritma-algoritma ini adalah yang paling umum digunakan dalam data mining, tentunya dengan masing-masing modifikasi sesuai dengan permasalahan yang dihadapi. Sangat baik jika kita mengenal dengan baik algoritma-algoritma ini.
Menurut saya semakin simpel algoritma tersebut, jelas semakin populer. Banyak orang yang lebih tertarik untuk menggunakannya. Kita tunggu saja, algoritma-algoritma mana yang termasuk 10 Well-Known Algorithm in Data Mining. Dilihat dari nominasinya, 18 algoritma tersebut akan bersaing ketat.

Referensi:
1. 10 Well-Known Algorithm in Data Mining. http://www.cs.uvm.edu/~icdm/algorithms/index.shtml.

40 Tanggapan to “10 Well-Known Algorithm in Data Mining”

Top 10 Algorithms in Data Mining « DM Corner Says:

Desember 30, 2006 at 5:52 am
[…] 30 Dec 2006 Top 10 Algorithms in Data Mining Posted by Philips Kokoh Prasetyo under News Salah satu konferensi internasional terbesartentang data mining, IEEE ICDM, baru saja berakhir tanggal 22 Desember 2006 yang lalu. Seperti yang telah saya umumkan pada posting saya yang lalu tentang 10 Well-Known Algorithm in Data Mining, salah satu feature pada ICDM kali ini adalah identifikasi top 10 algorithms in Data Mining. Dari 18 nominasi algoritma yang dibagi dalam 10 topik, telah diumumkan 10 Algoritma tersebut. Dari 18 nominasi tersebut dilakukan voting oleh anggota program committee KDD-06, ICDM’06, SDM’06, pemenang ACM KDD Innovation Award, dan pemenang IEEE ICDM Research Contribution Award yang kemudian diperoleh ranking 10 algoritma teratas. Berikut ini adalah hasilnya: #1: C4.5 #2: K-Means #3: SVM #4: Apriori #5: EM #6: PageRank #7: AdaBoost #7: kNN #7: Naive Bayes #10: CART AdaBost, kNN, dan Naive Bayes memperoleh jumlah voting yang sama. Ada yang menarik dari hasil ini. Semua nominasi (4 algoritma: C4.5, kNN, Naive Bayes, CART) dari area klasifikasi data masuk dalam top 10. Hal ini menunjukkan bahwa klasifikasi data merupakan task data mining yang paling umum dan paling sering dilakukan. Kemudian, semua nominasi area statistical learning (SVM dan EM) juga masuk dalam 10 ranking teratas. Topik-topik advance seperti sequential patterns, integrated mining, rough sets, graph mining agaknya masih kurang terlalu populer. Hanya PageRank dari area link mining yang masuk dalam top 10 (mungkin, karena terkatrol popularitas Google). Dan yang terakhir, algoritma-algoritma teratas ini merupakan algoritma yang banyak dipakai tidak hanya dalam data mining saja. Jika dihubungkan dengan kompetisi-kompetisi data mining yang pernah dilakukan, umumnya para pemenangnya menggunakan algoritma-algoritma ada pada daftar ini. Algoritma-algoritma seperti SVM, dan Naive Bayes sangat sering kali digunakan. Mungkin tidak lama lagi akan segera muncul survey paper untuk algoritma-algoritma ini. […]
Santi P Rahayu Says:

September 20, 2007 at 2:54 am
P Philip yang baik,
Saya dosen Statistika ITS Surabaya yang baru start sebagai PhD student Computer science di Universiti Malaysia Pahang.
Saya tertarik dengan topik adaboost classification sebagai statistical machine learning.
Mungkin P phillips tahu, milis atau website atau orang2 yang pakar berkaitan dengan topik tersebut (di Indonesia mungkin)
Terima Kasih banyak
Philips Kokoh Prasetyo Says:

September 20, 2007 at 4:42 am
Waduh,
iki comment dari orang yang lebih sakti dari saya nih.
Coba Anda join milis indo-dm (http://datamining.japati.net/), di sana pernah ada tutorial tentang AdaBoost, kalo tidak salah ingat waktu itu dibawakan oleh Pak Arif Bijaksana.
Anda bisa kontak pak Arif di milis tersebut.
Santi Says:

September 24, 2007 at 2:46 am
P Philips Yth,
Yg termasuk dlm statistical learning adalah SVM dan EM, EM itu singkatan dari apa ya?
Terimakasih banyak.
Philips Kokoh Prasetyo Says:

September 27, 2007 at 2:49 pm
Ibu Santi, EM singkatan dari Expectation-Maximization.
eli Says:

September 29, 2007 at 5:32 am
p’philips..
dari metode2 data mining yang tertera diatas, menurut anda metode apa yang cocok untuk mengolah data harian?kasusnya tentang pengolahan data harian saham perusahaan untuk mencari pola perusahaan tersebut.
trima kasih banyak…
Philips Kokoh Prasetyo Says:

September 29, 2007 at 6:14 am
Pak Eli, metode-metode tersebut merupakan alat untuk melakukan mining. Pendekatan-pendekatan tersebut dapat dipakai untuk mengolah data, tinggal bagaimana menggunakannya. Contohnya: sequential pattern dapat dipakai untuk mencari pola2 sekuensial pada data. Pengembangan dari algoritma-algoritma tersebut sangat banyak, bahkan ada juga yg menggabungkan beberapa algoritma sekaligus.
eli Says:

September 30, 2007 at 11:58 am
trims buat pencerahannya..
tolong jelasin dikit tentang pola sekuensial donk..
thanx a lot
Philips Kokoh Prasetyo Says:

September 30, 2007 at 12:47 pm
Mas Eli, ntar kalo ada waktu saya akan buat tulisan singkat tentang sequential pattern mining. belajar dulu mas, saya juga kurang paham tentang sequential pattern mining.
Anda dapat memulainya dari http://www.google.com/search?q=sequential+pattern+mining
banyak paper tentang sequential pattern mining.
Semoga membantu.
Astra Says:

November 17, 2007 at 9:36 am
p’philips
coba tulis tentang EM juga dong.

makasie.
Philips Kokoh Prasetyo Says:

November 18, 2007 at 4:56 am
Pak Astra,
saya akan coba tulis tentang EM. Namun, mungkin tidak bisa segera, lagi masa-masa sibuk.
bagus Says:

November 20, 2007 at 9:09 am
kalo ingin membandingkan 2 algoritma classification,yang bagus algoritma apa yg d bandingkan?mohon penjelasan lebih lanjut ttg algoritmanya juga…
Philips Kokoh Prasetyo Says:

November 20, 2007 at 9:19 am
Mas Bagus, banyak sekali yang bisa dibandingkan. Anda bisa ambil juga dari algoritma di atas.
Jika ingin lebih spesifik lagi, anda bisa membandingkan varian dari sebuah algoritma, algoritma di atas banyak sekali pengembangannya.
Anda bisa analisa kelebihan dan kekurangannya.
indah Says:

November 22, 2007 at 10:38 am
p’philips..
mohon penjelasan tentang algoritma CART..
terimakasih…
Philips Kokoh Prasetyo Says:

November 22, 2007 at 11:00 am
Indah,
CART merupakan algoritma decision tree yang sangat populer, anda dapat coba cari di internet. Sangat banyak resource tentang ini. Kalo berkaitan dengan literatur/referensi, buku Pattern Recognition tulisan Richard O. Duda, Peter E. Hart, dan David G. Stork http://rii.ricoh.com/~stork/DHS.html
Penjelasan di sana cukup detail.
zamak Says:

Desember 2, 2007 at 1:01 pm
p philips, mohon pencerahannya tentang sequential pattern pak, terutama tentang prefixSpan..

o iya, cari aplikasi data mining yang menerapkan prefixSpan dimana y pak?
Philips Kokoh Prasetyo Says:

Desember 4, 2007 at 8:37 am
@zamak:
prefixspan merupakan salah satu algoritma sequential pattern mining, jadi prefixspan dapat diterapkan pada permasalahan sequential pattern mining.
Coba anda baca original papernya: http://www-sal.cs.uiuc.edu/~hanj/pdf/span01.pdf
Amel Says:

Februari 5, 2008 at 6:59 am
waduh Pak, dalam skripsi sy , sy agak kesulitan dengan neural network pak jika dibandingkan dengan decision tree dan naive bayes, apakah bapak punya referensi mengenai algoritma neural network ini? terimakasih pak.. 🙂
anton Says:

Maret 1, 2008 at 9:31 pm
pak, saya mengambil skripsi tentang data mining temanya algoritma cpar.bapak bisa menjelaskan tentang cpar itu atau apakah bapak punya referensi mengenai algoritma cpar ini terimakasih pak.
nandha Says:

Maret 2, 2008 at 9:30 am
pak, saya sedang mengambil skripsi tentang data mining dengan tema roughset. Saya kesulitan dalam mencari informasi ttg penjelasan tema tsb terutama pada algoritma quickreduct dan VPRS. Apakah bapak dapat membantu saya baik dalam penjelasan, referensi ataupun source code(java) bila ada. terimakasih atas bantuannya
yulie Says:

Maret 2, 2008 at 9:32 am
saya sedang mengerjakan Tugas Akhir tentang SVM pada teks. Namun saya mengalami kebingungan dlm penurunan rumus pada SVM. mohon bantuannya. terimakasih
Philips Kokoh Prasetyo Says:

Maret 3, 2008 at 11:20 am
@Anton:
Agak lucu pertanyaannya, bagaimana bisa jadi topik tugas akhir kalo referensi aja tidak ada. btw, CPAR merupakan algoritma klasifikasi berbasis association rule. Coba Anda search di Google. Ada kok papernya.

@Nandha:
Sayang sekali, saya benar-benar tidak tau tentang rough set. Tolong dishare kalo Anda udah memahaminya ya.

@Yulie:
Pada dasarnya SVM merupakan bentuk permasalahan optimasi. Jadi anda mungkin bisa dapat backgroundnya dari buku-buku optimization design. Saya tidak tau yang bagus yang mana, karena saya sendiri juga mengalami masalah yang sama sewaktu kerja tugas akhir. Btw, tugas akhir saya juga tentang SVM.
dewi Says:

Maret 3, 2008 at 11:32 am
sylm…
saat ini tugas akhir saya tentang dokument clustering dengan sequential patter.kira – kira algoritma apa yang tepat untuk menyelesaikan kasus TA sayan ini?
terimakasih untuk jawabannya…
Philips Kokoh Prasetyo Says:

Maret 3, 2008 at 1:17 pm
@dewi:
banyak sekali cara untuk document clustering. Sebaiknya Anda baca-baca dulu paper-paper terkait dengan hal tesebut.
Border Crossing Stats » 10 Well-Known Algorithm in Data Mining DM Corner Says:

Maret 11, 2008 at 9:16 am
[…] Get the entire post from here. […]
shofie Says:

April 13, 2008 at 4:12 am
pa philips…
tolo0ng dunk….
menurut bapak klo saya ingin membandingkan algoritma dalam clustering lebih baik apa az?
truz ada gak algoritma clustering terbaru? apa?
klo mau cari jurnal atau artikel tentang clustering dimana yah pak?
makasi bapak..
Philips Kokoh Prasetyo Says:

April 13, 2008 at 9:32 am
@shofie:
banyak sekali algoritma clustering, tergantung problemnya. Anda bisa temukan paper-paper terkait di conference-conference data mining, AI, machine learning.
vanie Says:

September 21, 2008 at 4:36 am
pak, saya mau nyari judl Tugas Akhir mengenai DAta mining tapi, saya baru dapat kuliahnya bulan sepetember ini.. kira2 ada ide gak pa?
makasih
ann Says:

November 4, 2008 at 3:19 pm
pak saya mau tanya kira-kira teknik klasifikasi yang sesuai untuk klasifikasi sponge apa ya ? saya ingin tahu apakah ada spesies atau kelas baru dalam taksonomi sponge dengan klasifikasi yang saya buat? dan kalau data kategorik yang saya punya belum berlabel bagaimana cara membuat label untuk klasifikasinya ? trimakasih
pandu Says:

November 27, 2008 at 5:32 am
p philips..
saya sedang ngerjain TA tentang klasifikasi hewan menurut philumnya dengan menggunakan metode decision tree,,saya mw nanya algoritma tree apa yg cocok bwt studi kasus saya pak???
Lian Says:

Desember 4, 2008 at 7:26 am
Saya sedang menyusun Tugas Akhir, dan saya tertarik dengan Classification Based on Association (GBA) pada data mining. Saya menggunakan SQL Server dan C#.

Mohon Bantuannya.

Terima Kasih.
Lian Says:

Desember 4, 2008 at 7:26 am
Saya sedang menyusun Tugas Akhir, dan saya tertarik dengan Classification Based on Association (CBA) pada data mining. Saya menggunakan SQL Server dan C#.

Mohon Bantuannya.

Terima Kasih.
Lian Says:

Desember 4, 2008 at 7:29 am
Saya sedang menyusun Tugas Akhir, dan saya tertarik dengan Classification Based on Association (CBA) pada data mining. Saya menggunakan SQL Server dan C#.

Mohon Bantuannya.

Terima Kasih.

Maaf tadi salah(GBA) seharusnya (CBA)
Hoho Says:

Januari 15, 2009 at 4:29 am
pak, untuk contoh studi kasus data saham (open, close, hi, lo) dapat diolah dengan metode data mining apa? mohon bantuannya
rath Says:

Maret 16, 2009 at 8:41 am
pak, saya sedang menyelesaikan tugas akhir tentang CART algorithm.
saya lagi kebinggungan nehh.. kok data yang sama dicoba di beberapa software pembanding kok bisa beda outputnya?? apa saya yang salah inputnya ya?
rath Says:

Maret 16, 2009 at 8:48 am
btw ada “referensi” buat tempat download source code decision tree ga pak??

maklum ga terlalu ngerti programming

makasih
zefy Says:

November 14, 2011 at 7:51 am
izin gabung
miangrace Says:

Februari 8, 2012 at 4:39 am
pak, saya mau tanya bagaimana rumus dan tahap cara menggabungkan/optimasi naive bayes dengan adaboost. thx….
miangrace Says:

Februari 8, 2012 at 4:39 am
pak, saya mau tanya bagaimana rumus dan tahap cara menggabungkan/optimasi naive bayes dengan adaboost. thx….
Sandi Detektif Says:

Februari 20, 2012 at 4:12 pm
pak selain algoritma diatas untuk, ad gak algoritma lain untuk data mining