November 2006


Kesulitan mencari resource (atau sumber atau referensi)…..
Hal itu sering saya dengar, umumnya teman-teman mahasiswa, terutama yang sedang menyelesaikan tugas akhir. Banyak dari mereka sangat sulit mendapatkan referensi tentang hal-hal yang mereka pelajari. Padahal mereka mendapatkan saran search pakai Google (atau search engine yang lain).
Umumnya orang kesulitan mencari resource karena mereka memang tidak tahu apa yang mereka cari. Keyword adalah salah satu hal yang penting. Lewat kata-kata kunci tersebut hasil pencarian dengan menggunakan search engine akan memberikan hasil yang lebih spesifik, tentunya akan mempertajam lingkup pencarian. Selain kata kunci yang tepat, ada beberapa cara yang biasanya saya gunakan dalam pencarian resource.
“Berguru pada ahlinya”, mungkin dapat dikatakan seperti itu. Salah satu cara yang baik untuk mencari resource adalah lebih dekat dengan para pakarnya. Search nama pakar tersebut untuk memperoleh homepage mereka. Cara ini sangat efektif, selain Anda dapat memperoleh resource dari orang tersebut, Anda juga sangat mungkin memperoleh resource-resource lain dari orang-orang yang pernah bekerjasama dengan orang tersebut. Dan, umumnya orang komputer selalu mempublikasikan karya-karya mereka pada homepage pribadinya. Dari sini kita juga dapat kontak orang tersebut, berdiskusi seputar penelitian mereka. Saya yakin orang-orang seperti mereka tidak pelit berbagi pengetahuan.
Bagaimana kita bisa memperoleh nama-nama pakar tersebut??
Anda bisa memperolehnya dari berbagai sumber. Yang paling sering saya gunakan adalah dari references survey paper (baca posting: Survey papers – eksplorasi awal sebuah topic) dan paper research. Dari sebuah paper kita bisa memperoleh banyak sumber, banyak nama. Tinggal jelajahi aja satu per satu.

Terima kasih kepada Bapak Gunawan, dosen saya waktu kuliah atas tips yang membuat pencarian resource menjadi menyenangkan

Iklan

(Presented at ICDM 2006 in Hong Kong by Xindong Wu and Vipin Kumar)
Selalu saja ada hal menarik dari IEEE ICDM (International Conference on Data Mining). Jika tahun lalu IEEE ICDM mengidentifikasi 10 Challenging Problem in Data Mining, maka tahun ini IEEE ICDM mengidentifikasi algoritma data mining yang paling dikenal. Hal inilah yang membedakan IEEE ICDM dengan konferensi lainnya.
Setelah melewati proses seleksi (proses seleksinya dapat dilihat melalui link yang ada pada referensi di bawah), berikut ini adalah nominasi 10 Well-Known Algorithm in Data Mining (berikut dengan perhitungan citation dengan Google Scholar sampai akhir Oktober 2006 yang digunakan sebagai verifikasi) yang terbagi dalam 10 kategori:

Classification
#1. C4.5 (Google Scholar Count in October 2006: 6907)
#2. CART (Google Scholar Count in October 2006: 6078)
#3. Naive Bayes (Google Scholar Count: 498)
#4. K Nearest Neighbours (kNN) (Google SCholar Count: 183)

Statistical Learning
#5. SVM (Google Scholar Count in October 2006: 6441)
#6. EM (Google Scholar Count in October 2006: 848)

Association Analysis
#7. Apriori (Google Scholar Count in October 2006: 3639)
#8. FP-Tree (Google Scholar Count in October 2006: 1258)

Link Mining
#9. PageRank (Google Shcolar Count in October 2006: 2558)
#10. HITS (Google Shcolar Count in October 2006: 2240)

Clustering
#11. K-Means (Google Scholar Count in October 2006: 1579)
#12. BIRCH (Google Scholar Count in October 2006: 853)

Bagging and Boosting
#13. AdaBoost (Google Scholar Count in October 2006: 1576)

Sequential Patterns
#14. GSP (Google Scholar Count in October 2006: 596)
#15. PrefixSpan (Google Scholar Count in October 2006: 248)

Integrated Mining
#16. CBA (Google Scholar Count in October 2006: 436)	 

Rough Sets
#17. Finding reduct (Google Scholar Count in October 2006: 329)

Graph Mining
#18. gSpan (Google Scholar Count in October 2006: 155)

Dari daftar nominasi, algoritma-algoritma yang masuk nominasi merupakan algoritma-algoritma pionir pada masing-masing pendekatan. Dan, banyak pengembangan lebih lanjut dari masing-masing algoritma tersebut. Hal ini dapat dilihat dari banyaknya paper yang mengutip algoritma tersebut. Sebagai informasi, algoritma yang jumlah citation berdasarkan Google Scholar tidak sampai 55 citation sudah tereliminasi.
Algoritma-algoritma ini adalah yang paling umum digunakan dalam data mining, tentunya dengan masing-masing modifikasi sesuai dengan permasalahan yang dihadapi. Sangat baik jika kita mengenal dengan baik algoritma-algoritma ini.
Menurut saya semakin simpel algoritma tersebut, jelas semakin populer. Banyak orang yang lebih tertarik untuk menggunakannya. Kita tunggu saja, algoritma-algoritma mana yang termasuk 10 Well-Known Algorithm in Data Mining. Dilihat dari nominasinya, 18 algoritma tersebut akan bersaing ketat.

Referensi:
1. 10 Well-Known Algorithm in Data Mining. http://www.cs.uvm.edu/~icdm/algorithms/index.shtml.

Selain ICDM Research Contribution Award, IEEE ICDM tahun ini juga memberikan penghargaan IEEE ICDM Outstanding Service Award. Penghargaan tersebut diberikan kepada Dr. Xindong Wu. Penghargaan ini diberikan kepada orang atau kelompok atas kontribusinya dalam mempromosikan bidang data mining dan ICDM sebagai konferensi riset data mining terbesar di dunia.
Dr. Xindong Wu adalah professor dan department chair di University of Vermont. Beliau adalah founder IEEE ICDM, selain itu Beliau banyak sekali memberikan banyak masukan untuk perkembangan ICDM. 10 challenging problems in data mining yang merupakan salah satu feature ICDM tahun lalu adalah hasil inisiatif Beliau. Termasuk juga tahun ini, Beliau juga berinisiatif untuk mengidentifikasi 10 well-known algorithm in data mining.
Selain itu, Beliau merupakan founder jurnal KAIS (Knowledge and Information System), founding chair IEEE Computer Society TCII (Technical Committee on Intelligent Informatics), dan saat ini adalah editor-in-chief IEEE TKDE (Transactions on Knowledge and Data Engineering) dan program committee co-chair ACM SIGKDD 2007. Publkasinya dalam bidang data mining sangat banyak di berbagai jurnal dan konferensi.

Referensi:
1. ICDM Awards. http://www.cs.uvm.edu/~icdm/Awards.shtml.
2. Xindong Wu’s Home Page. http://www.cs.uvm.edu/%7Exwu/home.html.

Sangat sulit menemukan proyek-proyek data mining di Indonesia. Hingga saat ini saya belum menemukan proyek-proyek di Indonesia, baik akademis maupun industri, walaupun saya tahu banyak juga orang-orang yang concern dan sedang meneliti data mining di Indonesia. Jika di luar negeri, proyek-proyek data mining sangat mudah ditemui dari homepage pribadi masing-masing peneliti. Mereka selalu memiliki tema proyek yang selalu dikerjakan dalam jangka waktu tertentu, dan hasilnya dapat dilihat dari publikasi-publikasinya maupun hak paten yang diperoleh.
Dulu pertanyaan ini pernah saya lontarkan di milis data mining Indonesia (indo-dm), namun saya belum mendapatkan informasi yang jelas tentang hal ini. Yang saya tahu, Telkom menerapkan data mining untuk profiling customer dan fraud detection. Astra juga menggunakan Fair Issac untuk melakukan scoring customer. Dan, sepertinya di ITB juga terdapat proyek yang berhubungan dengan data mining (mohon koreksi jika saya salah). Saya tidak tahu proyek-proyek yang lain.
Beberapa waktu yang lalu, saya mendapatkan email dari kmining (www.kmining.com) yang meminta saya membantu mereka untuk mendaftarkan orang-orang yang aktif di data mining. Mereka agak bingung karena dari banyaknya jumlah universitas dan penduduk yang ada di Indonesia, mereka hanya dapat menemukan satu orang saja. Anda bisa lihat pada list people kmining, Indonesia hanya ada satu saja. Semoga setelah ini akan semakin banyak orang Indonesia yang terdaftar di sana.
Bagi siapa saja yang memilki atau sedang terlibat pada suatu proyek data mining, Anda dapat memperkenalkannya di sini. Anda bisa sebutkan proyek seperti apa yang Anda kerjakan, dan jika ada linknya juga dapat Anda sertakan. Silahkan, kita bisa saling berbagi di sini.

IEEE ICDM 2006, salah satu konferensi internasional data mining terbesar yang akan berlangsung akhir tahun ini, memberikan penghargaan 2006 IEEE ICDM Research Contribution Award kepada Prof. Christos Faloutsos. Penghargaan ini diberikan atas kontribusinya di bidang data mining .
Prof. Christos Faloutsos adalah Profesor dari CMU (Carnegie Mellon University). Kontribusi risetnya dalam bidang data mining sangat besar, terutama dalam mining dan indexing untuk data stream dan graph, mining temporal dan data video. Beberapa paper beliau merupakan paper berpengaruh yang banyak sekali dikutip. Saat penghargaan ini diumumkan, papernya tentang time series yang memperoleh best paper award di SIGMOD 1994 telah dikutip sebanyak 582 kali. Papernya tentang QBIC (query by image content) di SPIE’93 telah dikutip lebih dari 1000 kali. Paper-paper tersebut kemudian memunculkan metodologi GEMINI untuk pencarian database multimedia dan time series yang umum digunakan pada area ini.
Di bidang graph mining, Prof. Faloutsos menemukan power law dalam real graph terutama dalam topologi internet yang membawa banyak perubahan di bidang ini. Papernya tentang hal ini di SIGCOMM’99 (On Power-Law Relationships of the Internet Topology) yang kemudian dikenal dengan “Faloutsos cubed paper” karena bersama dengan kedua saudaranya telah dikutip lebih dari 1000 kali, dan menjadi paper yang paling banyak dikutip urutan kelima tahun 1999 berdasarkan Citeseer.
Beliau juga telah banyak menerima penghargaan seperti Presidential Young Investigator Award dari National Science Foundation tahun 1989, VLDB 10 Years paper Award tahun 1997 (papernya tentang R+ Tree), delapan best paper award, dan beberapa teaching award. Beliau juga merupakan executive committee ACM SIGKDD. Publikasi sangat banyak termasuk 11 book chapter, 20 tutorial, dan 10 distinguish invited lectures.
Selamat buat Prof. Christos Faloutsos !
Melihat biografi Beliau, sangat menarik dan inspiratif. R+ Tree merupakan teknik indexing yang umum dipakai dalam database spatial. Penemuannya tentang Power-Law akan banyak digunakan dalam graph dan aplikasinya. Kita tahu bahwa aplikasi graph ini sangat banyak seperti social network analysis, food web network, dan biological network (ingat, bioinformatika adalah bidang yang diramalkan sebentar lagi akan booming). Dan, yang paling menarik bagi saya adalah Fractal. Hal ini menarik karena Beliau meneliti fractal dan self-similarity untuk data mining. Beberapa invited lecture Beliau berbicara tentang fractal dan power law sebagai advaced data mining tools. Wawancara menarik dengan Christos Faloutsos pada ACM SIGMOD record Desember 2005 dapat dilihat pada referensi nomer 3.

Reference:
1. Christos Faloutsos. http://www.cs.cmu.edu/~christos/
2. 2006 IEEE ICDM Research Contribution Award: Prof. Christos Faloutsos. http://www.cs.uvm.edu/~icdm/awards/Faloutsos-06.shtml
3. Christos Faloutsos speaks out on Power Laws, Fractals, the Future of Data Mining, Sabbaticals, and more. http://www.cs.cmu.edu/~christos/IN-THE-NEWS/p85-column-winslett.pdf