Mei 2006


Dr. Ramasamy (Sam) Uthurusamy merupakan salah satu orang yang berjasa dalam workshop dan conference awal KDD. Bersama-sama dengan GPS, beliau terlibat dalam penyelenggaraan workshop awal KDD. Sebagai Member of Organizing dan Program Commitee pada KDD-89, KDD-91, KDD-93, dan Co-Chair workshop KDD-94. Dr. Uthurusamy adalah orang yang berjasa dalam penyelenggaraan conference awal KDD yang awalnya hanya berupa sebuah workshop saja. Beliau juga menjabat sebagai Co-Chair conference KDD yang pertama KDD-95, General Chair KDD-97, Sponsorship Chair KDD-98 dan KDD-99, Program Commitee KDD-02, KDD-05, KDD-06. Pada conference bidang AI (IJCAI, IAAI, SIAM), Dr. Sam Uthurusamy termasuk sangat aktif terlibat dalam perkembangannya.
Saat ini, Dr. Ramasamy Uthurusamy adalah General Director of Emerging Technologies, Information Systems and Services Division of General Motors Corporation. Researchnya berhubungan dengan KDD, AI, Knowledge Management, dan Advanced Web Technologies.
Beliau adalah penerima ACM SIGKDD Service Award 2002, serta Charles McCuen Special Achievement Award dari General Motors R&D Center atas hasil kerja dan dedikasinya pada aplikasi KDD.

Referensi :
1. ACM SIGKDD : Award. http://www.acm.org/sigs/sigkdd/awards.php#2002s
2. UA-MIS Board Members :: Management Information Systems ::Eller College of Management. http://mis.eller.arizona.edu/cgi-bin/web/partners/detail.cgi?indid=41

Secara umum, Association Rule Mining dapat dibagi menjadi dua tahap:

  1. Pencarian Frequent Itemset
    Pada proses ini dilakukan pencarian Frequent Itemset. Frequent Itemset yang diperoleh harus memenuhi minimum support (lihat post Itemset, Support, dan Confidence).
  2. Rule Generation
    Frequent Itemset yang telah dihasilkan dari proses sebelumnya digunakan untuk membentuk Association Rule. Association Rule yang dihasilkan akan memenuhi minimum support dan minimum confidence.

Masalah utama yang muncul pada pencarian Frequent Itemset adalah banyaknya hasil Frequent Itemset yang memenuhi threshold minimum support. Semakin rendah threshold minimum support, Frequent Itemset yang dihasilkan akan semakin banyak. Jika terdapat d item, maka akan diperoleh 2d-1 kombinasi itemset yang bisa diperoleh. Contoh: 100 item akan menghasilkan kombinasi itemset 2100-1. Jumlah itemset ini sangat banyak untuk dapat disimpan atau diproses pada komputer manapun. Untuk mengatasi hal ini, muncul istilah Closed Frequent Itemset dan Maximal Frequent Itemset.

KDDCup 2006 telah dimulai. Permasalahannya kali ini berkaitan dengan mining data medis. Batas waktunya sampai 17 Juli 2006. Karakteristik problem ini adalah :
* Multiple instance learning
* Non-IID examples
* Nonlinear cost functions
* Skewed class distributions
* Noisy class labels
* Sparse data
Lebih lanjut, silahkan kunjungi http://www.cs.unm.edu/kdd_cup_2006.

Ketiga istilah ini sangat penting dalam Association Rule mining.
Seperti yang sudah pernah disebutkan sebelumnya bahwa Association Rule Mining disebut juga Frequent Itemset Mining, karena itu Itemset merupakan fokus utama mining. Itemset merupakan himpunan kelompok item. Itemset dengan jumlah item k disebut k-Itemset. Jika menggunakan contoh transaksi pada post Association Rule Mining, {Milk, Bread, Diaper} merupakan salah satu Itemsetnya.
Association Rule dinyatakan dalam bentuk X => Y, di mana X dan Y merupakan Itemset. Contohnya : {Milk, Diaper} => {Beer}.
Support (s) dan Confidence (c) merupakan metrik yang digunakan pada Association Rule. Support menunjukkan persentasi jumlah transaksi yang berisi X dan Y. Sedangkan Confidence menunjukkan persentasi banyaknya Y pada transaksi yang mengandung X. Bentuk persamaan matematisnya dapat dituliskan seperti ini:

Berikut ini adalah contoh Association Rule :
{Milk, Diaper} => {Beer}

Support menunjukkan persentasi jumlah transaksi yang mengandung item {Milk, Diaper, Beer}.
Confidence menunjukkan persentasi {Beer} yang terdapat pada transaksi yang mengandung item {Milk, Diaper}.
Nilai Support digunakan untuk menentukan Frequent Itemset. Itemset yang nilai Support-nya memenuhi parameter threshold minimum support (min_sup) masuk dalam Frequent Itemset. Sedangkan nilai Confidence digunakan dalam menentukan Strong Association Rule. Association Rule yang nilai Confidence-nya memenuhi parameter threshold minimum confidence (min_conf) termasuk dalam Strong Association Rule.

Tokoh yang satu ini tidak perlu diragukan lagi, benar-benar pakar dan praktisi data mining. Saat ini, Usama Fayyad adalah CDO (Chief Data Officer) dan senior vice president of Research & Strategic Data Solutions di Yahoo!. Beliau adalah CDO pertama dalam industri (istilah CDO pertama kali digunakan oleh Yahoo!). Sebagai CDO, tugasnya adalah bertanggung jawab pada segala aktifitas data-data strategis dan merepresentasikan data tersebut sebagai aset penting perusahaan yang dapat mengarahkan strategi bisnis pada daerah-daerah baru.
Usama Fayyad termasuk pakar data mining yang sangat berpengalaman menerapkan data mining dalam bidang industri. Sebelumnya, beliau pernah terlibat pada sebuah proyek di JPL (Jet Propulsion Laboratory) NASA, dan Microsoft Research. Selain itu juga merupakan co-founder DMX, dan Digimine (Sekarang bernama Revenue Science, Inc.). DMX merupakan perusahaan konsultan data mining dan data strategy, sedangkan Revenue Science.Inc. merupakan perusahaan data mining dan data analysis yang membangun dan mengatur data warehouse serta analisis dari berbagai perusahaan besar di dunia seperti American Express, GE, AT&T Wireless, T-Mobile, Microsoft, Barnes &Noble, Deutsche Bank.
Dalam bidang penelitian dan akademis, beliau juga pernah menjadi co-chair KDD-94, KDD-95 (International Conference KDD yang pertama), dan general chair KDD-96 dan KDD-99. Beliau juga terlibat pernah terlibat sebagai editor ACM newsletter SIGKDD Explorations.

Update 27 Juli 2007:  Selamat buat Dr. Usama M. Fayyad! Beliau memperoleh penghargaan 2007 SIGKDD Innovation Award. Berarti sudah dua kali Beliau memperoleh penghargaan SIGKDD, sebelumnya 2003 SIGKDD Service Award.

Referensi :
1. Usama Fayyad. http://research.yahoo.com/researcher/usama.shtml
2. Interview with Usama Fayyad, Yahoo Chief Data Officer, SIGKDD Explorations, Vol 7, Issue 2, December 2005. http://www.acm.org/sigs/sigkdd/explorations/issues/7-2-2005-12/fayyad.html
3. Usama M. Fayyad. http://www-aig.jpl.nasa.gov/public/mls/home/fayyad/
4. DMX Group Management. http://www.dmxgroup.com/about_DMXgroup/UsamaF.htm

Karena ada masalah koneksi internet, maka posting tentang tokoh baru bisa dilakukan hari ini.

Association Rule Mining merupakan bagian dari Frequent Pattern Mining. Frequent Pattern Mining merupakan salah satu task data mining yang sangat penting. Kenapa? Task ini mencari hubungan/relasi, assosiasi, dan korelasi dalam data. Pengetahuan yang dihasilkan juga sangat berguna untuk klasifikasi, clustering, dan task data mining yang lain. Selain Association Rule Mining, masih ada Sequential Pattern, dan Structured Pattern yang termasuk dalam Frequent Pattern Mining. Association Rule Mining dapat juga disebut Frequent Itemset Mining karena pola yang dihasilkan adalah pola item yang sering muncul bersamaan dalam sebuah database.
Contoh klasik yang sering digunakan untuk menjelaskan Association Rule Mining adalah market basket analisis. Pada market basket analisis, kita menganalisa kebiasaan customer dalam membeli barang. Misalkan terdapat data transaksi seperti ini.

Contoh pengetahuan yang dapat diperoleh dari data di atas adalah
{Beer} –> {Diaper}
artinya orang yang beli beer biasanya beli diaper juga. Lebih jauh, association rule menjelaskan hubungan korelasi antar item dengan lebih jelas, tidak hanya korelasi kuat atau korelasi lemah saja. Hal ini karena adanya beberapa metrik yang digunakan untuk evaluasi rule.
Term-term berikutnya akan membahas lebih lanjut tentang association rule mining termasuk juga teknik yang biasa digunakan.

Laman Berikutnya »