Agustus 2006


Kemajuan di bidang ilmu pengetahuan dan teknologi mendorong pertumbuhan data di dunia. Berbagai fenomena alam semakin mudah diobservasi dan didokumentasikan. Keberadaan data sebagai nyawa dari tumbuh dan berkembangnya teknologi menjadi sangat mudah diperoleh. Apalagi perkembangan teknologi hardware dan software yang semakin pesat dan semakin murah, membuat proses dokumentasi menjadi semakin mudah. Faktor-faktor ini akhirnya menyebabkan terjadinya “ledakan data” di berbagai bidang. Misalnya kalau di biologi, pertumbuhan pesat data genome dapat dilihat di situs genbank (http://www.ncbi.nih.gov/Genbank/genbankstats.html)
Sedangkan informasi yang berupa teks, pertumbuhannya tidak kalah pesat. Di situs Medline, jumlah abstrak yang didokumentasikan tahun 2003 dilaporkan sekitar 12 juta. Kalau satu abstrak terdiri dari 200 kata, maka sekitar 2.4 milyar kata terekam di Medline.

Data dan teks yang melimpah ini tidak akan ada artinya, bila tidak ada metode komputasi efektif yang mampu mengolah data berskala besar, dan menggali informasi terpendam di dalamnya. Datamining adalah solusi yang ditawarkan oleh teknologi komputasi agar informasi yang selama ini terpendam di tumpukan data itu dapat digali dan dimanfaatkan. Aplikasi datamining sangat luas dan terdapat di berbagai bidang. Bagi pelaku bisnis misalnya, datamining bermanfaat untuk mengetahui kecenderungan perilaku konsumen di supermarket maupun toko online, sehingga mereka dapat merancang strategi jitu untuk meningkatkan pelayanan pada konsumen.

Pentingnya data dan teknologi datamining ini telah dirasakan oleh kalangan iptek Indonesia. Upaya penyediaan data ilmiah, misalnya dengan pengadaan mirror scientific data (L.T.Handoko dkk.) yang beralamatkan di http://www.arsip.lipi.go.id/.
Beberapa data penting di bidang bioteknologi, bioinformatika, dan fisika seperti GenBank, Protein Data Bank (PDB), Particle Data Group (PDG), telah dapat diakses mudah dari Indonesia. Walau masih terbatas, tapi setidaknya telah dimulai upaya untuk mempermudah akses komunitas Indonesia ke berbagai data ilmiah penting.

Bagaimana dengan teknologi datamining ?
Akhir-akhir ini seminar, pelatihan, workshop mengenai datamining telah dilakukan di berbagai instansi, antara lain STTTelkom, ITB, Politeknik ITS, dsb. Ini adalah berita yang menggembirakan, dan menunjukkan bahwa potensi datamining telah mulai diperhatikan di Indonesia. Namun demikian, upaya untuk menyelenggarakan seminar berbasis internet di bidang ini masih dirasakan kurang kalau tidak dapat dikatakan belum pernah dilakukan oleh komunitas internet Indonesia. Padahal umumnya kalangan mahasiswa, peneliti dan praktisi teknologi di Indonesia telah terbiasa berkomunikasi lewat internet, dan persentase mereka cukup besar. Menurut Onno Purbo porsi diskusi keilmuan di internet berada pada kisaran 19% dari keseluruhan posting di internet. Angka ini termasuk jumlah yang signifikan, dan menempati peringkat kedua setelah posting yang sifatnya silaturahmi (21.9%). Pornografi yang selama ini dikhawatirkan ternyata berada pada prosentase yang lebih kecil yaitu 12.9%. Penelitian Onno yang dimuat di situs ilmukomputer.com ini, memberikan harapan segar bahwa ternyata perhatian masyarakat terhadap perkembangan iptek cukup besar.

Dalam hal ini, komunitas softcomputing Indonesia (sc-ina@yahoogroups.com) dan komunitas datamining Indonesia (http://groups.yahoo.com/group/indo-dm) bekerja sama menyelenggarakan e-kolokium bertemakan datamining dan text-mining, yang akan disajikan oleh dua peneliti Indonesia yang aktif melakukan riset di bidang ini.

Jadwal dan tema presentasi adalah sbb.
1. Tgl. : 18-31 Agustus 2006
Judul : Pengantar Data Mining
Penyaji : Dr. Iko Pramudiono (Nippon Telegraph & Telephone Co., Japan)
Abstrak :
Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan pertumbuhan teknologi informasi. Definisi umum dari data mining itu sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Dalam tulisan ini, penulis mencoba memperkenalkan data mining dengan membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi tentang teknik-teknik yang umum dipakai di data mining.
2. Tgl. : 1-15 September 2006
Judul : Knowledge Discovery in Scientific Documents
Penyaji : Dr. Igg Adiwijaya (AdvanTechnologies, Inc. & University of Maryland, USA)

Makalah presentasi dan diskusi (tanya jawab) akan diforward ke dua milis (indo-dm@yahoogroups.com & sc-ina@yahoogroups.com). Dengan mengikuti kegiatan ini diharapkan peserta dapat memahami konsep teknologi datamining dan text mining, yang mungkin akan bermanfaat bagi riset dan bidangnya masing-masing. Semoga kegiatan ini dapat bermanfaat bagi perkembangan iptek di Indonesia.

Alamat milis :
– Komunitas Softcomputing Indonesia (web: http://soft-computing.org milis: sc-ina@yahoogroups.com)
– Komunitas Datamining Indonesia (milis : indo-dm@yahoogroups.com)

Saat ini, Ronny Kohavi adalah General Manager Windows’ Experimentation Platform di Windows Live. Beliau merupakan pakar data mining yang sangat aktif dalam industri software, terutama yang menerapkan data mining. Sebelumnya, Ronny Kohavi adalah director data mining and personalization di Amazon, vice president of Business Intelligent di Blue Martini Software, dan manager MineSet project (software data mining dan visualisasi yang terkenal) di Silicon Graphics. Dari sini, kita dapat mengetahui kontribusinya dalam menerapkan data mining di industri. Saat masih studi di Stanford, Beliau juga sudah terlibat dalam sebuah proyek MLC++ (Machine Learning library in C++ for data mining). Library ini juga digunakan dalam MineSet dan Software di Blue Martini. Hingga saat ini pun masih sangat jarang ditemukan library untuk data mining.
Walaupun Ronny Kohavi sudah tidak aktif di Akademis sejak tahun 1995, namun artikel-artikel Beliau termasuk yang banyak dikutip (lebih dari 1000). Beliau juga sangat aktif dalam berbegai konferensi internasional. Pernah menjadi general chair KDD 2004, co-chair industrial track KDD 1999, KDD CUP 2000, co-chair WEBKDD 2000, WEBKDD 2001, dan WEBKDD 2003. Juga editor di beberapa jurnal data mining dan machine learning.

Update 23 November 2007: Interview dengan Ron Kohavi di KDNuggets (http://www.kdnuggets.com/news/2007/n22/4i.html)

Referensi:
1. Ron Kohavi. http://ai.stanford.edu/~ronnyk/

Ketiga istilah ini sangat berkaitan dengan klasifikasi data. Sebuah model classifier pada klasifikasi data dibentuk berdasarkan data yang sudah ada, dan kemudian model tersebut digunakan untuk klasifikasi dan prediksi data baru yang belum pernah ada.
Pada umumnya, proses dapat digambarkan seperti ini:

Data umumnya dibagi menjadi training set dan testing set. Training set digunakan oleh algoritma klassifikasi (misalnya: decision tree, bayesian, neural network, SVM) untuk membentuk sebuah model classifier. Model ini merupakan representasi pengetahuan yang akan digunakan untuk prediksi kelas data baru yang belum pernah ada. Testing set digunakan untuk mengukur sejauh mana classifier berhasil melakukan klasifikasi dengan benar. Karena itu, data yang ada pada testing set seharusnya tidak boleh ada pada training set sehingga dapat diketahui apakah model classifier sudah “pintar” dalam melakukan klasifikasi.
Lain lagi halnya dengan validation set. Umumnya beberapa algoritma klasifikasi memerlukan beberapa parameter. Misalnya: jumlah hidden layer dan learning rate pada neural network; parameter kernel pada SVM. Biasanya sebagian dari training set diambil untuk validation set. Validation set ini digunakan untuk mencari parameter yang paling baik untuk sebuah algoritma klasifikasi.
Memisahkan data menjadi training dan testing set dimaksudkan agar model yang diperoleh nantinya memiliki kemampuan generalisasi yang baik dalam melakukan klasifikasi data. Tidak jarang sebuah model klasifikasi dapat melakukan klasifikasi data dengan sangat baik pada training set, tetapi sangat buruk dalam melakukan klasifikasi data yang baru dan belum pernah ada. Hal ini dinamakan overfitting. Model tersebut masih belum baik.

Selain SIGKDD Innovation Award, satu lagi penghargaan yang diberikan SIGKDD yaitu SIGKDD Service Award. Penghargaan ini diberikan kepada orang yang berjasa besar dalam pelayanannya di bidang data mining. Untuk tahun ini (2006), pemenangnya adalah Won Kim.
Won Kim adalah orang yang berjasa dalam pembentukan SIGKDD di tahun 1999. Beliau menjabat sebagai interim chair (chair sementara) sebelum chair SIGKDD pertama dipilih, dan juga terpilih sebagai chair tahun 2001. Beliau berperan besar mengembangkan SIGKDD menjadi salah satu SIG besar di ACM dalam waktu yang singkat.
Won Kim juga membantu memprakarsai innovation award, service award, dan SIGKDD Curriculum Committee. Tahun 2003, saat proyek pemerintah amerika yang kontroversial dikaitkan dengan data mining di mana data mining melanggar privacy masyarakat, Beliau melawan asumsi tersebut lewat sebuah surat dari SIGKDD Executive Committee “data mining technology is not against privacy and civil liberties”.
Beliau pernah menjabat sebagai ACM SIGMOD (1987-1997), editor in chief ACM transaction on Database System (1992-2001), menerima ACM SIGMOD contribution award (1998) dan ACM distinguished services award (2000), VLDB 10-year best paper award (1995), ACM SIGMOD test of the time (2002, untuk papernya yang dipublikasikan tahun 1992). Beliau juga merupakan founder dan editor in chief ACM transaction on Internet Technology (sejak 2000). Won Kim sudah menerbitkan 4 buku tentang database systems dan teknologi object-oriented. Beliau adalah pendiri dan CEO Cyber Database Solutions.

Referensi:
1. Dr. Won Kim. http://www.cyberdb.com/About/Bio/bio.html.
2. ACM SIGKDD : “data mining technology is not against privacy and civil liberties”. http://www.acm.org/sigs/sigkdd/civil-liberties.pdf
3. ACM SIGKDD : Curriculum. http://www.acm.org/sigs/sigkdd/curriculum.php

DMTL (Data Mining Template Library) ver 1.0 baru dirilis. DMTL merupakan generic data mining toolkit yang open-source. Di dalamnya terdapat generic algorithma dan struktur data untuk mining pola yang informatif dan kompleks seperti itemset, sequence, tree, dan graphs. Library ini akan sangat berguna, terutama untuk develop program yang berhubungan dengan Frequent Pattern Mining.
DMTL dikembangkan di Computer Science Department, Rensselaer Polytechnic Institute (RPI). Tepatnya salah satu project Prof. Mohammed J. Zaki.
DMTL dapat didownload di http://sourceforge.net/projects/dmtl