Data Mining


Beberapa kompetisi data mining yang sedang/akan diadakan di tahun 2011 ini.

KDDCup 2011 baru saja di mulai tanggal 15 Maret yang lalu. Kompetisi in tentang rating musik, datanya dari Yahoo. Informasi lengkapnya di KDDCup 2011 from Yahoo! labs.

Beberapa kompetisi data mining lainnya ada di Kaggle. Saat ini ada dua kompetisi data mining yang sedang berjalan: Avoid Overfitting, dan Arabic Writer Identification.

Kompetisi terbesar data mining (melebihi rekor Netlfix challenge) akan dimulai tanggal 4 April mendatang, namanya Heritage Health Prize. Kompetisi ini tentang data health care system.

Have fun.

Update (5 April 2011): kompetisi Heritage Health sudah dimulai. Silahkan bermain-main di kompetisi ini.

Beberapa hari yang lalu, saya mendengarkan seminar yang dibawakan oleh Prof. Jiawei Han. Merupakan suatu keberuntungan bagi saya bisa mendengarkan seminar ini. Salah satu hal yang saya salut dengan Prof. Han ini adalah kemampuan menyampaikan ide dengan cara yang mudah dimengerti. Filosofi dari algoritma yang dibawakan disampaikan dengan cara yang sangat mudah dipahami. Satu hal lagi, beliau juga sangat pintar mempromosikan mahasiswa phd bimbingannya.

Seminar yang dibawakan saat itu adalah tentang mining heterogeneous information network. Mengapa? Alasannya sangat sederhana. Hampir semua real network adalah heterogeneous network, dan homogeneous network umumnya merupakan bagian dari heterogeneous network. Knowledge yang akan diekstraksi dari network ini tersembunyi dalam link-link yang saling menghubungkan object dalam network ini.

Ada dua task yang penting yang diperlukan untuk memperoleh informasi dari network ini: ranking dan clustering. Pada umumnya, orang menganggap dua task tersebut adalah dua task yang berbeda. Algoritma RankClus yang dijelaskan beliau menggabungkan ranking dan clustering menjadi satu. Cluster yang baik akan memberikan hasil ranking yang baik, dan ranking yang baik akan mendorong mengelompokkan cluster yang lebih baik. Proses ini saling bersinergi memberikan hasil yang baik. Selain RankClus, beliau juga menjelaskan algoritma NetClus.

Enam algoritma machine learning sedang dikembangkan untuk large-scale, distributed storaged, dan paralel processing di Google selama beberapa tahun terakhir ini. Disebutkan bahwa enam algoritma tersebut adalah Support Vector Machine (SVM), Singular Value Decomposition (SVD), Spectral Clustering, Association Mining, Probabilistic Latent Semantic Analysis (PLSA), dan Latent Dirichlet Allocation (LDA). Bahkan, PSVM sudah tersedia secara public dan dapat didownload. Btw, PSVM merupakan salah satu project hasil 20% time. Sebuah task SVM yang memerlukan tujuh hari pada sebuah komputer dapat diselesaikan dalam waktu dua jam dengan menggunakan PSVM pada 200 komputer.
Algoritma-algoritma di atas merupakan algoritma yang saat ini termasuk algoritma yang terbukti efektif dengan pondasi teori yang sangat kuat, namun komputasinya sangat tinggi. Pada SIGMOD record March 2008, Edward Chang, salah satu peneliti Google, melaporkan bahwa SVM, SVD, PLSA, dan LDA sangat berguna untuk klasifikasi dan collaborative filtering di Google. Google Knowledge search (baru tersedia di Rusia), dan Laiba (produk social-network dengan platform Orkut yang juga baru tersedia di Cina) adalah produk-produk terbaru Google yang menggunakan algoritma-algoritma ini pada infrastukturnya.
Apakah algoritma-algoritma ini akan menjadi tren machine learning masa depan??

Selain tentang algoritma machine learning yang sedang dikembangkan Google, paper “Data Management Projects at Google” juga menceritakan beberapa proyek Google yang lain termasuk Crawling Deep Web, Searching HTML Tables, BIGTable, dan MiniTables.

Referensi:
1. Data Management Projects at Google. SIGMOD Record, March 2008. (Vol. 37, No. 1)
2. PSVM – a parallel version of support vector machine

Akhirnya ada sedikit waktu untuk posting di blog lagi.
Menyambung posting sebelumnya, kali ini saya akan sedikit share tentang ketertarikan saya dengan data mining.

Terima kasih sebelumnya buat pak Gun yang telah menularkan sedikit ilmunya, dan Prof Jiawei Han untuk bukunya yang membuat saya sedikit addicted dengan bidang ini.

Satu hal yang pasti bahwa saya belajar banyak hal, terutama berkaitan dengan jenis-jenis data dan karakteristiknya serta problem-problem yang dihadapi untuk mengolah jenis data tersebut. Selain itu, aplikasi data mining pada real-world problems membuat saya juga mengetahui perkembangan berbagai macam ilmu, misalnya: bioinformatika, kedokteran, literatur, web, genetika, dan lain-lain. Sangat menarik!!!
Kemudian, salah satu hal yang cukup istimewa dari data mining adalah posisi disiplin ilmunya yang merupakan irisan banyak bidang ilmu lain seperti kecerdasan buatan, information retrieval, statistik, database, machine learning, visualisasi. Ini membuat saya juga mengenal banyak hal setiap kali membaca hal-hal yang berkaitan dengan data mining.
Nah, kalo dikaitkan dengan penggunaannya. Data mining dapat diaplikasikan pada banyak bidang. Saya juga banyak mengenal orang di luar computer science yang mempelajari data mining.
Sebagai salah satu bidang yang lagi hot saat ini di dunia computer science, saya merasa bahwa data mining akan menjadi sangat penting pada tahun-tahun mendatang. Saat semua data dapat dengan mudahnya disimpan dan dibuat, peranan data mining akan menjadi sangat penting untuk dapat mencari hal-hal penting yang tersembunyi di dalamnya. Yang jelas, saat ini kita mulai kebanjiran data, dan hingga saat ini belum ada yang dapat mengolah semuanya dengan sangat baik.

Structural pattern mining merupakan data mining yang mencari informasi struktural dari structural database. Jelas, databasenya sangat berhubungan dengan graph. Pentingnya structural pattern mining dapat dilihat karena banyak sekali real world entity dapat dinyatakan dalam bentuk graph mulai dari relational database, molekul, networks, web, sampai proteomics. Berbagai representasi pengetahuan seperti sequence dan tree juga termasuk jenis graph. Karena itulah, area ini menjadi semakin penting saat ini. Beberapa disiplin ilmu seperti bioinformatika dan chem-informatics mulai memanfaatkan structural pattern mining untuk memperoleh deskripsi pola-pola data yang akan dianalisa.
Beberapa task structural pattern mining dapat dibaca pada posting Survey Link Mining.
Resource dan publikasi tentang structural pattern mining dapat dilihat pada [1].
Sedangkan [2], memberikan review tentang algoritma structural pattern mining yang dibagi menjadi kernels methods, molecular query methods, dan maximum common substructure methods bedasarkan sudut pandang molecular mining. Posting ini sangat menarik karena memberikan link ke source code, referensi, dan komentar tentang kelebihan algoritma-algoritma tersebut.

Referensi:
1. Homepage for Mining Structured Data. http://hms.liacs.nl/index.html
2. Mining Drug Space: Molecular Mining Review 2006. http://miningdrugs.blogspot.com/2007/01/molecule-mining-review-2006.html

Banyak pencapaian ilmu pengatahuan dan teknologi dipicu oleh adanya tantangan berhadiah (challenge).
Jika bidang robotika ada DARPA Grand Challenge tahun 2005 tentang robotic car navigation, dan RoboCup yang goalnya mengembangkan tim robot humanoid yang dapat mengalahkan tim pemenang world cup pada 2050. Apakah grand challange untuk data mining?

KDD2006 panel mengusulkan beberapa kriteria grand challenge data mining:

  1. Permasalahannya harus sulit – sangat sulit untuk diselesaikan dengan teknik-teknik yang ada saat ini
  2. Melibatkan data mining – data mining harus memiliki peranan yang sangat penting untuk menyelesaikan permasalahan tersebut
  3. Menggunakan large dataset yang tersedia secara publik
  4. Goal yang jelas – sehingga dapat diketahui kapan permasalahan tersebut terselesaikan
  5. Permasalahannya harus menarik bagi para peneliti
  6. Adanya manfaat bagi masyarakat jika permasalahan tersebut dapat diselesaikan

Saat ini, tantangan yang berkaitan dengan data mining yang berhasil menarik banyak perhatian adalah Netflix Challenge. Tantangan lain yang mungkin berhubungan dengan data mining adalah Archon X Prize for Genomics, 10 juta dollar untuk tim pertama yang berhasil melakukan sequencing human genome 100 orang dalam 10 hari.

KDD2006 panel report, “What are The Grand Challenges for Data Mining?”, mengusulkan beberapa permasalahan untuk grand challange data mining mulai dari multimedia data mining, link mining, large-scale modelling, text mining, sampai mining proteomics.
Paper report ini sangat menarik, menawarkan beberapa macam permasalahan yang dapat dipertimbangkan sebagai grand challenge. Misalnya pada multimedia mining: annotate (memberi keterangan) 1000 jam digital video dalam 1 jam, prediksi minat user pada video tertentu berdasarkan browsing lima menit pertama, pencarian interview seseorang yang mirip pada arsip video broadcast. Pada text mining, grand challenge yang diusulkan adalah sistem text mining yang mampu melewati standard reading comprehension tests seperti SAT, GRE, GMAT. Pada link mining, grand challengenya dinamai Wikipedia Test, mempertandingkan artikel oleh participatory journalism (seperti para penulis artikel di Wikipedia) dengan artikel oleh link mining tool yang dilakukan secara otomatis. Dapatkah orang membedakan artikel wikipedia asli atau yang dibuat secara otomatis oleh link mining tool? dan mana yang lebih baik? Grand challenge link mining ini mengingatkan saya pada Turing test.
Area mining proteomics mengusulkan grand challenge untuk menentukan keberadaan protein beserta jumlah dan interaksinya. Sedangkan, pada large-scale modelling diusulkan challange yang mengestimasi jutaan hingga miliaran parameter data mining model.
Saya banyak belajar dari paper report ini tentang permasalahan-permasalahan yang berkaitan dengan data mining, ternyata banyak sekali.

Grand Challenge seperti apa yang akan muncul? kita tunggu saja nanti. 🙂

Sangat sulit menemukan proyek-proyek data mining di Indonesia. Hingga saat ini saya belum menemukan proyek-proyek di Indonesia, baik akademis maupun industri, walaupun saya tahu banyak juga orang-orang yang concern dan sedang meneliti data mining di Indonesia. Jika di luar negeri, proyek-proyek data mining sangat mudah ditemui dari homepage pribadi masing-masing peneliti. Mereka selalu memiliki tema proyek yang selalu dikerjakan dalam jangka waktu tertentu, dan hasilnya dapat dilihat dari publikasi-publikasinya maupun hak paten yang diperoleh.
Dulu pertanyaan ini pernah saya lontarkan di milis data mining Indonesia (indo-dm), namun saya belum mendapatkan informasi yang jelas tentang hal ini. Yang saya tahu, Telkom menerapkan data mining untuk profiling customer dan fraud detection. Astra juga menggunakan Fair Issac untuk melakukan scoring customer. Dan, sepertinya di ITB juga terdapat proyek yang berhubungan dengan data mining (mohon koreksi jika saya salah). Saya tidak tahu proyek-proyek yang lain.
Beberapa waktu yang lalu, saya mendapatkan email dari kmining (www.kmining.com) yang meminta saya membantu mereka untuk mendaftarkan orang-orang yang aktif di data mining. Mereka agak bingung karena dari banyaknya jumlah universitas dan penduduk yang ada di Indonesia, mereka hanya dapat menemukan satu orang saja. Anda bisa lihat pada list people kmining, Indonesia hanya ada satu saja. Semoga setelah ini akan semakin banyak orang Indonesia yang terdaftar di sana.
Bagi siapa saja yang memilki atau sedang terlibat pada suatu proyek data mining, Anda dapat memperkenalkannya di sini. Anda bisa sebutkan proyek seperti apa yang Anda kerjakan, dan jika ada linknya juga dapat Anda sertakan. Silahkan, kita bisa saling berbagi di sini.