Tren


Beberapa hari yang lalu, saya mendengarkan seminar yang dibawakan oleh Prof. Jiawei Han. Merupakan suatu keberuntungan bagi saya bisa mendengarkan seminar ini. Salah satu hal yang saya salut dengan Prof. Han ini adalah kemampuan menyampaikan ide dengan cara yang mudah dimengerti. Filosofi dari algoritma yang dibawakan disampaikan dengan cara yang sangat mudah dipahami. Satu hal lagi, beliau juga sangat pintar mempromosikan mahasiswa phd bimbingannya.

Seminar yang dibawakan saat itu adalah tentang mining heterogeneous information network. Mengapa? Alasannya sangat sederhana. Hampir semua real network adalah heterogeneous network, dan homogeneous network umumnya merupakan bagian dari heterogeneous network. Knowledge yang akan diekstraksi dari network ini tersembunyi dalam link-link yang saling menghubungkan object dalam network ini.

Ada dua task yang penting yang diperlukan untuk memperoleh informasi dari network ini: ranking dan clustering. Pada umumnya, orang menganggap dua task tersebut adalah dua task yang berbeda. Algoritma RankClus yang dijelaskan beliau menggabungkan ranking dan clustering menjadi satu. Cluster yang baik akan memberikan hasil ranking yang baik, dan ranking yang baik akan mendorong mengelompokkan cluster yang lebih baik. Proses ini saling bersinergi memberikan hasil yang baik. Selain RankClus, beliau juga menjelaskan algoritma NetClus.

Enam algoritma machine learning sedang dikembangkan untuk large-scale, distributed storaged, dan paralel processing di Google selama beberapa tahun terakhir ini. Disebutkan bahwa enam algoritma tersebut adalah Support Vector Machine (SVM), Singular Value Decomposition (SVD), Spectral Clustering, Association Mining, Probabilistic Latent Semantic Analysis (PLSA), dan Latent Dirichlet Allocation (LDA). Bahkan, PSVM sudah tersedia secara public dan dapat didownload. Btw, PSVM merupakan salah satu project hasil 20% time. Sebuah task SVM yang memerlukan tujuh hari pada sebuah komputer dapat diselesaikan dalam waktu dua jam dengan menggunakan PSVM pada 200 komputer.
Algoritma-algoritma di atas merupakan algoritma yang saat ini termasuk algoritma yang terbukti efektif dengan pondasi teori yang sangat kuat, namun komputasinya sangat tinggi. Pada SIGMOD record March 2008, Edward Chang, salah satu peneliti Google, melaporkan bahwa SVM, SVD, PLSA, dan LDA sangat berguna untuk klasifikasi dan collaborative filtering di Google. Google Knowledge search (baru tersedia di Rusia), dan Laiba (produk social-network dengan platform Orkut yang juga baru tersedia di Cina) adalah produk-produk terbaru Google yang menggunakan algoritma-algoritma ini pada infrastukturnya.
Apakah algoritma-algoritma ini akan menjadi tren machine learning masa depan??

Selain tentang algoritma machine learning yang sedang dikembangkan Google, paper “Data Management Projects at Google” juga menceritakan beberapa proyek Google yang lain termasuk Crawling Deep Web, Searching HTML Tables, BIGTable, dan MiniTables.

Referensi:
1. Data Management Projects at Google. SIGMOD Record, March 2008. (Vol. 37, No. 1)
2. PSVM – a parallel version of support vector machine

Selamat tahun baru 2007…. 🙂
Semoga di tahun yang baru ini segala harapan, impian, dan cita-cita kita semua dapat tercapai.
Posting pertama tahun ini akan dimulai dengan pemikiran saya dan apa yang saya bayangkan tentang hal-hal yang menjadi akan menjadi tren di tahun 2007, terutama yang berkaitan dengan data mining tentunya.
Banyak hal yang saya lihat dalam email, news, blog, dan rss feed saya di tahun 2006. Saya bisa melihat ada dua hal yang menjadi tren dan sangat diexplore tahun lalu akan menjadi semakin rame yaitu komunitas dan personalisasi. Dua hal ini yang semakin terlihat sejak tahun 2006. Di samping itu perkembangan data mining dari area biomedical, bioinformatics, dan brain informatics serta text mining juga akan semakin ramai diexplore.

Komunitas
Flickr, del.icio.us, mySpace, dan youTube merupakan nama-nama yang semakin beken di tahun 2006. Satu hal yang menghubungkan layanan-layanan tersebut adalah bahwa layanan-layanan tersebut sukses membentuk komunitas. Mengapa Yahoo! sangat tertarik membeli Flickr? yang jelas, faktor komunitas inilah yang menjadi daya tarik utama Flickr.
Issue-iisue yang berhubungan dengan komunitas seperti Social Network Analysis sangat mungkin menjadi salah satu area yang akan berkembang. SIGKDD Exploration pertengahan tahun lalu mengangkat link mining sebagai special topic. Walaupun aplikasi link mining tidak hanya social network saja, namun salah satu aplikasi besar link mining adalah mining social network.
Task-task link mining seperti group detection, link prediction, dan classification merupakan task-task penting terutama dalam bisnis yang berkaitan dengan komunitas seperti CRM, layanan-layanan iklan, sistem rekomendasi, dan sejenisnya.
Pengetahuan yang diperoleh dari komunitas dapat dipakai untuk memberikan layanan-layanan secara personal. Ini sangat berkaitan juga dengan personalisasi.

Personalisasi
Hal ini berkaitan dengan perkembangan layanan-layanan di internet dan software-software yang saat ini berkembang.
Menjadi semakin personal. Kira-kira seperti itulah tren perkembangan software dan layanan di internet.
Browser firefox dengan aneka plug in semakin diminati, Google berusaha menyempurnakan layanan search personal yang akan meningkatkan keakuratan search berdasarkan search yang pernah dilakukan seseorang. Bahkan, isunya Microsoft juga sedang mengembangkan sistem operasi yang basisnya plug in.
Bisa jadi PC masa depan semakin personal, tinggal memasang plug in sesuai kebutuhan dan keinginan. Atau, mungkin hanya perlu browser saja. Web 2.0 yang sedang dalam pengembangan memungkinkan aplikasi berjalan secara online via browser saja. Lihat saja Google Docs dan Spreadsheets. Walaupun masih terus dikembangkan, bisa jadi ini akan menggeser microsoft office.
Berkaitan dengan personalisasi salah satu yang menjadi highlight di tahun 2006 lalu adalah Netflix challenge. Selain permasalahannya yang menantang, hadiahnya juga menjadi salah satu daya tarik utama.

Biomedical, Bioinformatics, dan Brain Informatics
Area ini merupakan area yang berkembang pesat beberapa tahun belakangan. Kebutuhan akan penemuan obat-obatan baru, dan terapi yang paling tepat untuk suatu penyakit. Algoritma-algoritma yang sangat efisien dan efektif sangat diperlukan dalam mencari pola-pola yang tersembunyi karena data medis dan biologis yang sangat besar. Apalagi datanya juga bervariasi, mulai dari data, teks, bahkan gambar dan multimedia.
Brain informatics muncul setelah adanya fMRI di mana alat ini dapat mendeteksi aktifasi otak. Dengan menggunakan alat ini, para peneliti dapat mempelajari cara makhluk hidup berpikir, terutama manusia. Bagaimana mental state manusia dalam merespon sebuah rangsangan misalnya suara, atau gambar yang dilihat dapat dipelajari. Sangat mungkin jika, web intelligence mengadaptasi model pengetahuan yang diperoleh dari sini. Internet dapat memberikan respon sesuai dengan yang diharapkan manusia.

Text Mining
Jumlah dokumen yang semakin lama semakin banyak, terutama sejak boomingnya blog, menjadikan text mining sebagai area yang sangat aktif berkembang.
Tidak hanya dokumen di internet, dokumen-dokumen di area biomedical dan bioinformatics juga sangat luar biasa besar.
Karena itu text mining akan menjadi salah satu area data mining yang akan berkembang pesat.

Satu hal lagi yang pasti, area yang dijangkau data mining semakin lama akan semakin luas.
Juga, semakin banyak jenis pengetahuan yang diperoleh dari berbagai data sangat memungkinkan untuk pengembangan Data Mining secara terintegrasi. Holistic Data Mining diprediksikan oleh Nucleus Research dalam top ten prediction for 2007 sebagai salah satu tren 2007.