Machine Learning


Enam algoritma machine learning sedang dikembangkan untuk large-scale, distributed storaged, dan paralel processing di Google selama beberapa tahun terakhir ini. Disebutkan bahwa enam algoritma tersebut adalah Support Vector Machine (SVM), Singular Value Decomposition (SVD), Spectral Clustering, Association Mining, Probabilistic Latent Semantic Analysis (PLSA), dan Latent Dirichlet Allocation (LDA). Bahkan, PSVM sudah tersedia secara public dan dapat didownload. Btw, PSVM merupakan salah satu project hasil 20% time. Sebuah task SVM yang memerlukan tujuh hari pada sebuah komputer dapat diselesaikan dalam waktu dua jam dengan menggunakan PSVM pada 200 komputer.
Algoritma-algoritma di atas merupakan algoritma yang saat ini termasuk algoritma yang terbukti efektif dengan pondasi teori yang sangat kuat, namun komputasinya sangat tinggi. Pada SIGMOD record March 2008, Edward Chang, salah satu peneliti Google, melaporkan bahwa SVM, SVD, PLSA, dan LDA sangat berguna untuk klasifikasi dan collaborative filtering di Google. Google Knowledge search (baru tersedia di Rusia), dan Laiba (produk social-network dengan platform Orkut yang juga baru tersedia di Cina) adalah produk-produk terbaru Google yang menggunakan algoritma-algoritma ini pada infrastukturnya.
Apakah algoritma-algoritma ini akan menjadi tren machine learning masa depan??

Selain tentang algoritma machine learning yang sedang dikembangkan Google, paper “Data Management Projects at Google” juga menceritakan beberapa proyek Google yang lain termasuk Crawling Deep Web, Searching HTML Tables, BIGTable, dan MiniTables.

Referensi:
1. Data Management Projects at Google. SIGMOD Record, March 2008. (Vol. 37, No. 1)
2. PSVM – a parallel version of support vector machine

Machine Learning merupakan area yang sangat berkaitan erat dengan data mining. Sangat tepat sekali jika mengenal machine learning dari sudut pandang pakar machine learning.
Tom Mitchell adalah salah satu pakar machine learning, salah satu bukunya “Machine Learning” merupakan salah satu text book machine learning yang populer dan banyak dipakai hingga saat ini.
Papernya “The Discipline of Machine Learning” memberikan gambaran beliau secara personal tentang machine learning sebagai suatu disiplin ilmu, dan hubungannya dengan bidang ilmu pengetahuan lain dan bidang sosial. Paper ini juga memaparkan secara singkat current states dan arah perkembangan machine learning. Saya banyak belajar dari paper ini, sungguh sangat menarik mengetahui banyak hal yang dilakukan oleh machine learning. Peranan machine learning pada dunia computer science juga dipaparkan dengan sangat menarik di sini.
Satu hal yang menarik adalah research question yang menunjukkan arah yang ingin dicapai oleh machine learning. Apakah unlabeled data berguna untuk supervised learning? Bagaimana cara memindahkan pengetahuan yang sudah diperoleh pada suatu proses training agar dapat digunakan untuk meningkatkan pelatihan pada task yang lain? Apa hubungan antara algoritma-algoritma learning, algoritma apa yang seharusnya dipakai dalam suatu problem? Semua itu muncul sebagai research question yang akan terus digali oleh para peneliti machine learning. Lebih jauh lagi muncul pertanyaan seperti ini: dapatkah kita membangun sebuah never-ending learner (seperti makhluk hidup belajar dan beradaptasi)? Dapatkah teori dan algoritma machine learning digunakan untuk menjelaskan cara manusia belajar? Jika cara manusia belajar bisa dijelaskan, wah ini digunakan untuk meningkatkan strategi dan metode pengajaran di sekolah. Sungguh sangat menarik mengetahui usaha-usaha yang ingin dicapai.