Enam algoritma machine learning sedang dikembangkan untuk large-scale, distributed storaged, dan paralel processing di Google selama beberapa tahun terakhir ini. Disebutkan bahwa enam algoritma tersebut adalah Support Vector Machine (SVM), Singular Value Decomposition (SVD), Spectral Clustering, Association Mining, Probabilistic Latent Semantic Analysis (PLSA), dan Latent Dirichlet Allocation (LDA). Bahkan, PSVM sudah tersedia secara public dan dapat didownload. Btw, PSVM merupakan salah satu project hasil 20% time. Sebuah task SVM yang memerlukan tujuh hari pada sebuah komputer dapat diselesaikan dalam waktu dua jam dengan menggunakan PSVM pada 200 komputer.
Algoritma-algoritma di atas merupakan algoritma yang saat ini termasuk algoritma yang terbukti efektif dengan pondasi teori yang sangat kuat, namun komputasinya sangat tinggi. Pada SIGMOD record March 2008, Edward Chang, salah satu peneliti Google, melaporkan bahwa SVM, SVD, PLSA, dan LDA sangat berguna untuk klasifikasi dan collaborative filtering di Google. Google Knowledge search (baru tersedia di Rusia), dan Laiba (produk social-network dengan platform Orkut yang juga baru tersedia di Cina) adalah produk-produk terbaru Google yang menggunakan algoritma-algoritma ini pada infrastukturnya.
Apakah algoritma-algoritma ini akan menjadi tren machine learning masa depan??

Selain tentang algoritma machine learning yang sedang dikembangkan Google, paper “Data Management Projects at Google” juga menceritakan beberapa proyek Google yang lain termasuk Crawling Deep Web, Searching HTML Tables, BIGTable, dan MiniTables.

Referensi:
1. Data Management Projects at Google. SIGMOD Record, March 2008. (Vol. 37, No. 1)
2. PSVM – a parallel version of support vector machine

Di tengah-tengah kesibukan studi, secara tidak sengaja saya menemukan bahwa tulisan saya, Berburu Resource di Internet, muncul di majalah online Inovasi, tepatnya di Inovasi Edisi Vol.9/XIX/November 2007. Thanks to majalah online Inovasi. Thanks to Google for linking me to the resource :) .
Sebelumnya sempat terpikir bahwa tulisan ini mungkin tidak masuk karena sudah lama tidak ada kabarnya, ternyata penerbitannya majalahnya yang molor.
Tulisan saya ini mungkin akan sangat berguna bagi teman-teman dalam mencari resource di Internet, terutama yang sedang mengerjakan riset atau tugas akhir. Banyak sekali yang bertanya sumber-sumber resource berkaitan dengan data mining di blog ini. Karena data mining itu sangat luas dan banyak sekali hal yang saya juga masih belajar, semoga artikel ini bisa jadi guideline awal dalam berburu resource di internet. Paling tidak trik-trik ini sangat ampuh selama saya berburu resource di internet.
Teman-teman mungkin juga dapat membuka bagian Tips dari blog ini. Ada beberapa posting terkait dengan berburu resource.

Artikel dapat didownload di sini [link baru].

Update 20 Maret 2008:
Sepertinya memang ada perubahan struktur website majalah inovasi. saya baru saja update link sumbernya. Thanks to Google… :)

Sebenarnya itu topik tugas saya yang minggu lalu saya kumpulkan. Saat mengerjakan tugas ini, saya menemukan banyak hal menarik yang dapat saya share di sini, terutama dari website-website yang saya temukan.
Ini kutipan dari laporan yang saya kumpulkan, karena itu dalam bahasa Inggris. Hopefully, you can all understand. :)

Everyone knows that Google is one of the best (possibly the best) search engines right now. Most people prefer to use this search engine rather than other search engines. Most of them even set their homepage to Google (iGoogle). But, there are some other services offered that could be different from Google approach. They are either using another search algorithm which they believe that it performs better than others or providing new features that have not been offered before.

As an example, Ask.com (http://www.ask.com/) uses ExpertRank algorithm (formerly known as Teoma) which goes beyond mere link popularity to determine popularity among pages. Teoma analyzed links in context to rank a web page’s importance within its specific subjects. For instance, a web page about soccer would rank higher if other web page about soccer link to it. This is also known as subject-specific popularity. Ask.com says that performing this task in which includes identifying topics, the experts of those topics, and popularity amongst those experts at the exact moment of search query is processed requires many additional calculation that other search engine do not perform. Moreover, Ask.com also provides suggestion to expand and narrow the search term. As far as I know, Google is working on this issue as well. I am quite sure that Google Sets (http://labs.google.com/sets) is one of important parts of the system.

Search features are another aspect of providing good search engine. They could be vertical (specific) search, suggestion, or good user interface. There are many vertical search engines which are preferred bycertain users. For example: Digg (http://digg.com/) for share content, Technorati (http://technorati.com/) for blog and tagged social media, Retrevo (http://www.retrevo.com/) for consumer electronics. Better user interface offers assistance for user to evaluate and explore search result. Vivisimo (http://vivisimo.com/) gives clustered results, in a tree form, to make users easier explore and evaluate search results. This feature is also offered by some meta search engines such as Clusty (http://clusty.com/) which is owned by vivisimo, and Grokker (http://www.grokker.com/). Furthermore, Grokker also provides Map View. Here is the example (follow the link). In this aspect, Google is also working hard to provide additional useful feature to its users, making it faster, easier, and user friendlier. Prototype of the work can be found in Google Experimental Search (http://www.google.com/experimental/).

Related to web 2.0 which encourage web users to collaborate in providing good resources, some companies even have tried to organize and make use of it. Swivel (http://www.swivel.com/) is a very good example. Swivel tries to make data useful. Every user can post and share data so people can share insights, makegreat decisions, and improves lives.I think this service will be a huge data repository, and could be next YouTube for data. Another good example is Spock (http://www.spock.com/), people search engine. This service uses man and machine as the approach to search people. Spock performs some entity resolution algorithm (to distinguish and organize web content about people in the web) combine with Spock members tag to provide the result.

There are many aspects of search engine that can be explored. So, although Google is the most popular search engine right now with its complicated and sophisticated architecture, there are always other aspects that other search engine can offer. These things make all search engine companies, including the leaders such as Google, Ask.com, Yahoo still keep trying to develop some idea for an ideal search engine.

Update:
Selain itu, masih ada beberapa website yang saya temukan kemudian. Beberapa di antaranya sangat menarik.

  • FareCast (http://www.farecast.com/): Smart travel search
    Farecast merupakan travel search engine. Search engine ini dapat membantu kita mencari penerbangan. Yang menarik dari website ini adalah adanya airfare prediction. Mereka dapat memberi saran tentang harga tiket, apakah akan naik (beli sekarang) atau turun (tunggu).
  • Pluggd (http://www.pluggd.com/): Podcast search
    Pluggd adalah podcast search, jadi kita dapat mencari podcast di sini. Yang menarik dari website ini adalah adanya track bar yang menunjukkan bagian-bagian podcast yang sesuai dengan search query kita. Jadi kita tidak perlu melihat semuanya, cukup melihat yang sesuai dengan apa yang kita cari.
  • Quitura (http://www.quintura.com/): using tag cloud to navigate query
    Yang menarik dari website ini adalah kita adanya navigasi query dengan menggunakan tag cloud.

Satu hal yang saya rasakan sangat berbeda dengan studi di Indonesia adalah seminar course. Saat kuliah di Indonesia, seminar tidak dilakukan secara rutin. Bisa satu dua bulan sekali.
Di Taiwan, seminar merupakan salah satu course “wajib”, terutama untuk graduate student (master dan PhD), dan itu pasti ada di setiap semester. Mereka selalu mendatangkan pembicara tamu tiap minggunya, bisa prof dari universitas lain (mungkin dari luar negeri), para praktisi industri, atau para peneliti, dengan topik/area yang selalu berubah setiap minggunya. Jadi, terkadang menarik untuk diikuti jika sangat berkaitan dengan topik riset kita, namun bisa juga membosankan jika topiknya tidak berhubungan.
Seminar course ini yang dilakukan secara rutin ini sangat baik sekali menurut saya. Selain menambah wawasan, mahasiswa dapat semakin mengenal kondisi dan keadaan real world dengan adanya pembicara dari praktisi industri atau para peneliti non-akademik. Dan, jika pembicaranya adalah prof dari universitas lain, mahasiswa dapat saling bertukar ilmu dengan pembicara. Karena dilakukan secara rutin, paling tidak setiap minggunya ada hal baru yang bisa diperoleh.
Btw, pembicara seminar course saya minggu lalu adalah Prof. Chih-Jen Lin. Yang pernah bermain-main dengan SVM pasti tahu orang ini, orang ini sangat terkenal di Taiwan . Sangat menarik karena topiknya memang sesuai dengan interest saya, machine learning. Beliau berbicara tentang Machine Learning: Status & Challenge. Memang agak introduction level karena yang mendengarkan juga bukan cuma orang machine learning, namun sangat menarik melihat aplikasi dan permasalahan yang dihadapi machine learning saat ini.

Penerima IEEE ICDM Awards 2007 sudah diumukan, seperti biasa dua kategori, IEEE ICDM Research Contribution Award dan IEEE ICDM Outstanding Service Award.
Penerima IEEE ICDM Research Contribution Award 2007: Dr. J. Ross Quinlan
Penerima IEEE ICDM Outstanding Service Award 2007: Dr. Gregory Piatetsky-Shapiro
Selamat buat Dr. J. Ross Quinlan dan Dr. Gregory Piatetsky-Shapiro.

Referensi:
1. 2007 IEEE ICDM Research Contributions Award: Dr. J. Ross Quinlan. http://www.cs.uvm.edu/~icdm/awards/Quinlan-07.shtml
2. 2007 IEEE ICDM Outstanding Service Award: Dr. Gregory Piatetsky-Shapiro. http://www.cs.uvm.edu/~icdm/awards/Piatetsky-07.shtml

Note:
Profil singkat Dr. J. Ross Quinlan dan Dr. Gregory Piatetsky-Shapiro sudah pernah muncul pada posting tokoh di DM Corner.
Profil Dr. J. Ross Quinlan:http://philips.wordpress.com/2006/06/13/ross-quinlan/
Profil Dr. Gregory Piatetsky-Shapiro: http://philips.wordpress.com/2006/05/08/gregory-piatetsky-shapiro/

Akhirnya ada sedikit waktu untuk posting di blog lagi.
Menyambung posting sebelumnya, kali ini saya akan sedikit share tentang ketertarikan saya dengan data mining.

Terima kasih sebelumnya buat pak Gun yang telah menularkan sedikit ilmunya, dan Prof Jiawei Han untuk bukunya yang membuat saya sedikit addicted dengan bidang ini.

Satu hal yang pasti bahwa saya belajar banyak hal, terutama berkaitan dengan jenis-jenis data dan karakteristiknya serta problem-problem yang dihadapi untuk mengolah jenis data tersebut. Selain itu, aplikasi data mining pada real-world problems membuat saya juga mengetahui perkembangan berbagai macam ilmu, misalnya: bioinformatika, kedokteran, literatur, web, genetika, dan lain-lain. Sangat menarik!!!
Kemudian, salah satu hal yang cukup istimewa dari data mining adalah posisi disiplin ilmunya yang merupakan irisan banyak bidang ilmu lain seperti kecerdasan buatan, information retrieval, statistik, database, machine learning, visualisasi. Ini membuat saya juga mengenal banyak hal setiap kali membaca hal-hal yang berkaitan dengan data mining.
Nah, kalo dikaitkan dengan penggunaannya. Data mining dapat diaplikasikan pada banyak bidang. Saya juga banyak mengenal orang di luar computer science yang mempelajari data mining.
Sebagai salah satu bidang yang lagi hot saat ini di dunia computer science, saya merasa bahwa data mining akan menjadi sangat penting pada tahun-tahun mendatang. Saat semua data dapat dengan mudahnya disimpan dan dibuat, peranan data mining akan menjadi sangat penting untuk dapat mencari hal-hal penting yang tersembunyi di dalamnya. Yang jelas, saat ini kita mulai kebanjiran data, dan hingga saat ini belum ada yang dapat mengolah semuanya dengan sangat baik.

Udah hampir seminggu di Taiwan. Akhirnya udah dapat akses komputer di lab. btw, saya berada di Multimedia Human Machine Communication Lab, lab prof. Chung-Hsien Wu. Riset di lab ini seputar speech recognition, speech synthesis, natural language processing, multimedia information retrieval. Masih belum tahu akan konsentrasi di mana, tapi sepertinya area multimedia cukup menarik dan menantang. Teknik-teknik data mining akan sangat berguna sekali. Mungkin akan fokus di topik ini.

Demikian sekilas info dari Taiwan. :)

Ada satu pertanyaan yang sering ditanyakan di sini setiap kali ketemu orang yang baru kenal, termasuk prof dan orang-orang lab. “Mengapa tertarik dengan data mining?” Pertanyaan ini sangat menarik, jadi ingat juga pernah ditanya pertanyaan serupa oleh Elsa Loekito, PhD student di University of Melbourne bimbingannya James Bailey.

Sepertinya pertanyaan ini akan jadi topik posting berikutnya. :D Ditunggu ya… :)

Puji Tuhan…. So far so good. Terima kasih buat semua kejutan yang telah diberikan.
Persiapan terakhir sebelum berangkat ke Taiwan. Ceritanya ini akan studi ke Taiwan via beasiswa DPU
Cukup capek menyelesaikan urusan surat-surat di Jakarta Jumat kemarin, namun senang sekali ada kesempatan ketemu pentolan milis sc-ina (Pak Anto dan Pak Son). Akhirnya bisa ketemu dengan pak Anto setelah sekian lama berusaha ketemu namun selalu tidak bisa. :)

Selasa nanti akan bertolak ke Taiwan, mungkin posting akan berhenti sejenak sampai saya bisa punya akses komputer dan internet di sana. Semoga dengan akses resource di sana yang lebih luas, saya bisa semakin banyak bagi-bagi pengalaman di sini. Upgrade ilmu nih…. :)

Sekian posting singkat dari Surabaya menjelang keberangkatan.
Doakan sukses di sana ya. :)
Back to academic life…

IEEE ICDM Data Mining Contest 2007 (IEEE ICDM DMC’07) adalah kompetisi pertama kali diadakan pada IEEE ICDM.
Kompetisi pertama ini mengambil permasalahan tentang estimasi lokasi indoor radio signal strength (RSS) yang diterima oleh sebuah client device dari berbagai WiFi access points.
Registrasi kompetisi ini sudah dibuka. Detil tentang kompetisi ini dapat dilihat di http://www.cse.ust.hk/~qyang/ICDMDMC07/.

Website yang sangat menarik,Videolectures.net, menyediakan free video lectures, talks, interviews on demand. Tujuannya kalo dilihat dari tag linenya adalah exchange ideas / share knowledge. Banyak sekali rekaman video kuliah, seminar, dan interview di sini terutama bidang Computer Science (saat tulisan ini diposting, video tentang Computer Science paling banyak). Mungkin di kemudian hari akan semakin banyak rekaman dari bidang-bidang yang lain.

Video-video KDD Conference 2007 kemarin juga ada di site ini: http://videolectures.net/kdd07_sanjose/.
Menonton video ini bagaikan belajar langsung dari pakarnya, merasakan suasana KDD conference. Hehehe, maklum, belum mampu ikutan KDD conference. :)

Link website ini akan saya tambahkan di blogroll blog ini.

Halaman Berikutnya »