Beberapa hari yang lalu, saya mendengarkan seminar yang dibawakan oleh Prof. Jiawei Han. Merupakan suatu keberuntungan bagi saya bisa mendengarkan seminar ini. Salah satu hal yang saya salut dengan Prof. Han ini adalah kemampuan menyampaikan ide dengan cara yang mudah dimengerti. Filosofi dari algoritma yang dibawakan disampaikan dengan cara yang sangat mudah dipahami. Satu hal lagi, beliau juga sangat pintar mempromosikan mahasiswa phd bimbingannya.

Seminar yang dibawakan saat itu adalah tentang mining heterogeneous information network. Mengapa? Alasannya sangat sederhana. Hampir semua real network adalah heterogeneous network, dan homogeneous network umumnya merupakan bagian dari heterogeneous network. Knowledge yang akan diekstraksi dari network ini tersembunyi dalam link-link yang saling menghubungkan object dalam network ini.

Ada dua task yang penting yang diperlukan untuk memperoleh informasi dari network ini: ranking dan clustering. Pada umumnya, orang menganggap dua task tersebut adalah dua task yang berbeda. Algoritma RankClus yang dijelaskan beliau menggabungkan ranking dan clustering menjadi satu. Cluster yang baik akan memberikan hasil ranking yang baik, dan ranking yang baik akan mendorong mengelompokkan cluster yang lebih baik. Proses ini saling bersinergi memberikan hasil yang baik. Selain RankClus, beliau juga menjelaskan algoritma NetClus.

Iklan

Enam algoritma machine learning sedang dikembangkan untuk large-scale, distributed storaged, dan paralel processing di Google selama beberapa tahun terakhir ini. Disebutkan bahwa enam algoritma tersebut adalah Support Vector Machine (SVM), Singular Value Decomposition (SVD), Spectral Clustering, Association Mining, Probabilistic Latent Semantic Analysis (PLSA), dan Latent Dirichlet Allocation (LDA). Bahkan, PSVM sudah tersedia secara public dan dapat didownload. Btw, PSVM merupakan salah satu project hasil 20% time. Sebuah task SVM yang memerlukan tujuh hari pada sebuah komputer dapat diselesaikan dalam waktu dua jam dengan menggunakan PSVM pada 200 komputer.
Algoritma-algoritma di atas merupakan algoritma yang saat ini termasuk algoritma yang terbukti efektif dengan pondasi teori yang sangat kuat, namun komputasinya sangat tinggi. Pada SIGMOD record March 2008, Edward Chang, salah satu peneliti Google, melaporkan bahwa SVM, SVD, PLSA, dan LDA sangat berguna untuk klasifikasi dan collaborative filtering di Google. Google Knowledge search (baru tersedia di Rusia), dan Laiba (produk social-network dengan platform Orkut yang juga baru tersedia di Cina) adalah produk-produk terbaru Google yang menggunakan algoritma-algoritma ini pada infrastukturnya.
Apakah algoritma-algoritma ini akan menjadi tren machine learning masa depan??

Selain tentang algoritma machine learning yang sedang dikembangkan Google, paper “Data Management Projects at Google” juga menceritakan beberapa proyek Google yang lain termasuk Crawling Deep Web, Searching HTML Tables, BIGTable, dan MiniTables.

Referensi:
1. Data Management Projects at Google. SIGMOD Record, March 2008. (Vol. 37, No. 1)
2. PSVM – a parallel version of support vector machine

Di tengah-tengah kesibukan studi, secara tidak sengaja saya menemukan bahwa tulisan saya, Berburu Resource di Internet, muncul di majalah online Inovasi, tepatnya di Inovasi Edisi Vol.9/XIX/November 2007. Thanks to majalah online Inovasi. Thanks to Google for linking me to the resource :).
Sebelumnya sempat terpikir bahwa tulisan ini mungkin tidak masuk karena sudah lama tidak ada kabarnya, ternyata penerbitannya majalahnya yang molor.
Tulisan saya ini mungkin akan sangat berguna bagi teman-teman dalam mencari resource di Internet, terutama yang sedang mengerjakan riset atau tugas akhir. Banyak sekali yang bertanya sumber-sumber resource berkaitan dengan data mining di blog ini. Karena data mining itu sangat luas dan banyak sekali hal yang saya juga masih belajar, semoga artikel ini bisa jadi guideline awal dalam berburu resource di internet. Paling tidak trik-trik ini sangat ampuh selama saya berburu resource di internet.
Teman-teman mungkin juga dapat membuka bagian Tips dari blog ini. Ada beberapa posting terkait dengan berburu resource.

Artikel dapat didownload di sini [link baru].

Update 20 Maret 2008:
Sepertinya memang ada perubahan struktur website majalah inovasi. saya baru saja update link sumbernya. Thanks to Google… 🙂

Sebenarnya itu topik tugas saya yang minggu lalu saya kumpulkan. Saat mengerjakan tugas ini, saya menemukan banyak hal menarik yang dapat saya share di sini, terutama dari website-website yang saya temukan.
Ini kutipan dari laporan yang saya kumpulkan, karena itu dalam bahasa Inggris. Hopefully, you can all understand. 🙂

Everyone knows that Google is one of the best (possibly the best) search engines right now. Most people prefer to use this search engine rather than other search engines. Most of them even set their homepage to Google (iGoogle). But, there are some other services offered that could be different from Google approach. They are either using another search algorithm which they believe that it performs better than others or providing new features that have not been offered before.

As an example, Ask.com (http://www.ask.com/) uses ExpertRank algorithm (formerly known as Teoma) which goes beyond mere link popularity to determine popularity among pages. Teoma analyzed links in context to rank a web page’s importance within its specific subjects. For instance, a web page about soccer would rank higher if other web page about soccer link to it. This is also known as subject-specific popularity. Ask.com says that performing this task in which includes identifying topics, the experts of those topics, and popularity amongst those experts at the exact moment of search query is processed requires many additional calculation that other search engine do not perform. Moreover, Ask.com also provides suggestion to expand and narrow the search term. As far as I know, Google is working on this issue as well. I am quite sure that Google Sets (http://labs.google.com/sets) is one of important parts of the system.

Search features are another aspect of providing good search engine. They could be vertical (specific) search, suggestion, or good user interface. There are many vertical search engines which are preferred bycertain users. For example: Digg (http://digg.com/) for share content, Technorati (http://technorati.com/) for blog and tagged social media, Retrevo (http://www.retrevo.com/) for consumer electronics. Better user interface offers assistance for user to evaluate and explore search result. Vivisimo (http://vivisimo.com/) gives clustered results, in a tree form, to make users easier explore and evaluate search results. This feature is also offered by some meta search engines such as Clusty (http://clusty.com/) which is owned by vivisimo, and Grokker (http://www.grokker.com/). Furthermore, Grokker also provides Map View. Here is the example (follow the link). In this aspect, Google is also working hard to provide additional useful feature to its users, making it faster, easier, and user friendlier. Prototype of the work can be found in Google Experimental Search (http://www.google.com/experimental/).

Related to web 2.0 which encourage web users to collaborate in providing good resources, some companies even have tried to organize and make use of it. Swivel (http://www.swivel.com/) is a very good example. Swivel tries to make data useful. Every user can post and share data so people can share insights, makegreat decisions, and improves lives.I think this service will be a huge data repository, and could be next YouTube for data. Another good example is Spock (http://www.spock.com/), people search engine. This service uses man and machine as the approach to search people. Spock performs some entity resolution algorithm (to distinguish and organize web content about people in the web) combine with Spock members tag to provide the result.

There are many aspects of search engine that can be explored. So, although Google is the most popular search engine right now with its complicated and sophisticated architecture, there are always other aspects that other search engine can offer. These things make all search engine companies, including the leaders such as Google, Ask.com, Yahoo still keep trying to develop some idea for an ideal search engine.

Update:
Selain itu, masih ada beberapa website yang saya temukan kemudian. Beberapa di antaranya sangat menarik.

  • FareCast (http://www.farecast.com/): Smart travel search
    Farecast merupakan travel search engine. Search engine ini dapat membantu kita mencari penerbangan. Yang menarik dari website ini adalah adanya airfare prediction. Mereka dapat memberi saran tentang harga tiket, apakah akan naik (beli sekarang) atau turun (tunggu).
  • Pluggd (http://www.pluggd.com/): Podcast search
    Pluggd adalah podcast search, jadi kita dapat mencari podcast di sini. Yang menarik dari website ini adalah adanya track bar yang menunjukkan bagian-bagian podcast yang sesuai dengan search query kita. Jadi kita tidak perlu melihat semuanya, cukup melihat yang sesuai dengan apa yang kita cari.
  • Quitura (http://www.quintura.com/): using tag cloud to navigate query
    Yang menarik dari website ini adalah kita adanya navigasi query dengan menggunakan tag cloud.

Satu hal yang saya rasakan sangat berbeda dengan studi di Indonesia adalah seminar course. Saat kuliah di Indonesia, seminar tidak dilakukan secara rutin. Bisa satu dua bulan sekali.
Di Taiwan, seminar merupakan salah satu course “wajib”, terutama untuk graduate student (master dan PhD), dan itu pasti ada di setiap semester. Mereka selalu mendatangkan pembicara tamu tiap minggunya, bisa prof dari universitas lain (mungkin dari luar negeri), para praktisi industri, atau para peneliti, dengan topik/area yang selalu berubah setiap minggunya. Jadi, terkadang menarik untuk diikuti jika sangat berkaitan dengan topik riset kita, namun bisa juga membosankan jika topiknya tidak berhubungan.
Seminar course ini yang dilakukan secara rutin ini sangat baik sekali menurut saya. Selain menambah wawasan, mahasiswa dapat semakin mengenal kondisi dan keadaan real world dengan adanya pembicara dari praktisi industri atau para peneliti non-akademik. Dan, jika pembicaranya adalah prof dari universitas lain, mahasiswa dapat saling bertukar ilmu dengan pembicara. Karena dilakukan secara rutin, paling tidak setiap minggunya ada hal baru yang bisa diperoleh.
Btw, pembicara seminar course saya minggu lalu adalah Prof. Chih-Jen Lin. Yang pernah bermain-main dengan SVM pasti tahu orang ini, orang ini sangat terkenal di Taiwan . Sangat menarik karena topiknya memang sesuai dengan interest saya, machine learning. Beliau berbicara tentang Machine Learning: Status & Challenge. Memang agak introduction level karena yang mendengarkan juga bukan cuma orang machine learning, namun sangat menarik melihat aplikasi dan permasalahan yang dihadapi machine learning saat ini.

Penerima IEEE ICDM Awards 2007 sudah diumukan, seperti biasa dua kategori, IEEE ICDM Research Contribution Award dan IEEE ICDM Outstanding Service Award.
Penerima IEEE ICDM Research Contribution Award 2007: Dr. J. Ross Quinlan
Penerima IEEE ICDM Outstanding Service Award 2007: Dr. Gregory Piatetsky-Shapiro
Selamat buat Dr. J. Ross Quinlan dan Dr. Gregory Piatetsky-Shapiro.

Referensi:
1. 2007 IEEE ICDM Research Contributions Award: Dr. J. Ross Quinlan. http://www.cs.uvm.edu/~icdm/awards/Quinlan-07.shtml
2. 2007 IEEE ICDM Outstanding Service Award: Dr. Gregory Piatetsky-Shapiro. http://www.cs.uvm.edu/~icdm/awards/Piatetsky-07.shtml

Note:
Profil singkat Dr. J. Ross Quinlan dan Dr. Gregory Piatetsky-Shapiro sudah pernah muncul pada posting tokoh di DM Corner.
Profil Dr. J. Ross Quinlan:https://philips.wordpress.com/2006/06/13/ross-quinlan/
Profil Dr. Gregory Piatetsky-Shapiro: https://philips.wordpress.com/2006/05/08/gregory-piatetsky-shapiro/

Akhirnya ada sedikit waktu untuk posting di blog lagi.
Menyambung posting sebelumnya, kali ini saya akan sedikit share tentang ketertarikan saya dengan data mining.

Terima kasih sebelumnya buat pak Gun yang telah menularkan sedikit ilmunya, dan Prof Jiawei Han untuk bukunya yang membuat saya sedikit addicted dengan bidang ini.

Satu hal yang pasti bahwa saya belajar banyak hal, terutama berkaitan dengan jenis-jenis data dan karakteristiknya serta problem-problem yang dihadapi untuk mengolah jenis data tersebut. Selain itu, aplikasi data mining pada real-world problems membuat saya juga mengetahui perkembangan berbagai macam ilmu, misalnya: bioinformatika, kedokteran, literatur, web, genetika, dan lain-lain. Sangat menarik!!!
Kemudian, salah satu hal yang cukup istimewa dari data mining adalah posisi disiplin ilmunya yang merupakan irisan banyak bidang ilmu lain seperti kecerdasan buatan, information retrieval, statistik, database, machine learning, visualisasi. Ini membuat saya juga mengenal banyak hal setiap kali membaca hal-hal yang berkaitan dengan data mining.
Nah, kalo dikaitkan dengan penggunaannya. Data mining dapat diaplikasikan pada banyak bidang. Saya juga banyak mengenal orang di luar computer science yang mempelajari data mining.
Sebagai salah satu bidang yang lagi hot saat ini di dunia computer science, saya merasa bahwa data mining akan menjadi sangat penting pada tahun-tahun mendatang. Saat semua data dapat dengan mudahnya disimpan dan dibuat, peranan data mining akan menjadi sangat penting untuk dapat mencari hal-hal penting yang tersembunyi di dalamnya. Yang jelas, saat ini kita mulai kebanjiran data, dan hingga saat ini belum ada yang dapat mengolah semuanya dengan sangat baik.