Dr. Robert Grossman, penerima SIGKDD Service Award 2007, merupakan salah satu pendiri Data Mining Group (DMG) yang mengembangkan Predictive Model Markup Language (PMML). Beliau adalah chair DMG yang telah berhasil mengembangkan PMML sampai versi 3.1, dan PMML sudah banyak diadopsi oleh banyak perusahaan dan komunitas data mining.
Robert Grossman sangat aktif dalam komunitas KDD. Beliau pernah menjadi industrial track co-chair KDD 2006, general chair 2005, sponsorship chair KDD 2000 dan 2001. Beliau juga merupakan co-chair SIAM International Conference on Data Mining pertama dan kedua (SDM 2001 dan SDM 2002).
Dr. Robert Grossman saat ini adalah Director of National Center for Data Mining (NCDM) di University of Illinois at Chicago (UIC), Managing Partner Open Data Group, dan juga merupakan Affiliate Senior Consultant The CS Cubed Group.
Selama 10 tahun terakhir, Grossman telah melakukan dua testbed untuk high performance and distributed data mining. Testbed pertama dinamakan Terabyte Challenge, dioperasikan mulai tahun 1995-1999. Sedangkan, testbed kedua dinamakan Teraflow testbed dimulai sejak awal 2004 sampai paling tidak akhir 2008. Teraflow testbed dapat digunakan untuk mining dan analisa 1-10 Gbps streaming data, dimana saat ini umumnya distributed data mining hanya pada 1-100 Mbps. Targetnya tidak main-main, rencananya satu dekade ke depan sudah mampu mencapai 100 Gbps dan 1000 Gbps.

Berkaitan dengan Data Mining Grand Challenges yang pernah diposting beberapa waktu lalu, salah satu grand challenge data mining diusulkan oleh Robert Grossman. Grand Challenge yang diusulkan Beliau tentang large-scale modelling yang dapat mengestimasi jutaan hingga miliaran parameter data mining model.

Referensi:
1. ACM SIGKDD: SIGKDD Service Awards. http://sigkdd.org/awards_service.php#2007s
2. Robert Grossman. http://www.rgrossman.com/
3. The CS Cubed Group, LLC. http://www.cscubed.com/personnel.html

SIGKDD Exploration June 2007, Volume 9, Issue 1.
Special issue SIGKDD kali ini adalah tentang data mining untuk health informatics. Ada beberapa paper tentang topik ini.
Selain itu, ada juga artikel interview Gregory Piatetsky dengan Simon Funk.
http://www.acm.org/sigs/sigkdd/explorations/issue.php?volume=9&issue=1&year=2007&month=06

SIGKDD telah mengumumkan penerima penghargaan SIGKDD. Seperti tahun-tahun sebelumnya, terdapat dua kategori yaitu: SIGKDD Innovation Award, dan SIGKDD Service Award.
Penerima 2007 SIGKDD Innovation Award : Dr. Usama M. Fayyad
Penerima 2007 SIGKDD Service Award : Dr. Robert Grossman
Penghargaan akan diberikan pada KDD-2007 12 Agustus 2007 mendatang.

Selamat buat Dr. Usama M. Fayyad dan Dr. Robert Grossman.

Referensi :
1. ACM SIGKDD: SIGKDD Innovation Awards. http://sigkdd.org/awards_innovation.php#2007i
2. ACM SIGKDD: SIGKDD Innovation Awards. http://sigkdd.org/awards_service.php#2007s

Note:
Profil singkat Dr. Usama M. Fayyad pernah muncul pada posting tokoh di DM Corner, dapat dibaca di http://philips.wordpress.com/2006/05/16/usama-fayyad/. Profil Robert Grossman akan muncul pada posting tokoh berikutnya di DM Corner.

Jon Kleinberg merupakan salah satu peneliti computer science yang sangat berbakat dengan area penelitian yang sangat luas saat ini. Area penelitiannya meliputi web analysis and search, small-world phenomena and decentralized search, social network analysis, algorithms and complexity, data mining, indexing, network analysis, genomics and protein structure analysis.
Beliau telah memperoleh berbagai macam penghargaan seperti Sloan Research Fellow, NSF Career Award, ONR Young Investigator Award, Packard Foundation Fellowship, MacArthur ‘Genius Award’ Fellowship, dan Nevanlinna Mathematics Prize.
Berkaitan dengan data mining, beliau memperoleh dua best paper award KDD:

Komunitas data mining juga mengenal Beliau sebagai founder social network analysis. Selain itu algoritma HITS yang dikembangkannya di IBM Almaden merupakan pendekatan yang baru saat itu dan sangat berpengaruh pada perkembangan area web search engine. Algoritma PageRank Google merupakan salah satu algoritma yang terinspirasi oleh HITS yang lebih mengutamakan link analysis daripada keyword dalam ranking halaman web.
Saat ini, Beliau merupakan professor computer science di Cornell University.
Interview Beliau di KDNuggets dapat dibaca pada [2], memberikan gambaran tentang research yang Beliau kerjakan. Paper-paper Beliau dapat dilihat pada homepage Beliau [1].

Referensi:
1. Jon Kleinberg’s Homepage. http://www.cs.cornell.edu/home/kleinber/.
2. KDnuggets Interview: Jon Kleinberg (KDnuggets News 07:11, item 3, Features). http://www.kdnuggets.com/news/2007/n11/3i.html.
3. Jon Kleinberg Wikipedia entry. http://en.wikipedia.org/wiki/Jon_Kleinberg.

Structural pattern mining merupakan data mining yang mencari informasi struktural dari structural database. Jelas, databasenya sangat berhubungan dengan graph. Pentingnya structural pattern mining dapat dilihat karena banyak sekali real world entity dapat dinyatakan dalam bentuk graph mulai dari relational database, molekul, networks, web, sampai proteomics. Berbagai representasi pengetahuan seperti sequence dan tree juga termasuk jenis graph. Karena itulah, area ini menjadi semakin penting saat ini. Beberapa disiplin ilmu seperti bioinformatika dan chem-informatics mulai memanfaatkan structural pattern mining untuk memperoleh deskripsi pola-pola data yang akan dianalisa.
Beberapa task structural pattern mining dapat dibaca pada posting Survey Link Mining.
Resource dan publikasi tentang structural pattern mining dapat dilihat pada [1].
Sedangkan [2], memberikan review tentang algoritma structural pattern mining yang dibagi menjadi kernels methods, molecular query methods, dan maximum common substructure methods bedasarkan sudut pandang molecular mining. Posting ini sangat menarik karena memberikan link ke source code, referensi, dan komentar tentang kelebihan algoritma-algoritma tersebut.

Referensi:
1. Homepage for Mining Structured Data. http://hms.liacs.nl/index.html
2. Mining Drug Space: Molecular Mining Review 2006. http://miningdrugs.blogspot.com/2007/01/molecule-mining-review-2006.html

Internet adalah gudang informasi yang sangat luas. Mencari informasi apapun hampir dipastikan dapat ditemukan di internet, apalagi jika berkaitan dengan topik-topik penelitian.
Masalahnya banyak yang kesulitan menemukan informasi di internet.
Artikel “Pencarian Resource di Internet” saya tulis berdasarkan pengalaman saya berburu informasi dan resource di internet. Semoga berguna bagi rekan-rekan yang berburu resource di internet. Artikel ini dapat didownload dari site softcomputing indonesia di bagian link repository (public).
Ditunggu saran, kritik, dan komentarnya.

Machine Learning merupakan area yang sangat berkaitan erat dengan data mining. Sangat tepat sekali jika mengenal machine learning dari sudut pandang pakar machine learning.
Tom Mitchell adalah salah satu pakar machine learning, salah satu bukunya “Machine Learning” merupakan salah satu text book machine learning yang populer dan banyak dipakai hingga saat ini.
Papernya “The Discipline of Machine Learning” memberikan gambaran beliau secara personal tentang machine learning sebagai suatu disiplin ilmu, dan hubungannya dengan bidang ilmu pengetahuan lain dan bidang sosial. Paper ini juga memaparkan secara singkat current states dan arah perkembangan machine learning. Saya banyak belajar dari paper ini, sungguh sangat menarik mengetahui banyak hal yang dilakukan oleh machine learning. Peranan machine learning pada dunia computer science juga dipaparkan dengan sangat menarik di sini.
Satu hal yang menarik adalah research question yang menunjukkan arah yang ingin dicapai oleh machine learning. Apakah unlabeled data berguna untuk supervised learning? Bagaimana cara memindahkan pengetahuan yang sudah diperoleh pada suatu proses training agar dapat digunakan untuk meningkatkan pelatihan pada task yang lain? Apa hubungan antara algoritma-algoritma learning, algoritma apa yang seharusnya dipakai dalam suatu problem? Semua itu muncul sebagai research question yang akan terus digali oleh para peneliti machine learning. Lebih jauh lagi muncul pertanyaan seperti ini: dapatkah kita membangun sebuah never-ending learner (seperti makhluk hidup belajar dan beradaptasi)? Dapatkah teori dan algoritma machine learning digunakan untuk menjelaskan cara manusia belajar? Jika cara manusia belajar bisa dijelaskan, wah ini digunakan untuk meningkatkan strategi dan metode pengajaran di sekolah. Sungguh sangat menarik mengetahui usaha-usaha yang ingin dicapai.

Banyak pencapaian ilmu pengatahuan dan teknologi dipicu oleh adanya tantangan berhadiah (challenge).
Jika bidang robotika ada DARPA Grand Challenge tahun 2005 tentang robotic car navigation, dan RoboCup yang goalnya mengembangkan tim robot humanoid yang dapat mengalahkan tim pemenang world cup pada 2050. Apakah grand challange untuk data mining?

KDD2006 panel mengusulkan beberapa kriteria grand challenge data mining:

  1. Permasalahannya harus sulit – sangat sulit untuk diselesaikan dengan teknik-teknik yang ada saat ini
  2. Melibatkan data mining – data mining harus memiliki peranan yang sangat penting untuk menyelesaikan permasalahan tersebut
  3. Menggunakan large dataset yang tersedia secara publik
  4. Goal yang jelas – sehingga dapat diketahui kapan permasalahan tersebut terselesaikan
  5. Permasalahannya harus menarik bagi para peneliti
  6. Adanya manfaat bagi masyarakat jika permasalahan tersebut dapat diselesaikan

Saat ini, tantangan yang berkaitan dengan data mining yang berhasil menarik banyak perhatian adalah Netflix Challenge. Tantangan lain yang mungkin berhubungan dengan data mining adalah Archon X Prize for Genomics, 10 juta dollar untuk tim pertama yang berhasil melakukan sequencing human genome 100 orang dalam 10 hari.

KDD2006 panel report, “What are The Grand Challenges for Data Mining?”, mengusulkan beberapa permasalahan untuk grand challange data mining mulai dari multimedia data mining, link mining, large-scale modelling, text mining, sampai mining proteomics.
Paper report ini sangat menarik, menawarkan beberapa macam permasalahan yang dapat dipertimbangkan sebagai grand challenge. Misalnya pada multimedia mining: annotate (memberi keterangan) 1000 jam digital video dalam 1 jam, prediksi minat user pada video tertentu berdasarkan browsing lima menit pertama, pencarian interview seseorang yang mirip pada arsip video broadcast. Pada text mining, grand challenge yang diusulkan adalah sistem text mining yang mampu melewati standard reading comprehension tests seperti SAT, GRE, GMAT. Pada link mining, grand challengenya dinamai Wikipedia Test, mempertandingkan artikel oleh participatory journalism (seperti para penulis artikel di Wikipedia) dengan artikel oleh link mining tool yang dilakukan secara otomatis. Dapatkah orang membedakan artikel wikipedia asli atau yang dibuat secara otomatis oleh link mining tool? dan mana yang lebih baik? Grand challenge link mining ini mengingatkan saya pada Turing test.
Area mining proteomics mengusulkan grand challenge untuk menentukan keberadaan protein beserta jumlah dan interaksinya. Sedangkan, pada large-scale modelling diusulkan challange yang mengestimasi jutaan hingga miliaran parameter data mining model.
Saya banyak belajar dari paper report ini tentang permasalahan-permasalahan yang berkaitan dengan data mining, ternyata banyak sekali.

Grand Challenge seperti apa yang akan muncul? kita tunggu saja nanti. :)

Satu lagi challenge yang berkaitan dengan data mining.
Spock (http://www.spock.com/), people search application, memberikan tantangan berhadiah $50000. Problemnya tentang entity resolution.
Entity resolution merupakan salah satu permasalahan link mining yang menarik (survey link mining dapat dilihat di SIGKDD Exploration Volume 7, Issue 2, December 2005, review singkat dalam bahasa Indonesia dapat dilihat di Survey Link Mining).
Jelas sekali bahwa entity resolution sangat diperlukan pada people search application karena di dunia ini banyak orang yang memiliki nama yang sama. Nama Michael Jackson misalnya, bisa jadi nama penyanyi atau nama pemain football di Amerika.
Task problem ini adalah menentukan real world entity (nama orang) pada dataset yang berupa dokumen, membagi dokumen-dokumen tersebut pada real world entity (nama orang) yang relevan. Jadi, misalnya jika ada orang mencari Michael Jackson seorang penyanyi, maka hasilnya jangan sampai tercampur dengan Michael Jackson seorang pemain football. Menarik bukan??
Detil informasi lebih lengkap tentang Spock Challenge : http://challenge.spock.com/

ECML/PKDD 2007 Discovery Challenge juga telah dimulai. Ada tiga problem yang dapat dipilih untuk diikuti: User’s behaviour prediction, HTML traffic prediction, dan Sumerian literature understanding.
Informasi lebih lengkap tentang Discovery Challenge ini dapat dilihat pada:
http://www.ecmlpkdd2007.org/challenge/

« Halaman SebelumnyaHalaman Berikutnya »