April 2011


Melanjutkan update kompetisi data mining yang lalu. Ada tiga kompetisi data mining yang sedang dan akan berjalan.

1. Data Mining Cup 2011 (student competition)
2. ECML-PKDD Discovery Challenge 2011
3. Hearst Challenge 2011

Sepertinya tema tahun ini adalah recommendation system. KDDCup, Data mining Cup, dan ECML-PKDD tahun ini semuanya tentang recommendation system.

Have fun with the data.

Saya menemukan dataset yang dapat didownload di Amazon Web Services. Ukuran dataset di sini terhitung raksasa, mulai dari beberapa puluh GB sampai beberapa TB, kebanyakan sekitar beberapa ratus GB. Jenis datasetnya cukup beragam seperti data biologis, astronomi, cuaca, ekonomi, dan lain-lain. Beberapa resource seperti Google books N-gram, DBpedia, dan Freebase tersedia di sini.

Semoga berguna bagi yang memerlukan resource raksasa.