Saya menemukan dataset yang dapat didownload di Amazon Web Services. Ukuran dataset di sini terhitung raksasa, mulai dari beberapa puluh GB sampai beberapa TB, kebanyakan sekitar beberapa ratus GB. Jenis datasetnya cukup beragam seperti data biologis, astronomi, cuaca, ekonomi, dan lain-lain. Beberapa resource seperti Google books N-gram, DBpedia, dan Freebase tersedia di sini.
Semoga berguna bagi yang memerlukan resource raksasa.
April 11, 2011 at 6:27 am
salam kenal pak Philips K.P..
sya sedang riset semantic web dan sedang browsing ttg struktur dataset dbpedia di google… n beruntung skali bsa nyampe di blog pak Philips..
Sya sedang mencari tahu struktur dataset dbpedia pak.. sya harap pak Philips bsa membantu saya atau memberi pencerahan bgi saya (yg sedang bingung ini)… ^^
salam hangat, slametology
April 11, 2011 at 11:20 pm
DbPedia adalah data wikipedia yang sudah terstruktur. Saya sendiri tidak pernah menggunakan DbPedia.
Data repository seharusnya ada dokumentasi tentang format dan bagaimana cara akses datanya..
November 12, 2011 at 5:42 am
pak, mohon ifonya dimana ya saya bisa mendapatkan dataset blog/comment dari blog atau dari social network (twitter, fb, plurk, dll) tapi yang berbahasa indonesia? ini untuk keperluan data tugas akhir saya mengenai opinion retrieval di sosial network. terimakasih sebelumnya pak
November 13, 2011 at 8:03 am
@mita: sepertinya masih belum ada orang yang mengumpulkan data berbahasa indonesia. Umumnya orang-orang melakukan crawling data sendiri untuk keperluan mereka masing-masing. Jadi kamu bisa crawl datanya secara periodik, dan filter out content di luar bahasa indonesia.
Cara lain: coba kontak twitter, fb, plurk untuk datasetnya, tetapi rasanya sangat kecil kemungkinan mereka memberikan data.