Data adalah Kumpulan object dan atribut-atributnya. Atribut-atribut tersebut menunjukkan karakteristik sebuah object.
Kualitas data yang akan dimining menentukan proses mining. Ada istilah “Garbage In Garbage Out”, jika yang masuk adalah sampah maka tentu saja hasilnya adalah sampah. Karena itu, data preprocessing sangat diperlukan dalam proses KDD. Hampir 70-80% proses KDD dihabiskan untuk data preprocessing.
Saat ini terdapat bermacam-macam jenis data yang menyebabkan data mining berkembang sangat luas untuk mengembangkan teknik mining untuk jenis-jenis data tertentu.
Ada data yang berbentuk record seperti data matrix, data transaksi, data document (dalam bentuk inverted index, sebuah matrix document-term). Ada yang berupa graph seperti www, struktur molekuler, dan social network. Ada juga yang berupa data spatial, time-series, temporal, spatiotemporal, sequential, text, multimedia, dan stream. Jenis aplikasinya sangat banyak, mulai dari intrusion detection, fraud detection, direct marketing, new drug discovery, mining gene expression, mining moving object, mining software bugs, sampai mining terrorism.
Namun hingga saat ini, belum ada teknik data mining yang dapat digunakan secara efektif untuk semua jenis data. Umumnya dikembangkan khusus untuk sebuah jenis data.