Salah satu task data mining adalah Classification (klasifikasi). Banyak sekali aplikasi dari klasifikasi data ini, contohnya: customer profiling untuk targeted marketing dan CRM, spam filtering, fraud detection, diagnosa medis.
Pada data classification, data dipasangkan pada sebuah class label tertentu. Classification membentuk sebuah model yang nantinya digunakan untuk melakukan prediksi class label data baru yang belum pernah ada. Misalnya pada aplikasi email spam filtering, data email dipasangkan pada class label “spam” dan “bukan spam”. Kemudian dibentuk sebuah model yang dapat menentukan sebuah email baru (yang belum pernah ada) termasuk “spam” atau “bukan spam”.
Jadi, data classification memiliki dua tahap yaitu: pembentukan model, dan penggunaan model tersebut untuk prediksi class label data baru. Model yang dihasilkan biasa disebut classifier.
Terdapat banyak sekali teknik dan pendekatan yang digunakan dalam data classification, sebut saja decision tree, bayesian classifier, rule-based classifier, neural network, support vector machine (SVM), associative classification, nearest neighbor, genetic algorithm, fuzzy logic, dan lain-lain. Dari beberapa istilah ini, kita tahu bahwa banyak algoritma data classification berasal dari bidang machine learning, pattern recognition, dan statistik.