Secara umum data mining task dapat dibagi menjadi dua yaitu deskriptif dan prediktif. Deskriptif maksudnya bahwa data mining dilakukan untuk mencari pola-pola yang dapat dipahami manusia yang menjelaskan karakteristik data. Misalnya pencarian kelompok barang yang sering dibeli bersamaan pada data transaksi. Prediktif maksudnya data mining dilakukan untuk membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan prediksi. Misalnya untuk memprediksi pengunjung online sebuah website komersial berdasarkan perilakunya apakah pengunjung ini akan membeli produk website tersebut.
Secara lebih spesifik data mining task berdasarkan fungsionalitasnya adalah sebagai berikut:

  • Mining Frequent Patterns, Associations, and Correlations : mencari pola-pola yang sering muncul dalam data. Pengetahuannya biasanya berupa rule yang menunjukkan pola-pola tersebut (biasanya disebut association rule). Teknik yang digunakan misalnya Apriori, FP-Growth, CLOSET.
  • Classification and Prediction : mencari sebuah model yang mampu melakukan prediksi pada suatu data baru yang belum pernah ada. Decision tree, neural network, bayesian network, support vector machines, k-nearest neighbor adalah contoh alat yang digunakan untuk membentuk model tersebut. Classification digunakan untuk prediksi categorical data (diskrit), sedangkan untuk numerical data (numerik) biasanya menggunakan analisa regresi.
  • Cluster Analysis : mengelompokkan data dalam sebuah cluster berdasarkan kemiripannya. Prinsipnya adalah memaksimalkan kemiripan dalam sebuah cluster, dan meminimalisasikan kermiripan antar cluster. Jadi data-data yang berada pada sebuah cluster akan memiliki kemiripan yang tinggi, dan sebaliknya data akan memiliki nilai kemiripan yang rendah dengan data yang berada pada cluster yang berbeda. Beberapa teknik yang digunakan dalam cluster analysis ini misalnya k-means, k-medoids, SOM, CLARANS, ROCK, BIRCH, Chameleon.
  • Outlier Analysis : mencari data object yang sifatnya anomali (berbeda dengan sifat umum data). Analisa ini berkaitan dengan yang namanya fraud detection. Justru data anomali tersebut, yang jumlahnya relatif sedikit ini menarik untuk dianalisa. Misalnya deteksi fraud credit card.
  • Evolution Analysis : mencari model atau tren untuk data-data yang sifatnya terus berubah. Analisa ini berkaitan dengan data time-series. Tasknya bisa meliputi clustering, classification, association dan correlation analysis.
Iklan