Définition clustering

Clustering : def

Le clustering est une méthode de machine learning (apprentissage automatique) qui consiste à diviser les points de données en un certain nombre de groupes de telle sorte que les points de données du même groupe soient plus similaires aux autres points de données du même groupe et dissemblables aux points de données des autres groupes. Il s’agit essentiellement d’un regroupement d’objets sur la base de leur similarité et de leur dissimilarité.

Ces points de données sont regroupés en utilisant le concept de base selon lequel le point de données se trouve à l’intérieur de la contrainte donnée du centre du groupe. Diverses méthodes et techniques de distance sont utilisées pour le calcul des valeurs aberrantes. Le clustering est très important car il détermine le regroupement intrinsèque des données non étiquetées présentes. Il n’y a pas de critères pour un bon clustering. Cela dépend de l’utilisateur et des critères dont il a besoin pour satisfaire ses besoins.

Par exemple, nous pourrions être intéressés par la recherche de représentants de groupes homogènes (réduction des données), par la recherche de « clusters naturels » et la description de leurs propriétés inconnues (types de données « naturelles »), par la recherche de regroupements utiles et appropriés (classes de données « utiles ») ou par la recherche d’objets de données inhabituels (détection des valeurs aberrantes). Cet algorithme doit faire certaines suppositions qui constituent la similarité des points et chaque supposition fait des clusters différents et également valables.

Laisser un commentaire