Le regroupement (ou clustering) permet d'identifier des groupes d'individus au sein d'un jeu de données. La classification ou catégorisation permet d'attribuer des individus à des groupes déjà définis.
Le clustering consiste à regrouper selon un lien (critère) de similarité, une grande quantité de données en plusieurs sous-ensembles appelés clusters. Les éléments contenus dans un cluster sont similaires les uns aux autres, mais différents des éléments des autres clusters.
La classification sur données déséquilibrées est un problème de classification où l'échantillon d'apprentissage contient une forte disparité entre les classes à prédire. Ce problème revient fréquemment dans les problèmes de classification binaire, et notamment la détection d'anomalies.
Contrairement au k-means, la classification hiérarchique ne nécessite pas de déterminer un nombre de classes au préalable. En effet, en jouant sur la profondeur de l'arbre, on peut explorer différentes possibilités et choisir le nombre de classes qui nous convient le mieux.
Utiliser différents critères pour classer les êtres vivants. Identifier des liens de parenté entre des organismes.
Le but que l'on se propose en faisant une classification est de rendre plus facile l'étude des objets que l'on classe, en les disposant dans un ordre qui, au moyen de quelques-uns d'entre eux, permette de se souvenir des autres.
Nous pouvons utiliser le clustering pour diviser l'ensemble de données d'une manière sensée sans qu'un humain n'ait à l'examiner. Une approche puissante du clustering consiste à classer les données en groupes généraux, puis à l'intérieur de ces groupes, à créer des groupes plus petits et plus spécifiques.
Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.
Les indices inertiels [Lebart et al, 1982] sont les plus connus et les plus utilisés pour évaluer la qualité d'une classification. − L'inertie intra-classes permet de mesurer le degré d'homogénéité entre les objets appartenant à la même classe.
CLASSIFICATION, subst. fém. Répartition systématique en classes, en catégories, d'êtres, de choses ou de notions ayant des caractères communs notamment afin d'en faciliter l'étude; résultat de cette opération.
Cet algorithme de classification trie les données en différents groupes en fonction de leurs caractéristiques. Pour cela, il établit une moyenne de référence parmi un jeu de données, ce qui permet alors de définir un profil type. L'avantage de l'algorithme K-means est sa précision.
Deux grandes familles de clustering existent : le clustering hiérarchique (permettant d'obtenir des clusters éventuellement imbriqués les uns dans les autres) et le clustering non-hiérarchique, aussi appelé partitionnement de données.
Caractéristiques : Extensibilité Capacité à traiter différents types de données Découverte de clusters de différents formes Connaissances requises (paramètres de l'algorithme) Capacité à traiter les données bruitées et isolées.
L'algorithme K-Means est utilisé dans de nombreux domaines. On s'en sert pour la segmentation de la clientèle en fonction de certains critères comme les habitudes d'achat ou la démographie. En data mining, le clustering est utilisé lors de l'exploitation des données pour identifier les individus similaires.
Généralement, le point du coude est celui du nombre de clusters à partir duquel la variance ne se réduit plus significativement. En effet, la “chute” de la courbe de variance (distortion) entre 1 et 3 clusters est significativement plus grande que celle entre 5 clusters et 9 clusters.
On distingue trois principales catégories d'algorithmes de Machine Learning : supervisés, non-supervisés, et semi-supervisés. Chacune de ces catégories repose sur une méthode d'apprentissage différente.
Quels problèmes doit-on confronter si on veut implémenter une méthode de clustering ? Réponse : − Nature des observations : Données binaires, textuelles, numériques, etc ? − Quels algorithmes de clustering ?
Les clusters (groupes sectoriels) sont formés d'organisations humanitaires et d'autres parties prenantes, dont des agences de l'ONU, des organisations non gouvernementales (ONG) et d'autres organisations de la société civile, ainsi que, dans certains cas, des représentants des gouvernements.
Soigneusement planifiée, la classification permet l'utilisation plus efficace des données critiques et leur protection dans l'ensemble de l'entreprise ; elle participe également à la gestion des risques et des processus de connaissances légales et de conformité.
La classification des données permet aux administrateurs d'identifier les emplacements qui stockent des données sensibles et de déterminer comment y accéder et les partager. La classification est une première étape essentielle pour répondre à presque tous les mandats de conformité des données.