La classification prédit des données non ordonnées tandis que la régression prédit des données ordonnées. La régression peut être évaluée en utilisant l'erreur quadratique moyenne. Au contraire, la classification est évaluée en mesurant la précision.
Les algorithmes de Machine Learning sont une classe bien spécifique d'algorithmes. Enseignés dans une formation Data, ils ne reçoivent pas d'instructions contrairement à beaucoup d'autres algorithmes. Ce sont des programmes à même d'apprendre en toute autonomie à partir des données.
Les modèles de classification se chargent essentiellement d'identifier des groupes d'enregistrements similaires et de répertorier les enregistrements en fonction du groupe auquel ils appartiennent. Cette opération est effectuée sans l'aide des connaissances existantes sur les groupes et leurs caractéristiques.
L'apprentissage automatique (Machine Learning) est utilisé en intelligence artificielle et en science et analyse des données (Analytics and Data Science). Il existe différents types d'apprentissage automatique : le supervisé, le non-supervisé et celui par renforcement.
Il est souvent expliqué que la différence entre Machine Learning et Deep Learning réside dans le fait que les algorithmes de Machine Learning vont traiter des données quantitatives et structurées (des valeurs numériques), lorsque ceux de Deep Learning traiteront des données non-structurées, comme le son, le texte, l' ...
L'objectif de la classification supervisée est principalement de définir des règles permettant de classer des objets dans des classes à partir de variables qualitatives ou quantitatives caractérisant ces objets. Les méthodes s'étendent souvent à des variables Y quantitatives (régression).
Le premier à avoir systématisé des algorithmes est le mathématicien perse Al-Khwârizmî, actif entre 813 et 833. Dans son ouvrage Abrégé du calcul par la restauration et la comparaison, il étudie toutes les équations du second degré et en donne la résolution par des algorithmes généraux.
Les classements sont des outils essentiels pour organiser les connaissances et le travail de chacun au sein de l'ensemble. Classer les objets ou les connaissances revient à les situer les uns par rapport aux autres.
Le but que l'on se propose en faisant une classification est de rendre plus facile l'étude des objets que l'on classe, en les disposant dans un ordre qui, au moyen de quelques-uns d'entre eux, permette de se souvenir des autres.
Soigneusement planifiée, la classification permet l'utilisation plus efficace des données critiques et leur protection dans l'ensemble de l'entreprise ; elle participe également à la gestion des risques et des processus de connaissances légales et de conformité.
Le PageRank est sans aucun doute l'algorithme le plus utilisé dans le monde. Il est le fondement du classement des pages sur le moteur de recherche de Google.
Alors que les data scientists utilisent leurs compétences pour créer des modèles et résoudre des problèmes, les data engineers construisent et gèrent l'infrastructure qui se situe entre les sources de données et l'analyse des données.
Les principaux critères de classification sont : le statut, la profession, la qualification ou la place dans la hiérarchie, la taille de l'entreprise, l'activité économique de l'entreprise...
L'invention de la nomenclature moderne "Systema Naturae" en 1735 : Carl von Linné (1707-1778) fonde la classification par l'observation de critères de ressemblance.
Supervisé: toutes les données sont étiquetées et les algorithmes apprennent à prédire le résultat des données d'entrée. Non supervisé: toutes les données ne sont pas étiquetées et les algorithmes apprennent la structure inhérente à partir des données en entrée.
L' objectif de base du machine learning est "d'apprendre à apprendre" aux ordinateurs – et par la suite, à agir et réagir – comme le font les humains, en améliorant leur mode d'apprentissage et leurs connaissances de façon autonome sur la durée.
Le machine learning concerne tous les secteurs d'activité, notamment l'industrie, le commerce, la santé et les sciences de la vie, le tourisme et l'hôtellerie, les services financiers, l'énergie, les matières premières et les services publics.
Le langage Python s'est imposé comme le langage de référence pour les applications de machine learning.
Au premier niveau (appelé profil d'identité) est pris en compte le comportement de la personne en situation d'apprendre. On peut définir 7 profils d'identités différents : le perfectionniste, l'intellectuel, le rebelle, le dynamique, l'aimable, l'émotionnel, l'enthousiaste.
Espacer son temps de révision est constitutif d'un meilleur développement des apprentissages. C'est comme pour apprendre à jouer d'un instrument. Il vaut mieux jouer trois fois 10 minutes de guitare dans la journée, plutôt que de faire une séance de 30 minutes.