Les ensembles de données traités correspondant à la définition du big data répondent à trois caractéristiques principales : volume, vélocité et variété.
Pour bien comprendre cette révolution, voici ses 5V : V, comme Volume : le Big Data, c'est donc un volume exceptionnel de données. V, comme Vitesse : le Big Data, c'est un traitement des données rapide, en temps réel. V, comme Variété : le Big Data, c'est des données variées, prenant différentes formes.
Volume, variété, vitesse, valeur – les « 4V »- sont les quatre critères définissant le phénomène Big data. Le Big data, c'est d'abord l'explosion du volume de données, qui met à l'épreuve les infrastructures de stockage classiques des entreprises.
Les composantes d'une architecture Big Data
Source de données (data mart, data warehouse, cloud, base de données hybride) Stockage (magasin de données, data lake) Batch processing (traitement par lots) Stream processing (traitement de flux de data)
Le big data se caractérise par 5 aspects : volume, vitesse, variété, variabilité et véracité.
Pour mieux comprendre ce qu'est le Big Data voici les 3 V qui le définissent : Volume, Vitesse et Variété.
Le volume des données explose. Dans un rapport de 2010 consacré au Big Data, McKinsey prédisait une augmentation de 60 % de la marge d'exploitation des retailers qui utiliseraient pleinement ces énormes volumes de données.
Les six V du Big Data (Velocity, Volume, Value, Variety, Veracity et Variability) sont les caractéristiques les plus importantes du Big Data. Les connaître permet aux data scientists de tirer davantage de valeur de leurs données.
Les 5V du big data font référence à cinq éléments clés à prendre en compte et à optimiser dans le cadre d'une démarche d'optimisation de la gestion du big data. Ces 5V sont le Volume, la Vitesse, la Variété, la Valeur et la Véracité.
Le Big Data vous permet de rassembler des données provenant de médias sociaux, de visites Web, de journaux d'appels et d'autres sources pour améliorer l'expérience d'interaction et maximiser la valeur fournie.
L'objectif de l'analytique Big Data est de mieux exploiter les ensembles volumineux de données dans le but de : Déceler des corrélations entre des informations, Identifier des schémas et tendances auparavant inconnus, Mieux comprendre les préférences des clients ou cibles.
Le big data fait référence à des ensemble de données trop volumineux et complexes pour les applications traditionnelles de traitement et de management des datas. Ce terme est devenu populaire grâce à l'essor de la technologie mobile, de l'IoT (Internet of things ou Internet des objets en français) et de l'IA.
Les caractéristiques du Big Data
Ce volume vertigineux de données ne peut plus être collecté, stocké, géré et exploité par les solutions informatiques traditionnelles combinant infrastructures matérielles et bases de données relationnelles.
Optimiser le traitement des données
Pour de nombreux experts, le traitement des données est l'un des enjeux les plus importants du Big Data. En effet, les informations arrivent en masse et se présentent sous divers formats.
1. Hadoop, l'outil Big Data par excellence. Hadoop est un framework open source permettant de créer des applications capables de stocker et de traiter une masse importante de données en mode batch. Cette plateforme libre a été inspirée de MapReduce, Big Table et Google FS.
Il s'agit de la première caractéristique du Big Data, le volume (la quantité de données produites et disponibles). Il faut aussi que les données collectées répondent au critère de variétés. Les données sont de différents types : données structurées, données semi-structurées, données non structurées.
Pour comprendre ce phénomène, nous pouvons le décrire suivant sept concepts, à savoir les sept « V » que sont le volume, la vélocité, la variété, la véracité ou validité, la variabilité, la valeur et la visualisation.
L'un des avantages les plus importants du big data pour les entreprises est la réduction des coûts du stockage, du traitement et de l'analyse de données massives. Les outils de big data permettent aussi d'identifier des manières efficaces et plus économiques de faire des affaires.
L'expression « Big data » fait finalement son apparition en octobre 1997 dans la bibliothèque numérique de l'ACM1, au sein d'articles scientifiques qui pointent du doigt les défis technologiques à visualiser les « grands ensembles de données ». Le Big data est né, et avec lui ses nombreux défis.
Les fournisseurs historiques de solutions IT tels que HP, Oracle, IBM ou SAP figurent parmi les principaux acteurs du Big Data. Ainsi, IBM propose depuis fin 2011 InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise.
Le big data repose sur des technologies de stockage de données et le cloud computing, pour héberger ces informations, ainsi que sur des technologies de traitement de ces données, pour les analyser. Oracle, IBM, Google, Atos, SAS ou Criteo sont autant d'acteurs du big data, intervenant chacun à des niveaux différents.
Parmi les acteurs du Big Data, on retrouve les premiers fournisseurs et spécialistes de solutions Big Data, comme SAP, SAS, IBM, Oracle, HP.