Dans le BigData, de nouvelles architectures et de nouvelles techniques de collecte, de traitement, de gestion et d’analyse du patrimoine de données des organisations ne cessent d’émerger. Voici un aperçu des tendances2023.
Toujours plus de données
Le rythme de production de nouvelles données devrait continuer à s’accélérer. Et les sources en dehors des bases traditionnelles (transactions, etc.) continueront à être le moteur de ce mouvement.
Les assistants numériques et les capteurs IoT, en particulier, entraînent une augmentation rapide des besoins en matière de gestion du Big data dans des secteurs aussi divers que le commerce, la finance, l’assurance, l’industrie ou l’énergie, et même dans le secteur public.
Cette explosion de la diversité des données oblige de plus en plus à penser au-delà du cadre traditionnel bien structuré de l’entrepôt de données.
Le Edge plus central que jamais
En outre, le traitement du Big data continue de se déplacer en partie vers les appareils eux-mêmes. Les avancées en matière de processeurs font que ces «devices» sont de plus en plus puissants; et donc de plus en plus capables de collecter et de stocker des données de manière autonome, sans solliciter d’infrastructures distantes de stockage ou de calcul.
Par exemple, les applications mobiles des banques peuvent aujourd’hui gérer de nombreuses tâches comme le dépôt de chèques sans avoir à envoyer des images aux systèmes centraux pour traitement.
Traiter ou préparer les informations directement dans les appareils ou les capteurs (ou à proximité) est aujourd’hui bien connu sous le nom de «Edge computing». Ce type d’architecture décentralisée optimise les performances et le stockage en réduisant la nécessité de faire transiter toutes les données par le réseau. En réduisant les calculs et les traitements par un système distant, le Edge réduit les frais de stockage, de bande passante et de traitement dans le cloud. Il accélère également l’analytique et peut fournir des réponses plus rapides à l’utilisateur.
Autant d’atouts qui expliquent qu’en 2023, le Edge devrait être plus central que jamais.
L’essor du cloud hybride
Par le passé, les organisations géraient leurs propres infrastructures de stockage, dans des centres de données qu’elles devaient elles-mêmes exploiter et sécuriser. Le cloud a changé cette dynamique.
Mais certains secteurs sont confrontés à des difficultés dans l’utilisation du cloud en raison de limitations réglementaires ou techniques. Par exemple, les industries fortement réglementées ont des restrictions qui empêchent de mettre ses données dans un cloud public. En réponse, les acteurs du cloud développent des moyens de fournir une infrastructure adaptée à ces contraintes tout en restant flexible, virtualisée et à la demande (cloud privé, cloud souverain, cloud localisé, voire «cloud sur site»).
Ils proposent également des approches hybrides (mélange de cloud et de «on prem»). Cette diversification d’hébergement et de traitement du BigData (cloud public, multicloud, cloud hybride, etc.) va sans aucun doute progresser en 2023, à mesure que les entreprises recherchent les avantages économiques et techniques du cloud tout en diminuant les risques légaux et de compliance.
Le triomphe du Datalake
Plutôt que d’essayer de centraliser le stockage des données dans un entrepôt de données–qui nécessite des processus ETL complexes et longs, les organisations ont peu à peu été conquises par les avantages des lacs de données.
Les datalakes stockent des jeux de données aussi bien structurées que semi-structurées ou non structurées, dans leur format natif. Cette approche transfère la responsabilité de la transformation et de la préparation aux utilisateurs finaux (qui ont des besoins différents).
En 2023, le datalake a prouvé qu’il était particulièrement adapté au BigData. Il n’est plus une option, mais un «must have». Et il devrait continuer à progresser.
L’analytique augmentée à l’IA progresse
Aucune technologie n’a été aussi révolutionnaire pour l’analytique big data que le machine learning (ML) et l’intelligence artificielle (IA).
Le ML identifie les schémas récurrents et détecte les valeurs anormales dans de grands ensembles de données. Il ouvre également les portes du prédictif. L’IA a aussi ouvert la voie à:
- des systèmes de reconnaissance d’image et de vidéo, et d’extraction de texte;
- la classification automatisée des données;
- au traitement du langage naturel (NLP) pour les chatbots ou l’analyse de sentiments;
- l’automatisation des processus opérationnels;
- des fonctions de personnalisation et de recommandation au sein de sites web ou d’outils; et
- des systèmes capables d’optimiser des solutions métiers.
Avec l’IA appliquée au Big data, un des usages montants des entreprises est un support client plus avancé grâce à des chatbots et à des interactions plus personnalisées.
Tous usages confondus, les organisations consacreront en tout cas certainement plus de budgets aux outils de ML d’IA pour tirer de la valeur du big data en 2023.
De manière connexe, dans la restitution des conclusions de l’analytique, la visualisation des données (Dataviz) devrait en profiter. L’humain comprend mieux la signification des données lorsqu’elles sont représentées sous une forme visuelle (des diagrammes, des graphiques ou des courbes, ou encore des cartes). La Dataviz «augmentée» à l’IA met la puissance de l’analytique entre les mains des utilisateurs métiers occasionnels, qui peuvent repérer les bonnes informations pour prendre de meilleures décisions. Les formes les plus avancées de visualisation permettent même de poser des questions en langage naturel, le système déterminant automatiquement la bonne requête et affichant les bons résultats en fonction du contexte. Ces outils existent déjà, mais 2023 devrait être l’année de leur démocratisation.
Le DataOps et l’intendance des données prennent le devant de la scène
Une tendance émergente dans le BigData est le DataOps.
Le DataOps est une méthodologie qui applique des approches agiles et itératives au cycle de vie complet des données. Plutôt que de considérer ce cycle de manière fragmentaire, avec des personnes distinctes chargées des étapes de la génération des données, de leur stockage, de leur transport et de leur traitement, les frameworks DataOps invitent à une approche plus holistique.
Cette approche est presque indispensable alors que les organisations sont de plus en plus confrontées à des problèmes de gouvernance, de confidentialité et de sécurité des données–une situation exacerbée par les environnements big data– en particulier lorsque les données doivent «traverser» des frontières.
De nouveaux outils apparaissent –et continueront d’apparaître– pour s’assurer que les données restent là où elles doivent être, qu’elles sont sécurisées au repos et en mouvement, et qu’elles font l’objet d’un suivi approprié.