May 09, 2025
Les Débuts (<1970/1980)
Les bases de donnĂ©es ont commencĂ© comme de simples fichiers stockant des donnĂ©es. Cela prĂ©sentait certaines limitations, et avec lâessor de la technologie, une alternative a commencĂ© Ă Ă©merger.
Bases de Données Relationnelles (1970/1980)
- Des logiciels spĂ©cialisĂ©s, appelĂ©s SystĂšmes de Gestion de Base de DonnĂ©es (SGBD), sont apparus pour gĂ©rer plusieurs tables et requĂȘtes.
- Introduction du stockage structuré des données avec des relations entre les tables.
- Les serveurs de base de données pouvaient gérer plusieurs bases de données et tables.
- SQL est devenu le langage de requĂȘte standard, bien que les dialectes varient.
- Les index, essentiellement des tables de mĂ©tadonnĂ©es, ont amĂ©liorĂ© lâefficacitĂ© de la rĂ©cupĂ©ration.
- Les SGBD sont connus sous le mĂȘme acronyme en français.
Normalisation
- La normalisation a défini les meilleures pratiques pour organiser les données.
- Détails sur la normalisation
- Entre les années 70 et 80, plusieurs bonnes pratiques additives ont été identifiées.
- Les outils de Mapping Objet-Relationnel (ORM) ont abstrait les interactions avec la base de donnĂ©es mais nâont pas remplacĂ© SQL.
Business Intelligence (1990/2000)
- La BI sâest concentrĂ©e sur lâamĂ©lioration de la prise de dĂ©cision avec des rapports, des KPIs, des tableaux de bord et des analyses.
- La modélisation dimensionnelle, popularisée par Kimball, a simplifié la représentation des données pour un usage commercial.
- Construite autour des faits et des caractéristiques. Modélisation dimensionnelle
- Bien quâelle soit ancienne, elle est encore couramment utilisĂ©e.
- Dâautres techniques de modĂ©lisation de donnĂ©es incluent le data vault.
- Les requĂȘtes BI ont commencĂ© Ă devenir intensives en ressources pour les bases de donnĂ©es.
LâĂre du Big Data (2010/2020)
Les entreprises gĂ©nĂ©raient des donnĂ©es Ă des Ă©chelles trop grandes pour ĂȘtre manipulĂ©es sur des serveurs uniques (nous parlons dâau moins des GB voire des TB).
Des frameworks de calcul distribué comme MapReduce et Spark sont apparus.
- Des tùches comme la recherche de valeurs uniques ou le tri étaient réparties sur des clusters de serveurs. Par exemple :
- Pour trouver des valeurs uniques dans une grande table, vous la divisez, envoyez les parties Ă plusieurs serveurs, chaque serveur traite sa partie, et enfin, vous regroupez toutes les sous-listes et supprimez les doublons.
- Le tri dâune grande table suit un processus similaire.
- Un framework majeur dans le big data était MapReduce, qui divise une grande liste en listes plus petites, effectue une action sur chaque partie (map), et traite finalement les résultats (reduce).
- Les frameworks courants incluent Spark et MapReduce.
Comptage de mots utilisant le framework MapReduce
- Le théorÚme CAP a mis en évidence les compromis entre cohérence, disponibilité et tolérance aux partitions.
- Le thĂ©orĂšme CAP devient moins pertinent en raison de lâĂ©chelle que nous pouvons maintenant atteindre.
- La loi de Moore est contestĂ©e mais reste partiellement vraie, et lâinformatique devient continuellement plus efficace.
Le théorÚme CAP met en évidence les compromis entre différentes technologies.
Globalement, la complexitĂ© du Big Data a limitĂ© son adoption pour les cas dâutilisation Ă plus petite Ă©chelle.
PĂ©riode de Taux dâIntĂ©rĂȘt ZĂ©ro
Entre 2015 et 2020, la FED a menĂ© une politique de taux zĂ©ro (ZIRP), ce qui a rendu lâacquisition dâargent assez facile pour les entreprises. Cela a grandement impactĂ© le monde des donnĂ©es.
Le Big Data Ă©tait vu comme un moyen de gagner de lâargent. Nous avons vu des phrases comme âles donnĂ©es sont le nouveau pĂ©troleâ et les mĂ©tiers des donnĂ©es sont les plus sexy. Chaque grande entreprise voulait des data scientists pour transformer leurs donnĂ©es en or.
Nous avons vu émerger des acteurs purement dédiés aux données :
- Snowflake (2012 - 3,3 milliards de revenus - 53 milliards de valorisation)
- Databricks (2013 - 1,6 milliard de revenus - 62 milliards de valorisation)
- Créé par des contributeurs de Spark.
Pourtant, la plus grande part est toujours détenue par les grands acteurs du cloud :
- Plateformes cloud :
- Amazon Web Services : Glue, Athena.
- Google Cloud Platform : BigQuery.
- Azure Data Factory.
Ă cette Ă©poque, lâIA Ă©tait appelĂ©e Machine Learning. CâĂ©tait principalement des statistiques et des mathĂ©matiques et nâĂ©tait pas accessible via des API.
Je pense quâĂ cette Ă©poque, nous sommes passĂ©s par la âpente de dĂ©sillusionâ des technologies big data pour atteindre le âplateau de stabilitĂ©â.
Plus de dĂ©tails sur le mĂ©tier dâIngĂ©nieur de DonnĂ©es créé vers 2015. Source : https://blog.det.life/the-history-of-data-engineering-1762b017541a.
BasĂ© sur les progrĂšs du big data et dâautres facteurs, lâIA a Ă©tĂ© rĂ©volutionnĂ©e. Cet article est trĂšs intĂ©ressant sur les facteurs rendant les LLMs possibles.
Point de Vue Personnel sur la Situation Actuelle (2020+)
Le Big Data et lâIA sont des sujets liĂ©s. LâIA est dâabord une question de donnĂ©es, mais comme elle est fortement productisĂ©e, je ne vois pas pourquoi cela changerait la situation pour le big data. Il est maintenant mature, il fonctionne, mais la plupart des entreprises nâen ont pas besoin, surtout pas les PME.
Le Big Data disparaĂźt dâun point de vue commercial. Les vendeurs ne lâappellent plus ainsi ; câest maintenant seulement un outil et non un argument de vente.
Les entreprises qui ont commencĂ© Ă rendre le Big Data facile se sont tournĂ©es vers la dĂ©mocratisation de lâIA.
LâIA est devenue les LLMs et est API-isĂ©e, câest pourquoi elle est si facilement adoptĂ©e.