Une BrÚve Histoire des Données

May 09, 2025

Les Débuts (<1970/1980)

Les bases de donnĂ©es ont commencĂ© comme de simples fichiers stockant des donnĂ©es. Cela prĂ©sentait certaines limitations, et avec l’essor de la technologie, une alternative a commencĂ© Ă  Ă©merger.

Bases de Données Relationnelles (1970/1980)

  • Des logiciels spĂ©cialisĂ©s, appelĂ©s SystĂšmes de Gestion de Base de DonnĂ©es (SGBD), sont apparus pour gĂ©rer plusieurs tables et requĂȘtes.
    • Introduction du stockage structurĂ© des donnĂ©es avec des relations entre les tables.
  • Les serveurs de base de donnĂ©es pouvaient gĂ©rer plusieurs bases de donnĂ©es et tables.
  • SQL est devenu le langage de requĂȘte standard, bien que les dialectes varient.
  • Les index, essentiellement des tables de mĂ©tadonnĂ©es, ont amĂ©liorĂ© l’efficacitĂ© de la rĂ©cupĂ©ration.
  • Les SGBD sont connus sous le mĂȘme acronyme en français.

Normalisation

  • La normalisation a dĂ©fini les meilleures pratiques pour organiser les donnĂ©es.
  • Les outils de Mapping Objet-Relationnel (ORM) ont abstrait les interactions avec la base de donnĂ©es mais n’ont pas remplacĂ© SQL.

Business Intelligence (1990/2000)

  • La BI s’est concentrĂ©e sur l’amĂ©lioration de la prise de dĂ©cision avec des rapports, des KPIs, des tableaux de bord et des analyses.
  • La modĂ©lisation dimensionnelle, popularisĂ©e par Kimball, a simplifiĂ© la reprĂ©sentation des donnĂ©es pour un usage commercial.
    • Construite autour des faits et des caractĂ©ristiques. ModĂ©lisation dimensionnelle
    • Bien qu’elle soit ancienne, elle est encore couramment utilisĂ©e.
    • D’autres techniques de modĂ©lisation de donnĂ©es incluent le data vault.
  • Les requĂȘtes BI ont commencĂ© Ă  devenir intensives en ressources pour les bases de donnĂ©es.

L’Ère du Big Data (2010/2020)

Les entreprises gĂ©nĂ©raient des donnĂ©es Ă  des Ă©chelles trop grandes pour ĂȘtre manipulĂ©es sur des serveurs uniques (nous parlons d’au moins des GB voire des TB).

Des frameworks de calcul distribué comme MapReduce et Spark sont apparus.

  • Des tĂąches comme la recherche de valeurs uniques ou le tri Ă©taient rĂ©parties sur des clusters de serveurs. Par exemple :
    • Pour trouver des valeurs uniques dans une grande table, vous la divisez, envoyez les parties Ă  plusieurs serveurs, chaque serveur traite sa partie, et enfin, vous regroupez toutes les sous-listes et supprimez les doublons.
    • Le tri d’une grande table suit un processus similaire.
    • Un framework majeur dans le big data Ă©tait MapReduce, qui divise une grande liste en listes plus petites, effectue une action sur chaque partie (map), et traite finalement les rĂ©sultats (reduce).
    • Les frameworks courants incluent Spark et MapReduce.

Map reduce word count Comptage de mots utilisant le framework MapReduce

  • Le thĂ©orĂšme CAP a mis en Ă©vidence les compromis entre cohĂ©rence, disponibilitĂ© et tolĂ©rance aux partitions.
    • Le thĂ©orĂšme CAP devient moins pertinent en raison de l’échelle que nous pouvons maintenant atteindre.
    • La loi de Moore est contestĂ©e mais reste partiellement vraie, et l’informatique devient continuellement plus efficace.

Cap Theorem Le théorÚme CAP met en évidence les compromis entre différentes technologies.

Globalement, la complexitĂ© du Big Data a limitĂ© son adoption pour les cas d’utilisation Ă  plus petite Ă©chelle.

PĂ©riode de Taux d’IntĂ©rĂȘt ZĂ©ro

Entre 2015 et 2020, la FED a menĂ© une politique de taux zĂ©ro (ZIRP), ce qui a rendu l’acquisition d’argent assez facile pour les entreprises. Cela a grandement impactĂ© le monde des donnĂ©es.

Le Big Data Ă©tait vu comme un moyen de gagner de l’argent. Nous avons vu des phrases comme “les donnĂ©es sont le nouveau pĂ©trole” et les mĂ©tiers des donnĂ©es sont les plus sexy. Chaque grande entreprise voulait des data scientists pour transformer leurs donnĂ©es en or.

Nous avons vu émerger des acteurs purement dédiés aux données :

  • Snowflake (2012 - 3,3 milliards de revenus - 53 milliards de valorisation)
  • Databricks (2013 - 1,6 milliard de revenus - 62 milliards de valorisation)
    • Créé par des contributeurs de Spark.

Pourtant, la plus grande part est toujours détenue par les grands acteurs du cloud :

  • Plateformes cloud :
    • Amazon Web Services : Glue, Athena.
    • Google Cloud Platform : BigQuery.
    • Azure Data Factory.

À cette Ă©poque, l’IA Ă©tait appelĂ©e Machine Learning. C’était principalement des statistiques et des mathĂ©matiques et n’était pas accessible via des API.

Je pense qu’à cette Ă©poque, nous sommes passĂ©s par la “pente de dĂ©sillusion” des technologies big data pour atteindre le “plateau de stabilitĂ©â€.

Plus de dĂ©tails sur le mĂ©tier d’IngĂ©nieur de DonnĂ©es créé vers 2015. Source : https://blog.det.life/the-history-of-data-engineering-1762b017541a.

BasĂ© sur les progrĂšs du big data et d’autres facteurs, l’IA a Ă©tĂ© rĂ©volutionnĂ©e. Cet article est trĂšs intĂ©ressant sur les facteurs rendant les LLMs possibles.

Point de Vue Personnel sur la Situation Actuelle (2020+)

Le Big Data et l’IA sont des sujets liĂ©s. L’IA est d’abord une question de donnĂ©es, mais comme elle est fortement productisĂ©e, je ne vois pas pourquoi cela changerait la situation pour le big data. Il est maintenant mature, il fonctionne, mais la plupart des entreprises n’en ont pas besoin, surtout pas les PME.

Le Big Data disparaüt d’un point de vue commercial. Les vendeurs ne l’appellent plus ainsi ; c’est maintenant seulement un outil et non un argument de vente.

Les entreprises qui ont commencĂ© Ă  rendre le Big Data facile se sont tournĂ©es vers la dĂ©mocratisation de l’IA.

L’IA est devenue les LLMs et est API-isĂ©e, c’est pourquoi elle est si facilement adoptĂ©e.