Datalake - secu.si

On peut traduire par tas de données, même s’il n’y a pas l’analogie aquatique. Quoi que tas de données serait mieux approprié pour big data. Parce que lac de données c’est bôf. Bref. Si j’ai bien compris¹ dans ce monde merveilleux de la grosse donnée, un datalake est un entrepôt de données, mais dont la grande force est de n’avoir aucun format et de stocker des données quasi-brutes (en les améliorant je pense de quelques métadonnées, à savoir d’où viennent ces données, qui les a produites, quand, etc.).

Avant, on récupérait des données, on les formatait pour les stocker de façon structurée quelque part, ça s’appelait un datawarehouse. Et après on chargeait ce dont on a besoin (Extract – Transform – Load).

Maintenant c’est mieux : on les stocke en tas de ~~merde~~ données, sans modification ni altération donc sans perte d’info (ce qui est bien, faut reconnaître), puis on les charge, et seulement à la fin on en fait quelque chose, en leur appliquant des filtres, des modèles, des structures, mais a posteriori². Donc on passe en Extract – Load – Transform. Comme les puissances de calcul et de stockage peuvent maintenant le permettre (c’est-à-dire stocker des données en tas ~~de merde~~ sans pour autant que ça soit trop le ~~bordel~~ bazar), ben on le fait.

Et on vient de révolutionner pour la 256e fois l’informatique.

References

↑ , « Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue » on JDN, (read on 02/03/2018)

↑ (fr) « Qu’est-ce qu’un Data Lake à l’heure du Big Data ? » on E-media, the Econocom blog (read on 01/03/2018)

Date	Auteur/auteure	Catégories
07/03/2019	Janiko	Concepts