Learning

The sharing of knowledge at Adaltas is reflected in the transfer of skills to our clients, the implementation of tailor-made training, our frequent publications of articles, our Open Source contributions as well as teaching in several schools and universities.

CDP partie 6 : cas d'usage bout en bout d'un Data Lakehouse avec CDP

Categories: Big Data, Data Engineering, Formation | Tags: Business Intelligence, Data Engineering, Iceberg, NiFi, Spark, Big Data, Cloudera, CDP, Analyse de données, Data Lake, Entrepôt de données (Data Warehouse)

Dans cet exercice pratique, nous montrons comment construire une solution big data complète avec la Cloudera Data Platform (CDP) Public Cloud, en se basant sur l’infrastructure qui a été déployée tout…

By CHAVARRIA Tobias

Jul 24, 2023

Ordinateur portable Framework avec NixOS, un retour d'expérience

Categories: Formation, Tech Radar | Tags: CLI, DevOps, Enseignement et tutorial, Linux, Packaging, NixOS, Open source

Un nouveau travail commence avec un nouvel ordinateur portable. À ce titre, on m’a donné un Framework Laptop DIY Edition avec pour mission de l’installer et de le configurer entièrement avec NixOS. Je…

By JESUS CARO Carlos

Aug 22, 2022

Stockage objet Ceph dans un cluster Kubernetes avec Rook

Categories: Big Data, Gouvernance des données, Formation | Tags: Amazon S3, Big Data, Ceph, Cluster, Data Lake, Kubernetes, Storage

Ceph est un système tout-en-un de stockage distribué. Fiable et mature, sa première version stable est parue en 2012 et a été depuis la référence pour le stockage open source. L’avantage principal de…

By BIGOT Luka

Aug 4, 2022

Stockage objet avec MinIO dans un cluster Kubernetes

Categories: Big Data, Gouvernance des données, Formation | Tags: Amazon S3, Big Data, Cluster, Data Lake, Kubernetes, Storage

MinIO est une solution de stockage objet populaire. Souvent recommandé pour sa simplicité d’utilisation et d’installation, MinIO n’est pas seulement qu’un bon moyen pour débuter avec le stockage objet…

By BIGOT Luka

Jul 9, 2022

TDP Workshop : devenir un power-user de TDP depuis son terminal

Categories: Évènements, Formation | Tags: DevOps, Ansible, Hadoop, Open source, TDP

La CLI de TDP est utilisée pour déployer et exploiter vos services TDP. Elle s’appuie sur tdp-lib pour vous offrir contrôle et flexibilité. Il y a quelques temps, nous annoncions la sortie publique de…

By FARAULT Paul

Jun 17, 2022

NixOS : Activer le support des machines virtuelles de LXD avec Flakes

Categories: Hack, Formation | Tags: GitHub, Enseignement et tutorial, Linux, LXD, Packaging, VM, NixOS, Open source

Nixpkgs est une collection grandissante de packages pour Nix et NixOS. Même avec plus de 80,000 packages, il est pourtant commun d’avoir besoin d’une fonctionnalité qui n’existe pas encore. Cette…

By COTTART Kellian

May 13, 2022

Installation fiable et reproductible de Linux avec NixOS

Categories: Infrastructure, Formation | Tags: Linux, Packaging, VM, NixOS, TDP

Lors de l’utilisation d’un système d’exploitation, la mise à jour ou l’installation de packages sont des opérations courantes qui présentent un risque pour la stabilité du système. NixOS est une…

By MOUAFFO Florent

Feb 8, 2022

Introduction à Nix, concepts fondateurs et principales commandes

Categories: Infrastructure, Formation | Tags: Arch Linux, CentOS, Linux, OS X, Packaging, Ubuntu, NixOS, TDP

Nix est un gestionnaire de packages fonctionnel pour Linux et d’autres systèmes Unix, rendant la gestion des packages plus fiable et reproductible. Avec un gestionnaire de packages traditionnel, lors…

By MOUAFFO Florent

Feb 1, 2022

La blockchain pour les nuls 1 : blockchains et mécanismes de consensus

Categories: Adaltas Summit 2021, Infrastructure, Formation | Tags: Cryptographie, Infrastructure, Blockchain, Consensus

Les crypto-monnaies sont en plein essor en 2021, avec une capitalisation boursière passant de 750 à plus de 3 000 milliards de dollars. Soyons honnêtes, cela est principalement dû à la spéculation…

By LEONARD Gauthier

Jan 18, 2022

Stage de fin d'étude printemps 2022 - construction d'un Data Lab

Categories: Data Science, Formation | Tags: Spark, Argo CD, Elasticsearch, Internship, Keycloak, Kubernetes, MongoDB, OpenID Connect, PostgreSQL

Descriptif du stage Au cours des dernières années, nous avons développé la capacité d’utiliser les ordinateurs pour traiter une grande quantité de données. L’écosystème a évolué vers une offre étendue…

By WORMS David

Nov 24, 2021

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost

H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…

By KAFERLE DEVISSCHERE Petra

Nov 12, 2021

Stage de fin d'étude printemps 2022 en Data Engineering

Categories: Front End, Formation | Tags: Métriques, Supervision, Hadoop, Hive, Kafka, Delta Lake, Elasticsearch, IaC, Internship, Kubernetes, MLflow, Prometheus, Streaming, TFX

Descriptif du stage La donnée est un actif précieux des entreprises. Le data engineer collecte, convertit et valorise la donnée brute en une information exploitable par les business analysts et les…

By WORMS David

Oct 25, 2021

Stage en infrastructure Big Data avec TDP

Categories: Infrastructure, Formation | Tags: Cybersécurité, DevOps, Java, Ansible, Hadoop, Internship, TDP

Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance et l’optimisation de certains des plus grands clusters de France…

By HARTY Daniel

Oct 25, 2021

Stage Web Technologies

Categories: Front End, Formation | Tags: DevOps, LDAP, React.js, CI/CD, Docker, GraphQL, IaC, Internship, Kubernetes, Node.js, OAuth2

Descriptif du stage Dans le cadre de ses activités Big Data, Adaltas Academy est une plateforme de partage d’information regroupant des articles, des contenus de formation et une base de connaissance…

By WORMS David

Oct 14, 2021

H2O en pratique: retour d'expérience d'un Data Scientist

Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…

By KAFERLE DEVISSCHERE Petra

Sep 29, 2021

Adaltas Summit 2021, seconde édition sur l'Île de Beauté

Categories: Adaltas Summit 2021, Formation | Tags: Ansible, Hadoop, Spark, Azure, Blockchain, Deep Learning, Docker, Terraform, Kubernetes, Node.js

Pour sa seconde édition, l’ensemble de l’équipe Adaltas se réunit en Corse pour une semaine avec 2 jours dédiés à parler tech les 23 et 24 septembre 2021. Après une année et demi de restriction…

By WORMS David

Sep 21, 2021

Guide d'apprentissage pour vous former au Big Data & à L'IA avec la plateforme Databricks

Categories: Data Engineering, Formation | Tags: Cloud, Data Lake, Databricks, Delta Lake, MLflow

Databricks Academy propose un programme de cours sur le Big Data, contenant 71 modules, que vous pouvez suivre à votre rythme et selon vos besoins. Il vous en coûtera 2000 $ US pour un accès illimité…

By KNYAZEVA Anna

May 26, 2021

TensorFlow Extended (TFX) : les composants et leurs fonctionnalités

Categories: Big Data, Data Engineering, Data Science, Formation | Tags: Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, Déploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation…

By KAFERLE DEVISSCHERE Petra

Mar 5, 2021

Développement accéléré de modèles avec H2O AutoML et Flow

Categories: Data Science, Formation | Tags: Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…

By KAFERLE DEVISSCHERE Petra

Dec 10, 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition

Categories: Data Engineering, Data Science, Formation | Tags: Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…

By KAFERLE DEVISSCHERE Petra

Sep 10, 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Categories: Data Engineering, Data Science, Formation | Tags: Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

By KAFERLE DEVISSCHERE Petra

May 21, 2020

Optimisation d'applicationS Spark dans Hadoop YARN

Categories: Data Engineering, Formation | Tags: Performance, Hadoop, Spark, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

By DE BAECQUE Ferdinand

Mar 30, 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Categories: Data Engineering, Data Science, Formation | Tags: AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

By KAFERLE DEVISSCHERE Petra

Mar 23, 2020

Installation de TensorFlow avec Docker

Categories: Orchestration de conteneurs, Data Science, Formation | Tags: CPU, Linux, IA, Deep Learning, Docker, Jupyter, TensorFlow

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…

By SAUVAGE Pierre

Aug 5, 2019

Spark Streaming partie 4 : clustering avec Spark MLlib

Categories: Data Engineering, Data Science, Formation | Tags: Apache Spark Streaming, Spark, Big Data, Clustering, Machine Learning, Scala, Streaming

Spark MLlib est une bibliothèque Spark d’Apache offrant des implémentations performantes de divers algorithmes d’apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut…

By RYNKIEWICZ Oskar

Jun 27, 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Spark, Python, Streaming

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

By RYNKIEWICZ Oskar

May 28, 2019

Spark Streaming partie 1 : construction de data pipelines avec Spark Structured Streaming

Categories: Data Engineering, Formation | Tags: Apache Spark Streaming, Kafka, Spark, Big Data, Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured…

By RYNKIEWICZ Oskar

Apr 18, 2019

Les fonctions de première classe en Python

Categories: Hack, Formation | Tags: Programmation, Python

J’ai récemment regardé une conférence de Dave Cheney sur les fonctions de première classe en Go. Sachant que Python est également capable de les prendre en charge, sont-elles utilisables de la même…

By BUSSER Arthur

Apr 15, 2019

CodaLab - Concours de Data Science

Categories: Data Science, Adaltas Summit 2018, Formation | Tags: Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…

By SOARES Robert Walid

Dec 17, 2018

Une semaine à discuter techno isolés dans un riad Marocain

Categories: Adaltas Summit 2018, Formation | Tags: CDSW, Gatsby, React.js, Flink, Hadoop, Knox, Data Science, Deep Learning, Kubernetes, Node.js

Adaltas organise sa première conférence entre les 22 et 26 Octobre. Au programme de ces 5 jours de conférence : discuter de technologie dans l’un des plus beau riad de Marrakech. Mélanger l’utile à l…

By WORMS David

Oct 11, 2018

Lando : résumé de conversation en Deep Learning

Categories: Data Science, Formation | Tags: Micro Services, Open API, Deep Learning, Internship, Kubernetes, Réseau de neurones, Node.js

Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…

By HATI Yliess

Sep 18, 2018

Notes sur Katacoda relatives à l'orchestrateur de conteneur Kubernetes

Categories: Orchestration de conteneurs, Formation | Tags: Helm, Kubeadm, CNI, Micro Services, Minikube, Ingress, Kubernetes

Il y a quelques semaines, j’ai consacré deux jours pour suivre les cours relatifs à la solution d’orchestration de *container Kubernetes mis à disposition sur la plateforme Katacoda. Je partage ces…

By WORMS David

Dec 14, 2017

Passage à l'échelle de larges pipelines de données en temps réel avec Go

Categories: Open Source Summit Europe 2017, Formation | Tags: Algorithme, Data structures, Go Lang, Pipeline, Protocols, Réseau

Il y a quelques semaines, à l’Open Source Summit à Prague, Jean de Klerk a tenu une conférence intitulée “Passage à l’échelle en temps réel de pipelines de données avec Go”. Cet article passe en revue…

By BUSSER Arthur

Nov 21, 2017

Installation d'Hadoop et d'HBase sous OSX en mode pseudo-distribué

Categories: Big Data, Formation | Tags: Hue, Infrastructure, Hadoop, HBase, Big Data, Déploiement

Le système d’exploitation choisi est OSX mais la procédure n’est pas si différente pour tout environnement Unix car l’essentiel des logiciels est téléchargé depuis Internet, décompressé et paramétré…

By WORMS David

Dec 1, 2010

Learning

Related articles