Python
Python est un langage de programmation dynamique, interpré et scripté. Il a été développé au début des années 1990 par Guido van Rossum. Aujourd'hui, ce langage est développé en tant que projet open-source par de nombreux développeurs dans le monde entier, dirigé par Guido via la Python Software Foundation (PSF). L'objectif du langage est de développer un langage de programmation facile à apprendre, produisant un code intuitif et lisible, tout en restant aussi puissant que les autres langages de programmation établis.
Articles associés
Développement accéléré de modèles avec H2O AutoML et Flow
Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python
La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…
10 déc. 2020
Suivi d'expériences avec MLflow sur Databricks Community Edition
Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Deep Learning, Databricks, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn
Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…
10 sept. 2020
Importer ses données dans Databricks : tables externes et Delta Lake
Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python
Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…
21 mai 2020
Premier pas avec Apache Airflow sur AWS
Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : Airflow, Oozie, Spark, PySpark, Docker, Enseignement et tutorial, AWS, Python
Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…
5 mai 2020
Optimisation d'applicationS Spark dans Hadoop YARN
Catégories : Data Engineering, Formation | Tags : Spark, Performance, Hadoop, Python
Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…
30 mars 2020
MLflow tutorial : une plateforme de Machine Learning (ML) Open Source
Catégories : Data Engineering, Data Science, Formation | Tags : Deep Learning, AWS, Databricks, Déploiement, Machine Learning, Azure, MLflow, MLOps, Python, Scikit-learn
Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…
23 mars 2020
Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask
Catégories : Data Science, Tech Radar | Tags : Deep Learning, Enseignement et tutorial, Machine Learning, Machine Learning, Python
Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…
2 mars 2020
Stage Data Science & Data Engineer - ML en production et ingestion streaming
Catégories : Data Engineering, Data Science | Tags : Flink, Kafka, Spark, DevOps, Hadoop, HBase, Kubernetes, Python
Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…
By WORMS David
26 nov. 2019
Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale … du point de vue de l’ingénierie et de la plate-forme de données”, a expliqué Justin Norman lors de son intervention sur le déploiement…
30 sept. 2019
Installation de TensorFlow avec Docker
Catégories : Orchestration de conteneurs, Data Science, Formation | Tags : CPU, Deep Learning, Docker, Jupyter, Linux, IA, TensorFlow
TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…
5 août 2019
Apache Hive 3, nouvelles fonctionnalités et conseils et astuces
Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, Hive, Kafka, JDBC, LLAP, Hadoop, Versions et évolutions
Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…
25 juil. 2019
Auto-scaling de Druid avec Kubernetes
Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, CNCF, Orchestration de conteneurs, Analyse de données, Helm, Métriques, OLAP, Exploitation, Prometheus, Cloud, Kubernetes, Python
Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…
16 juil. 2019
Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark
Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Spark, Apache Spark Streaming, DevOps, Enseignement et tutorial
L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…
19 juin 2019
Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop
Catégories : Data Engineering, Formation | Tags : Spark, Apache Spark Streaming, Streaming, Python
Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…
28 mai 2019
Les fonctions de première classe en Python
Catégories : Hack, Formation | Tags : Programmation, Python
J’ai récemment regardé une conférence de Dave Cheney sur les fonctions de première classe en Go. Sachant que Python est également capable de les prendre en charge, sont-elles utilisables de la même…
15 avr. 2019
Publier Spark SQL Dataframe et RDD avec Spark Thrift Server
Catégories : Data Engineering | Tags : Hive, Spark, Thrift, JDBC, Hadoop, SQL
La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…
25 mars 2019
Apprentissage par renforcement appliqué au jeu de Poker
Catégories : Data Science | Tags : Algorithme, Deep Learning, Jeu, Q-learning, Machine Learning, Réseau de neurones, Python
Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…
9 janv. 2019
Surveillance d'un cluster Hadoop de production avec Kubernetes
Catégories : DevOps & SRE | Tags : Thrift, Docker, Elasticsearch, Graphana, Prometheus, Shinken, Hadoop, Knox, Cluster, Kubernetes, Noeud, Node.js, Python
La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…
21 déc. 2018
CodaLab - Concours de Data Science
Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, MySQL, Machine Learning, Node.js, Python
CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…
17 déc. 2018
Jumbo, le bootstrapper de clusters Hadoop
Catégories : Infrastructure | Tags : Ansible, Ambari, Automation, HDP, REST, Cluster, Vagrant
Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…
29 nov. 2018
Lando : résumé de conversation en Deep Learning
Catégories : Data Science, Formation | Tags : Deep Learning, Micro Services, Open API, Kubernetes, Réseau de neurones, Node.js
Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…
By HATI Yliess
18 sept. 2018
TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, Spark, YARN, C++, CPU, GPU, JavaScript, Performance, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
By HATI Yliess
29 mai 2018
Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Flink, Spark, Pipeline
Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…
24 mai 2018
Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x
Catégories : Big Data, DataWorks Summit 2018 | Tags : Hive, Oozie, Sqoop, HDP, REST, Hadoop, CDH
Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…
23 mai 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, Spark, PySpark, Docker, Streaming, Performance, Spark MLlib, Kubernetes, pandas
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
23 mai 2018
Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, REST, Python
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
7 mars 2018
De Dockerfile à Ansible Containers
Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Ansible, Docker, Docker Compose, Shell, YAML
Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…
25 oct. 2017
Cloudera Sessions Paris 2017
Catégories : Big Data, Évènements | Tags : EC2, Cloudera, Altus, CDSW, SDX, PaaS, CDH, Azure
Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…
16 oct. 2017
Supervision de clusters HDP
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, HDP, Métriques, Supervision, REST
Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…
5 juil. 2017
Maitrisez vos workflows avec Apache Airflow
Catégories : Big Data, Tech Radar | Tags : Airflow, DevOps, Cloud, Python
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…
17 juil. 2016
Diviser des fichiers HDFS en plusieurs tables Hive
Catégories : Data Engineering | Tags : Flume, HDFS, Hive, Oozie, Pig, SQL
Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…
By WORMS David
15 sept. 2013
E-commerce cigarettes électroniques : impressions sur Prestashop
Catégories : Tech Radar | Tags : HTML, Java, Node.js
L’année dernière, il m’a fallu choisir et intégrer une solution e-commerce pour le site de vente de cigarettes électroniques CigarHit. Etant donné que ma dernière intégration d’un site e-commerce…
By WORMS David
23 juil. 2012
Node.js intégré à la plateforme cloud Microsoft Azure
Catégories : Cloud computing, Tech Radar | Tags : Linux, Cloud, Azure, Node.js
Node est désormais un citoyen de premier ordre dans l’environnement cloud de Microsoft Azure au côté de .Net, Java et PHP. Cette intégration est la conséquence logique de l’implication de Microsoft…
By WORMS David
11 déc. 2011
Node.js, JavaScript côté serveur
Catégories : Front End, Node.js | Tags : HTTP, JavaScript, Serveur, Node.js
En attente du prochain grand language (NBL pour Next Big Language), cela fait maintenant 3 ans que je prédis à mes clients un bel avenir au JavaScript comme langue de programmation pour les…
By WORMS David
12 juin 2010