Python

Python est un langage de programmation dynamique, interpré et scripté. Il a été développé au début des années 1990 par Guido van Rossum. Aujourd'hui, ce langage est développé en tant que projet open-source par de nombreux développeurs dans le monde entier, dirigé par Guido via la Python Software Foundation (PSF). L'objectif du langage est de développer un langage de programmation facile à apprendre, produisant un code intuitif et lisible, tout en restant aussi puissant que les autres langages de programmation établis.

En savoir plus: Site officiel; Python Software Foundation (PSF); Wikipédia
Tags associés: C++; Java

Articles associés

Node.js intégré à la plateforme cloud Microsoft Azure

Catégories : Cloud computing, Tech Radar | Tags : Linux, Azure, Cloud, Node.js

Node est désormais un citoyen de premier ordre dans l’environnement cloud de Microsoft Azure au côté de .Net, Java et PHP. Cette intégration est la conséquence logique de l’implication de Microsoft…

Par WORMS David

11 déc. 2011

Node.js, JavaScript côté serveur

Catégories : Front End, Node.js | Tags : HTTP, Serveur, JavaScript, Node.js

En attente du prochain grand language (NBL pour Next Big Language), cela fait maintenant 3 ans que je prédis à mes clients un bel avenir au JavaScript comme langue de programmation pour les…

Par WORMS David

12 juin 2010

E-commerce cigarettes électroniques : impressions sur Prestashop

Catégories : Tech Radar | Tags : HTML, Java, Node.js

L’année dernière, il m’a fallu choisir et intégrer une solution e-commerce pour le site de vente de cigarettes électroniques CigarHit. Etant donné que ma dernière intégration d’un site e-commerce…

Par WORMS David

25 juil. 2012

Diviser des fichiers HDFS en plusieurs tables Hive

Catégories : Data Engineering | Tags : Flume, Pig, HDFS, Hive, Oozie, SQL

Je vais montrer comment scinder fichier CSV stocké dans HDFS en plusieurs tables Hive en fonction du contenu de chaque enregistrement. Le contexte est simple. Nous utilisons Flume pour collecter les…

Par WORMS David

15 sept. 2013

Maitrisez vos workflows avec Apache Airflow

Catégories : Big Data, Tech Radar | Tags : DevOps, Airflow, Cloud, Python

Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…

Par BEREZOWSKI César

17 juil. 2016

Supervision de clusters HDP

Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : Alert, Ambari, Métriques, Supervision, HDP, REST

Avec la croissance actuelle des technologies BigData, de plus en plus d’entreprises construisent leurs propres clusters dans l’espoir de valoriser leurs données. L’une des principales préoccupations…

Par RUMMENS Joris

5 juil. 2017

Cloudera Sessions Paris 2017

Catégories : Big Data, Évènements | Tags : EC2, Altus, CDSW, SDX, Azure, Cloudera, CDH, Data Science, PaaS

Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…

Par BEREZOWSKI César

16 oct. 2017

De Dockerfile à Ansible Containers

Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Shell, Ansible, Docker, Docker Compose, YAML

Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…

Par BEREZOWSKI César

25 oct. 2017

Executer du Python dans un workflow Oozie

Catégories : Data Engineering | Tags : Oozie, Elasticsearch, Python, REST

Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…

Par BEREZOWSKI César

6 mars 2018

Quelles nouveautés pour Apache Spark 2.3 ?

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, PySpark, Performance, ORC, Spark, Spark MLlib, Data Science, Docker, Kubernetes, pandas, Streaming

Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…

Par BEREZOWSKI César

23 mai 2018

Le futur de l'orchestration de workflows dans Hadoop : Oozie 5.x

Catégories : Big Data, DataWorks Summit 2018 | Tags : Hadoop, Hive, Oozie, Sqoop, CDH, HDP, REST

Au DataWorks Summit Europe 2018 de Berlin, j’ai eu l’occasion d’assister à une session sur Apache Oozie. La présentation se concentre sur les caractéristiques du prochain Oozie 5.0 et celles à venir…

Par SCHOUKROUN Leo

23 mai 2018

Apache Beam : un modèle de programmation unifié pour les pipelines de traitement de données

Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Apex, Beam, Pipeline, Flink, Spark

Dans cet article, nous allons passer en revue les concepts, l’histoire et le futur d’Apache Beam, qui pourrait bien devenir le nouveau standard pour la définition des pipelines de traitement de…

Par LEONARD Gauthier

24 mai 2018

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes

Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow

L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…

Par HATI Yliess

29 mai 2018

Lando : résumé de conversation en Deep Learning

Catégories : Data Science, Formation | Tags : Micro Services, Open API, Deep Learning, Internship, Kubernetes, Réseau de neurones, Node.js

Lando : Les derniers maîtres des mots Lando est une application de résumé de réunion qui utilise les technologies de Speech To Text pour transcrire de l’audio en écrit et les technologies de Deep…

Par HATI Yliess

18 sept. 2018

Jumbo, le bootstrapper de clusters Hadoop

Catégories : Infrastructure | Tags : Ambari, Automation, Ansible, Cluster, Vagrant, HDP, REST

Présentation de Jumbo, un bootstrapper de cluster Hadoop pour les développeurs. Jumbo vous aide à déployer des environnements de développement pour les technologies Big Data. Il suffit de quelques…

Par LEONARD Gauthier

29 nov. 2018

CodaLab - Concours de Data Science

Catégories : Data Science, Adaltas Summit 2018, Formation | Tags : Base de données, Infrastructure, Machine Learning, MySQL, Node.js, Python

CodaLab Competition est une plateforme servant à l’exécution de code dans le domaine de la Data Science. Elle se présente sous la forme d’une interface web sur laquelle un utilisateur peut soumettre…

Par SOARES Robert Walid

17 déc. 2018

Surveillance d'un cluster Hadoop de production avec Kubernetes

Catégories : DevOps & SRE | Tags : Thrift, Shinken, Hadoop, Knox, Cluster, Docker, Elasticsearch, Grafana, Kubernetes, Noeud, Node.js, Prometheus, Python

La surveillance d’un cluster Hadoop de production est un vrai challenge et se doit d’être en constante évolution. Aujourd’hui, la solution que nous utilisons se base sur Nagios. Efficace en ce qui…

Par CORDONNIER Paul-Adrien

21 déc. 2018

Apprentissage par renforcement appliqué au jeu de Poker

Catégories : Data Science | Tags : Algorithme, Jeu, Q-learning, Deep Learning, Machine Learning, Réseau de neurones, Python

Dans cet article, nous présenterons le “Deep Reinforcement Learning”, et plus particulièrement l’algorithme de Deep Q Learning introduit par DeepMind il y a quelques années. Dans une seconde partie…

Par BLAZEJEWSKI Oscar

9 janv. 2019

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

Catégories : Data Engineering | Tags : Thrift, JDBC, Hadoop, Hive, Spark, SQL

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks…

Par RYNKIEWICZ Oskar

25 mars 2019

Les fonctions de première classe en Python

Catégories : Hack, Formation | Tags : Programmation, Python

J’ai récemment regardé une conférence de Dave Cheney sur les fonctions de première classe en Go. Sachant que Python est également capable de les prendre en charge, sont-elles utilisables de la même…

Par BUSSER Arthur

15 avr. 2019

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

Catégories : Big Data, Business Intelligence, DataWorks Summit 2019 | Tags : Druid, JDBC, LLAP, Hadoop, Hive, Kafka, Versions et évolutions

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de…

Par LEONARD Gauthier

25 juil. 2019

Installation de TensorFlow avec Docker

Catégories : Orchestration de conteneurs, Data Science, Formation | Tags : CPU, Linux, IA, Deep Learning, Docker, Jupyter, TensorFlow

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph : Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau…

Par SAUVAGE Pierre

5 août 2019

Auto-scaling de Druid avec Kubernetes

Catégories : Big Data, Business Intelligence, Orchestration de conteneurs | Tags : EC2, Druid, Helm, Métriques, OLAP, Exploitation, Orchestration de conteneurs, Cloud, CNCF, Analyse de données, Kubernetes, Prometheus, Python

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est…

Par SCHOUKROUN Leo

16 juil. 2019

Mise en production d'un modèle de Machine Learning

Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma

“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…

Par RYNKIEWICZ Oskar

30 sept. 2019

Stage Data Science & Data Engineer - ML en production et ingestion streaming

Catégories : Data Engineering, Data Science | Tags : DevOps, Flink, Hadoop, HBase, Kafka, Spark, Internship, Kubernetes, Python

Contexte L’évolution exponentielle des données a bouleversé l’industrie en redéfinissant les méthodes de stockages, de traitement et d’acheminement des données. Maitriser ces méthodes facilite…

Par WORMS David

26 nov. 2019

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

Catégories : Big Data, Data Engineering, DevOps & SRE | Tags : Apache Spark Streaming, DevOps, Enseignement et tutorial, Spark

L’indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application…

Par RYNKIEWICZ Oskar

31 mai 2019

Spark Streaming Partie 2 : traitement d'une pipeline Spark Structured Streaming dans Hadoop

Catégories : Data Engineering, Formation | Tags : Apache Spark Streaming, Spark, Python, Streaming

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l’orchestration de tâches. Ainsi, Spark Structured…

Par RYNKIEWICZ Oskar

28 mai 2019

Introduction à Ludwig et comment déployer un modèle de Deep Learning via Flask

Catégories : Data Science, Tech Radar | Tags : Enseignement et tutorial, Deep Learning, Machine Learning, Machine Learning, Python

Au cours de la dernière décennie, les modèles de Machine Learning et de Deep Learning se sont révélés très efficaces pour effectuer une grande variété de tâches tels que la détection de fraudes, la…

Par SOARES Robert Walid

2 mars 2020

Optimisation d'applicationS Spark dans Hadoop YARN

Catégories : Data Engineering, Formation | Tags : Performance, Hadoop, Spark, Python

Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…

Par DE BAECQUE Ferdinand

30 mars 2020

MLflow tutorial : une plateforme de Machine Learning (ML) Open Source

Catégories : Data Engineering, Data Science, Formation | Tags : AWS, Azure, Databricks, Deep Learning, Déploiement, Machine Learning, MLflow, MLOps, Python, Scikit-learn

Introduction et principes de MLflow Avec une puissance de calcul et un stockage de moins en moins chers et en même temps une collecte de données de plus en plus importante dans tous les domaines, de…

Par KAFERLE DEVISSCHERE Petra

23 mars 2020

Premier pas avec Apache Airflow sur AWS

Catégories : Big Data, Cloud computing, Orchestration de conteneurs | Tags : PySpark, Enseignement et tutorial, Airflow, Oozie, Spark, AWS, Docker, Python

Apache Airflow offre une solution répondant au défi croissant d’un paysage de plus en plus complexe d’outils de gestion de données, de scripts et de traitements d’analyse à gérer et coordonner. C’est…

Par COINTEPAS Aargan

5 mai 2020

Importer ses données dans Databricks : tables externes et Delta Lake

Catégories : Data Engineering, Data Science, Formation | Tags : Parquet, AWS, Amazon S3, Azure Data Lake Storage (ADLS), Databricks, Delta Lake, Python

Au cours d’un projet d’apprentissage automatique (Machine Learning, ML), nous devons garder une trace des données test que nous utilisons. Cela est important à des fins d’audit et pour évaluer la…

Par KAFERLE DEVISSCHERE Petra

21 mai 2020

Suivi d'expériences avec MLflow sur Databricks Community Edition

Catégories : Data Engineering, Data Science, Formation | Tags : Spark, Databricks, Deep Learning, Delta Lake, Machine Learning, MLflow, Notebook, Python, Scikit-learn

Introduction au Databricks Community Edition et MLflow Chaque jour, le nombre d’outils permettant aux Data Scientists de créer des modèles plus rapidement augmente. Par conséquent, la nécessité de…

Par KAFERLE DEVISSCHERE Petra

10 sept. 2020

TensorFlow Extended (TFX) : les composants et leurs fonctionnalités

Catégories : Big Data, Data Engineering, Data Science, Formation | Tags : Beam, Data Engineering, Pipeline, CI/CD, Data Science, Deep Learning, Déploiement, Machine Learning, MLOps, Open source, Python, TensorFlow

La mise en production des modèles de Machine Learning (ML) et de Deep Learning (DL) est une tâche difficile. Il est reconnu qu’elle est plus sujette à l’échec et plus longue que la modélisation…

Par KAFERLE DEVISSCHERE Petra

5 mars 2021

Apache Liminal, quand le MLOps rencontre le GitOps

Catégories : Big Data, Orchestration de conteneurs, Data Engineering, Data Science, Tech Radar | Tags : Data Engineering, CI/CD, Data Science, Deep Learning, Déploiement, Docker, GitOps, Kubernetes, Machine Learning, MLOps, Open source, Python, TensorFlow

Apache Liminal propose une solution clés en main permettant de déployer un pipeline de Machine Learning. C’est un projet open-source, qui centralise l’ensemble des étapes nécessaires à l’entrainement…

Par COINTEPAS Aargan

31 mars 2021

Python moderne, partie 1 : création du projet avec pyenv & poetry

Catégories : DevOps & SRE | Tags : Git, Python, Versions et évolutions, Tests unitaires

L’apprentissage d’un langage de programmation se structure souvent autour de points essentiels : pratiquer la syntaxe du langage, en maîtriser le style, comprendre certains principes et paradigmes…

Par BRAZA Faouzi

9 juin 2021

Python moderne, partie 2 : écrire les tests unitaires & respecter les conventions Git commit

Catégories : DevOps & SRE | Tags : Git, pandas, Python, Tests unitaires

L’application de bonnes pratiques en ingénierie logicielle apporte une plus-value certaine à vos projets. Par exemple l’écriture de tests unitaires vous permet de maintenir de larges projets en vous…

Par BRAZA Faouzi

24 juin 2021

Python moderne, partie 3 : établir une chaîne de CI et publier son package sur PiPy

Catégories : DevOps & SRE | Tags : GitHub, CI/CD, Git, Python, Versions et évolutions, Tests unitaires

Avant de partager un package Python avec la communauté ou au sein de son organization, il est recommandé d’accomplir un certain nombres de tâches. Elles ont vocation à péréniser le bon fonctionnement…

Par BRAZA Faouzi

28 juin 2021

H2O en pratique: retour d'expérience d'un Data Scientist

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

Les plates-formes d’apprentissage automatique (AutoML) gagnent en popularité et deviennent un outil puissant à disposition des data scientists. Il y a quelques mois, j’ai présenté H2O, une plate-forme…

Par KAFERLE DEVISSCHERE Petra

29 sept. 2021

H2O en pratique : un protocole combinant AutoML et les approches de modélisation traditionnelles

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python, XGBoost

H20 est livré avec de nombreuses fonctionnalités. La deuxième partie de la série H2O en pratique propose un protocole pour combiner la modélisation AutoML avec des approches de modélisation et d…

Par KAFERLE DEVISSCHERE Petra

12 nov. 2021

Développement accéléré de modèles avec H2O AutoML et Flow

Catégories : Data Science, Formation | Tags : Automation, Cloud, H2O, Machine Learning, MLOps, On-premises, Open source, Python

La construction de modèles de Machine Learning (ML) est un processus très consommateur de temps. De plus, il requière de bonne connaissance en statistique, en algorithme de ML ainsi qu’en…

Par KAFERLE DEVISSCHERE Petra

10 déc. 2020

Variables Ansible : choisir l'emplacement approprié

Catégories : DevOps & SRE | Tags : Infrastructure, Ansible, IaC, YAML

Définir des variables pour vos playbooks et rôles Ansible peut devenir un défi à mesure que votre projet se développe. Naviguer la documentation Ansible est source de questionnements et de confusion…

Par HERMAND Xavier

15 mars 2022

Intégration de Spark et Hadoop dans Jupyter

Catégories : Adaltas Summit 2021, Infrastructure, Tech Radar | Tags : Infrastructure, Spark, YARN, CDP, HDP, Jupyter, Notebook, TDP

Depuis quelques années, Jupyter notebook s’impose comme la principale solution de notebook dans l’univers Python. Historiquement, Jupyter est l’outil de prédilection des data scientists développant…

Par COINTEPAS Aargan

1 sept. 2022

Plongée dans tdp-lib, le SDK en charge de la gestion de clusters TDP

Catégories : Big Data, Infrastructure | Tags : Programmation, Ansible, Hadoop, Python, TDP

Tous les déploiements TDP sont automatisés. Ansible y joue un rôle central. Avec la complexité grandissante de notre base logicielle, un nouveau système était nécessaire afin de s’affranchir des…

Par BOUTRY Guillaume

24 janv. 2023

Lancement du site Internet de TDP

Catégories : Big Data | Tags : Programmation, Ansible, Hadoop, Python, TDP

Le nouveau site Internet de TDP (Trunk Data Platform) est en ligne. Nous vous invitons à le parcourir pour découvrir la platorme, rester informés, et cultiver le contact avec la communauté TDP. TDP…

Par WORMS David

3 oct. 2023