César Berezowski est un architecte solution BigData & Hadoop et un Data Engineer avec 4 ans d’expérience sur Hadoop et les systèmes distribués. Il a conçu, développé et opéré des workflows d’ingestion de données et des services temps réels tout en accompagnant ses clients dans la définition de leurs besoins et dans leur mise en application.
Il est polyvalent sur les plateformes BigData, de la planification, la conception et l’architecture du déploiement de clusters, l’administration, la maintenance ainsi que le prototypage et l’industrialisation d’applications en collaboration avec les utilisateurs métiers, les analystes, les data scientists, les ingénieurs et les équipes d’exploitation. Il aime découvrir de nouvelles choses et expérimenter de nouvelles technologies au-delà de son travail.
Il est aussi doté d’une expérience en tant que formateur facilitant le transfert de connaissance et la formation des équipes.
Articles publiés
Insérer des lignes dans une table BigQuery avec des colonnes complexes
Catégories : Cloud computing, Data Engineering | Tags : GCP, BigQuery, Schéma, SQL
Le service BigQuery de Google Cloud est une solution data warehouse conçue pour traiter d’énormes volumes de données avec un certain nombre de fonctionnalités disponibles. Parmi toutes celles-ci, nous…
22 nov. 2019
Activer Aladdin eToken dans Firefox sur Archlinux
Catégories : Hack | Tags : 2FA, Arch Linux, Cybersécurité, Firefox, sécurité, Carte à puce
Si comme moi vous êtes sur Archlinux et que vous disposez d’un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin…
12 juil. 2019
Apache Flink : passé, présent et futur
Catégories : Data Engineering | Tags : Flink, Pipeline, Streaming, Kubernetes, Machine Learning, SQL
Apache Flink est une petite pépite méritant beaucoup plus d’attention. Plongeons nous dans son passé, son état actuel et le futur vers lequel il se dirige avec les keytones et présentations de la…
5 nov. 2018
Quelles nouveautés pour Apache Spark 2.3 ?
Catégories : Data Engineering, DataWorks Summit 2018 | Tags : Arrow, ORC, Spark, PySpark, Docker, Streaming, Performance, Spark MLlib, Data Science, Kubernetes, pandas
Plongeons nous dans les nouveautés proposées par la nouvelle distribution 2.3 d’Apache Spark. Cette article est composé de recherches et d’informations issues des présentations suivantes du DataWorks…
23 mai 2018
Executer du Python dans un workflow Oozie
Catégories : Data Engineering | Tags : Oozie, Elasticsearch, REST, Python
Les workflows Oozie permettent d’utiliser plusieurs actions pour exécuter du code, cependant il peut être délicat d’exécuter du Python, nous allons voir comment faire. J’ai récemment implémenté un…
7 mars 2018
De Dockerfile à Ansible Containers
Catégories : Orchestration de conteneurs, DevOps & SRE, Open Source Summit Europe 2017 | Tags : Ansible, Docker, Docker Compose, Shell, YAML
Cette présentation était une introduction au format Dockerfile et à l’outil Ansible Containers puis une comparaison des deux produits. Elle fut réalisée par Tomas Tomecek, membre de l’équipe…
25 oct. 2017
Cloudera Sessions Paris 2017
Catégories : Big Data, Évènements | Tags : EC2, Cloudera, Altus, CDSW, SDX, PaaS, CDH, Data Science, Azure
Adaltas était présent le 5 octobre aux Cloudera Sessions, la journée de présentation des nouveaux produits Cloudera. Voici un compte rendu de ce que nous avons pu voir. Note : les informations ont été…
16 oct. 2017
Exposition de brokers Kafka sur deux interfaces réseaux
Catégories : Infrastructure | Tags : Kafka, Cloudera, Cybersécurité, Réseau, VLAN, CDH
Une installation Big Data nécessite généralement d’avoir plusieurs interfaces réseaux, nous allons voir comment paramétrer Kafka pour écouter sur plus d’une. La procédure décrite dans cette article a…
22 juil. 2017
Changer la couleur de la topbar d'Ambari
Catégories : Big Data, Hack | Tags : Ambari, Front-end
J’étais récemment chez un client qui a plusieurs environnements (Prod, Integration, Recette, …) sur HDP avec chacun son instance Ambari. L’une des questions soulevée par le client est la suivante…
9 juil. 2017
MiNiFi : Scalabilité de la donnée & de l'intérêt de commencer petit
Catégories : Big Data, DevOps & SRE, Infrastructure | Tags : MiNiFi, NiFi, Cloudera, C++, HDP, HDF, IOT
Aldrin nous a rapidement présenté Apache NiFi puis expliqué d’où est venu MiNiFi : un agent NiFi à déployer sur un embarqué afin d’amener la donnée à pipeline d’un cluster NiFi (ex : IoT). Ce poste…
8 juil. 2017
Apache Apex : l'analytique Big Data nouvelle génération
Catégories : Data Science, Évènements, Tech Radar | Tags : Apex, Flink, Kafka, Storm, Tools, Hadoop, Data Science, Machine Learning
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Apex par Thomas Weise de DataTorrent, l’entreprise derrière Apex. Introduction Apache Apex est un moteur de traitements…
17 juil. 2016
Maitrisez vos workflows avec Apache Airflow
Catégories : Big Data, Tech Radar | Tags : Airflow, DevOps, Cloud, Python
Ci-dessous une compilation de mes notes prises lors de la présentation d’Apache Airflow par Christian Trebing de chez BlueYonder. Introduction Use case : comment traiter des données arrivant…
17 juil. 2016