pierre

À propos de Pierre Sauvage

Passionné d'informatique depuis sa plus tendre enfance, et pratiquant la programmation en loisir depuis l'adolescence, Pierre rejoint une école d'ingénieur avec spécialisation en Système d'Information, option Big Data. Il a commencé sa carrière en laboratoire de recherche sur IoT, où il a pu étudier les systèmes distribués, tant sur un plan théorique que pratique. Pierre a ensuite rejoint Adaltas. Il est aujourd’hui un architecte solution Big Data & Hadoop et un Data Engineer avec plus de 4 ans d’expérience sur Hadoop et 5 ans d’expérience avec les systèmes distribués. Il a conçu, développé et opéré des workflows d’ingestion de données et des services temps réels tout en accompagnant ses clients dans la définition de leurs besoins et dans leur mise en application. Il est polyvalent sur les plateformes Big Data, de la planification, la conception et l’architecture du déploiement de clusters, l’administration, la maintenance ainsi que le prototypage et l’industrialisation d’application en collaboration avec les utilisateurs métiers, les analystes, les data scientists, les ingénieurs et les équipes d’exploitation. Il est aussi doté d’une forte expérience en tant que formateur (il donne régulièrement des cours et formations autour du Big Data pour diverses écoles ingénieur et master) facilitant le transfert de connaissance et la formation des équipes.

Intégration de Druid et Hive

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP Hive est un environnement permettant l'exécution de requêtes SQL sur des données stockées dans HDFS. Hive peut configurer différents exécuteurs [...]

Par |2019-06-18T09:09:24+00:00June 13th, 2019|Big Data, Blog, Tech Radar|0 commentaire

Network Namespace sans Docker

Imaginons le cas suivant: Je suis connecté à plusieurs réseaux (wlan0, eth0, usb0). Je veux choisir le réseau que je vais utiliser au lancement de mon application. Mon application ne permet pas de choisir une interface quand plusieurs sont disponibles. Je pourrais utiliser Docker, ce dernier isole le réseau, cependant Docker isole aussi plein d'autres [...]

Par |2019-02-07T10:14:09+00:00October 23rd, 2017|Blog, Hack|0 commentaire

Administration Hadoop multitenant avancée – protection de Zookeeper

Contexte Zookeeper est un composant critique au fonctionnement d’Hadoop en haute disponibilité. Ce dernier se protège en limitant le nombre de connexions max (maxConns=400). Cependant Zookeeper ne se protège pas intelligemment, il refuse les connexions une fois le seuil atteint. Dans ce cas les composants cœur (HBase RegionServers/HDFS ZKFC) ne pourront plus initialiser une connexion [...]

Par |2019-02-06T17:21:09+00:00July 5th, 2017|Blog|0 commentaire

Apache Apex avec Apache SAMOA

Le Machine learning Orienté batch Supervisé - plus courant Training et Scoring Construction préliminaire du modèle Training: Construction du modèle Holdout: tuning du paramétrage Test: précision Online Machine Learning Streaming Modèle évolutif Adaptation dynamique aux nouveaux patterns de la donnée Changement à travers le temps (concept drift) Mise à jour du modèle Utilisation généralisée des [...]

Par |2019-06-18T22:53:45+00:00July 17th, 2016|Data Science, Évènements|0 commentaire

Namespace réseau sans Docker

Imaginons le cas suivant: Je suis connecté à plusieurs réseaux (wlan0, eth0, usb0). Je veux choisir le réseau que je vais utiliser au lancement de mon application. Mon application ne permet pas de choisir une interface quand plusieurs sont disponibles. Je pourrais utiliser Docker, ce dernier isole le réseau. Cependant Docker isole aussi plein d'autres [...]

Par |2019-06-21T21:46:53+00:00July 6th, 2016|Blog, Hack|0 commentaire