Loading...
Accueil2018-11-05T13:37:49+00:00

Big Data

Data Engineering

Chaîne d’alimentation, préparation de la  donnée, Data Lake, gouvernance des données

Data Science

Écriture d’algorithmes, Spark, Machine Learning, exploration, statistiques, Python, R

Data Streaming

Bus de messages, indicateur clef de performance (ICP), détection de seuil, requêtes sur fenêtre de temps, comportements intelligents

DataViz

Visualisation, Notebooks

Dernières Publications

Auto-scaling de Druid avec Kubernetes

By |July 16th, 2019|Categories: Big Data, Conteneur, DataWorks Summit 2019|Tags: , , , , , , , , , |

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est inspiré de la présentation “Apache Druid [...]

Activer Aladdin eToken dans Firefox sur Archlinux

By |July 12th, 2019|Categories: Hack|Tags: , , , , , |

Si comme moi vous êtes sur Archlinux et que vous disposez d'un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin est un dispositif cryptographique [...]

Spark Streaming partie 4 : clustering avec Spark MLlib

By |July 11th, 2019|Categories: Big Data, Data Engineering, Machine learning|Tags: , , , , , |

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un [...]

Notes du Google Cloud Summit à Paris

By |June 26th, 2019|Categories: Évènements|Tags: , , , , , |

Le 18 Juin avait lieu l'édition 2019 du salon annuel de Google à Paris. L'édition Parisienne de cette année a été la plus grande jusqu'à maintenant, ce qui reflète l'engagement de Google à se positionner [...]

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

By |June 19th, 2019|Categories: Big Data, Data Engineering|Tags: , , , , |

L'indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application streaming utilise des données du monde réel, l’incertitude est [...]

Intégration de Druid et Hive

By |June 13th, 2019|Categories: Big Data, Blog, Tech Radar|Tags: , , , , |

Nous allons dans cet article traiter de l'intégration entre Hive Interactive (LLAP) et Druid. Cet article est un complément à l'article Ultra-fast OLAP Analytics with Apache Hive and Druid Présentation des Outils Hive et Hive LLAP [...]

Spark Streaming Partie 2 : traitement d’une pipeline Spark Structured Streaming dans Hadoop

By |May 28th, 2019|Categories: Big Data, Data Engineering|Tags: , , , |

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l'orchestration de tâches. Ainsi, Spark Structured Streaming s'intègre bien dans une [...]

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

By |April 18th, 2019|Categories: Big Data, Data Engineering|Tags: , , , , |

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la [...]