Loading...
Accueil2018-11-05T13:37:49+00:00

Big Data

Data Engineering

Chaîne d’alimentation, préparation de la  donnée, Data Lake, gouvernance des données

Data Science

Écriture d’algorithmes, Spark, Machine Learning, exploration, statistiques, Python, R

Data Streaming

Bus de messages, indicateur clef de performance (ICP), détection de seuil, requêtes sur fenêtre de temps, comportements intelligents

DataViz

Visualisation, Notebooks

Dernières Publications

Rook via Ceph n’approvisionne pas mes Persistent Volume Claims!

By |September 9th, 2019|Categories: DevOps|Tags: , , , , , |

L'installation de Ceph dans un cluster Kubernetes peut être automatisé par l'utilisation de Rook. Actuellement en stage chez Adaltas, j'étais en charge de participer à la configuration d'un cluster Kubernetes (k8s). Pour éviter de casser [...]

Utilisateurs et autorisations RBAC dans Kubernetes

By |August 7th, 2019|Categories: Conteneur, Data Gouvernance|Tags: , , , , |

Le déploiement d'un cluster Kubernetes n'est que le début de votre parcours et vous devez maintenant l'exploiter. Pour sécuriser son accès, les identités des utilisateurs doivent être déclarées avec des authentifications et des autorisations correctement [...]

Installation de TensorFlow avec Docker

By |August 5th, 2019|Categories: Conteneur, Data Science, Formation|Tags: , |

TensorFlow est un logiciel open source de Google pour le calcul numérique utilisant une représentation en graph: Vertex (nodes) représentent des opérations mathématiques Edges représentent un tableau de données à N dimensions (tensors) TensorFlow s'exécute [...]

Apache Hive 3, nouvelles fonctionnalités et conseils et astuces

By |July 25th, 2019|Categories: Big Data, DataWorks Summit 2019|Tags: , , , , , , , |

Disponible depuis juillet 2018 avec HDP3 (Hortonworks Data Platform 3), Apache Hive 3 apporte de nombreuses fonctionnalités intéressantes à l’entrepôt de données. Malheureusement, comme beaucoup de versions majeures de logiciels “FOSS”, elle contient quelques écueils [...]

Auto-scaling de Druid avec Kubernetes

By |July 16th, 2019|Categories: Big Data, Conteneur, DataWorks Summit 2019|Tags: , , , , , , , , , |

Apache Druid est un système de stockage de données open-source destiné à l’analytics qui peut profiter des capacités d’auto-scaling de Kubernetes de par son architecture distribuée. Cet article est inspiré de la présentation “Apache Druid [...]

Activer Aladdin eToken dans Firefox sur Archlinux

By |July 12th, 2019|Categories: Hack|Tags: , , , , , |

Si comme moi vous êtes sur Archlinux et que vous disposez d'un eToken Aladdin pour vous authentifier, voyons comment nous pouvons le monter dans Firefox pour l’authentification Web. Un eToken Aladdin est un dispositif cryptographique [...]

Spark Streaming partie 4 : clustering avec Spark MLlib

By |July 11th, 2019|Categories: Big Data, Data Engineering, Machine learning|Tags: , , , , , |

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un [...]

Notes du Google Cloud Summit à Paris

By |June 26th, 2019|Categories: Évènements|Tags: , , , , , |

Le 18 Juin avait lieu l'édition 2019 du salon annuel de Google à Paris. L'édition Parisienne de cette année a été la plus grande jusqu'à maintenant, ce qui reflète l'engagement de Google à se positionner [...]

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

By |June 19th, 2019|Categories: Big Data, Data Engineering|Tags: , , , , |

L'indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application streaming utilise des données du monde réel, l’incertitude est [...]