oskar

À propos de Oskar Rynkiewicz

Oskar est ingénieur polyvalent ayant des compétences en data science et en développement de logiciels. Il s'intéresse au Big Data et possède une aptitude au Machine Learning. Ces derniers temps, il se focalise sur l'exploitation du framework Spark, Hadoop et des systèmes distribués. Au cours des 2 dernières années, il a acquis d'une forte expérience en Python et ses bibliothèques scientifiques. Après avoir effectué son stage de 6 mois en tant qu'ingénieur de recherche dans une université australienne, il a la capacité à aborder des problèmes formulés avec les mathématiques. Il a obtenu son diplôme d'un ingénieur en informatique d'IMT Atlantique, avec une spécialisation en Système de traitement de l'information. Il a étudié l'informatique et la statistique, participé à de nombreux projets et collaboré avec des personnes de différentes nationalités et formations. Trois ans hors de son pays d'origine, la Pologne, lui ont permis d'acquérir une perspective et des compétences étendues en français et en anglais. C'est un généraliste aux compétences diverses, toujours passionné pour apprendre et développer ses capacités techniques.

Spark Streaming partie 4 : clustering avec Spark MLlib

Spark MLlib est une bibliothèque Spark d'Apache offrant des implémentations performantes de divers algorithmes d'apprentissage automatique supervisés et non supervisés. Ainsi, le framework Spark peut servir de plateforme pour développer des systèmes d’apprentissage automatique. Un modèle de Machine Learning (ML) développé avec Spark MLlib peut être associé à un pipeline de streaming crée avec Spark [...]

Spark Streaming partie 3 : DevOps, outils et tests pour les applications Spark

L'indisponibilité des services entraîne des pertes financières pour les entreprises. Les applications Spark Streaming ne sont pas exempts de pannes, comme tout autre logiciel. Une application streaming utilise des données du monde réel, l’incertitude est donc intrinsèque aux données arrivant dans l’application. Les tests sont essentiels pour détecter les défauts logiciels et les logiques défectueuses [...]

Par |2019-07-11T22:09:35+00:00June 19th, 2019|Big Data, Data Engineering|0 commentaire

Spark Streaming Partie 2 : traitement d’une pipeline Spark Structured Streaming dans Hadoop

Spark est conçu pour traiter des données streaming de manière fluide sur un cluster Hadoop multi-nœuds, utilisant HDFS pour le stockage et YARN pour l'orchestration de tâches. Ainsi, Spark Structured Streaming s'intègre bien dans une infrastructure Big Data. Une chaîne de traitement des données streaming sera présentée, cette fois dans un environnement distribué. Ceci est [...]

Par |2019-07-11T22:10:21+00:00May 28th, 2019|Big Data, Data Engineering|0 commentaire

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la même API que le moteur Spark SQL. L’utilisateur ne devrait donc pas rencontrer de difficulté quant à son utilisation. L’une [...]

Par |2019-07-11T22:11:03+00:00April 18th, 2019|Big Data, Data Engineering|1 Comment

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire