PySpark

Spark Streaming partie 1: construction de data pipelines avec Spark Structured Streaming

Spark Structured Streaming est un nouveau moteur de traitement stream introduit avec Apache Spark 2. Il est construit sur le moteur Spark SQL et utilise le modèle Spark DataFrame. Le moteur Structured Streaming partage la même API que le moteur Spark SQL. L’utilisateur ne devrait donc pas rencontrer de difficulté quant à son utilisation. L’une [...]

Par |2019-07-11T22:11:03+00:00April 18th, 2019|Big Data, Data Engineering|1 Comment

Publier Spark SQL Dataframe et RDD avec Spark Thrift Server

La nature distribuée et en-mémoire du moteur de traitement Spark en fait un excellant candidat pour exposer des données à des clients qui souhaitent des latences faibles. Les dashboards, les notebooks, les studios de BI, les outils de rapport basés sur les indicateurs de performance clés (KPIs) parlent souvent les protocoles JDBC/ODBC et sont de [...]

Par |2019-03-25T14:54:08+00:00March 25th, 2019|Big Data, Data Engineering|0 commentaire