0. 0.

Description
Note : Ce cours est construit sur le cours Real World Vagrant - Build an Apache Spark Development Env ! - Toyin Akin, donc si vous n'avez pas d'environnement Spark déjà installé (dans une VM ou directement installé), vous pouvez suivre le cours ci-dessus.

Sparkâs shell fournit un moyen simple d'apprendre l'API, ainsi qu'un outil puissant d'analyse interactive des données, disponible dans Scala (qui s'exécute sur la VM Java et est donc un bon moyen d'utiliser les bibliothèques Java existantes), en commençant par exécuter ce qui suit n'importe où dans un terminal bash à l'intérieur de la machine virtuelle construite.

étincelle

Sparkâs primary abstraction est une collection distribuée d'éléments appelés RDD (Resilient Distributed Dataset). Les RDD peuvent être créés à partir de collections, Hadoop InputFormats (tels que les fichiers HDFS) ou en transformant d'autres RDDs.

Surveillance des étincelles et instrumentation

En créant des RDD, en effectuant des transformations et en exécutant des actions, vous travaillerez lourdement dans la vue de surveillance de l'interface utilisateur Web.

Chaque fois que SparkContext lance une interface utilisateur Web, par défaut sur le port 4040, qui affiche des informations utiles sur l'application :

Une liste des étapes et des tâches de l'ordonnanceurUn résumé des tailles de RDD et de l'utilisation de la mémoireInformations sur l'environnement Informations sur les exécuteurs en cours d'exécution.


Pourquoi Apache Spark ....

Apache Spark exécute des programmes jusqu'à 100x plus rapide que Hadoop MapReduce en mémoire, ou 10x plus rapide sur disque, avec un moteur d'exécution DAG avancé qui supporte les flux de données cycliques et le calcul en mémoire, Apache Spark offre plus de 80 opérateurs de haut niveau qui facilitent la création d'applications parallèles, et vous pouvez l'utiliser de manière interactive à partir des shells Scala, Python et R. Apache Spark est un moteur d'exécution DAG avancé qui prend en charge les flux de données cycliques et le calcul en mémoire.

Apache Spark dispose d'une pile de bibliothèques comprenant SQL et DataFrames, MLlib pour l'apprentissage machine, GraphX et Spark Streaming, que vous pouvez combiner de manière transparente dans la même application.

CLIQUEZ ICI pour accéder à ce cours