Un entraînement pratique en Hadoop, MapReduce et l'art de penser "parallèle"parallèle" ;

Description
Enseigné par une équipe de 4 personnes dont 2 Stanford, ex-Googler et 2 ex-Flipkart Lead Analysts, cette équipe a des décennies d'expérience pratique dans le travail avec Java et avec des milliards de lignes de données.

Ce cours est un zoom avant, zoom arrière, entraînement pratique impliquant Hadoop, MapReduce et l'art de penser en parallèle.

Laissezâs analyser cela.

Zoom-in, Zoom-Out :  Ce cours est à la fois large et profond, il couvre les composants individuels de Hadoop dans les moindres détails, et vous donne aussi une image de plus haut niveau de la façon dont ils interagissent les uns avec les autres.

Hadoop, MapReduce : Ce cours vous permettra d'apprendre très tôt comment configurer votre propre cluster en utilisant à la fois les VMs et le Cloud. toutes les fonctionnalités principales de MapReduce sont couvertes - y compris des sujets avancés comme le tri total et le tri secondaire.

L'art de penser en parallèle : MapReduce a complètement changé la façon dont les gens pensaient au traitement des grosses données... La décomposition de tout problème en unités parallèles est un art... Les exemples de ce cours vous formeront à penser en parallèle..............................................................................................................................................

Ce qui est couvert :

Beaucoup de trucs cool....

Utilisation de MapReduce to


Recommander des amis dans un site de réseautage social : Générer les 10 meilleures recommandations d'amis à l'aide d'un algorithme de filtrage collaboratif.
Construire un index inversé pour les moteurs de recherche : Utilisez MapReduce pour paralléliser l'énorme tâche de construire un index inversé pour un moteur de recherche.
Générer des Bigrams à partir de texte : Générer des bigrams et calculer leur distribution de fréquence dans un corpus de texte.

Construisez votre cluster Hadoop :                                                                                                                                                                                                                                                                                                                                                                                           de


Installer Hadoop en modes autonome, pseudo-distribué et entièrement distribué.
Mettre en place un cluster hadoop en utilisant les VM Linux.
Configurez un cluster Hadoop sur AWS avec Cloudera Manager.
Comprendre les HDFS, MapReduce et YARN et leur interaction.

Personnalisez votre MapReduce Jobs : ... :


Enchaînement de plusieurs travaux de RM ensemble
Écrivez votre propre partitionneur personnalisé
Total Trier : Trier globalement une grande quantité de données en échantillonnant les fichiers d'entrée.
Tri secondaire
Tests unitaires avec MR Unit
Intégrer avec Python à l'aide de l'API Hadoop Streaming.

... et bien sûr tous les éléments de base : ... ... ... et bien sûr tous les éléments de base : ... ... ... et bien sûr... .. .. ... ...................................................................................................................................... :
MapReduce : Mapper, Réducteur, Trier/Fusion, Partitionnement, Shuffle et Sort.
HDFS & YARN : Namenode, Datanode, Resource manager, Node manager, Node manager, l'anatomie d'une application MapReduce, YARN Scheduling, Configurer HDFS et YARN pour optimiser les performances de votre cluster.

CLIQUEZ ICI pour accéder à ce cours