Déposer une
demande de formation
Si aucune formation ne correspond à votre recherche, mettez en concurrence 2150 Centres de formation.

Votre demande sera transmise de manière anonyme et vous pourrez sélectionner parmi les propositions commerciales, la plus intéressante !

Notre hotline est à votre disposition pour vous accompagner au 33 (0)1 55 58 04 27.

Information sur la formation

Référence interne de la formation : CLOUDERA DEVELOPER TRAINING FOR APACHE HADOOP

CLOUDERA DEVELOPER TRAINING FOR APACHE HADOOP

Durée : 4 jours

Résumé

Cette formation officielle Cloudera Developer Training for Apache Hadoop permet d'acquérir les concepts clés et l’expertise pour créer des applications de traitement de données solides avec Apache Hadoop.

De la mise en œuvre du Workflow au travail avec les APIs via l’écriture du code MapReduce et de l’exécution des jointures, la formation Cloudera est la meilleure préparation pour aborder les cas concrets rencontrés par les développeurs Hadoop.

Cette formation prépare en partie à la certification CCDH (Cloudera Certified Developer for Apache Hadoop).

Pré-requis

Une expérience en programmation est souhaitable (Java de préférence).

Certification

Cette formation prépare en partie à la certification CCDH : Cloudera Certified Developer for Apache.

Objectifs

MapReduce et HDFS. Comment écrire le code mapReduce
Meilleures pratiques pour le développement et le débogage de Hadoop et la mise en œuvre des Workflows et des algorithmes courants
Comment utiliser efficacement les autres projets tels que Hive, Pig, Sqoop, Flume, Oozie, Mahout et les autres projets Hadoop
Configuration matérielle optimale et besoins réseaux pour l’intégration d’un cluster Hadoop dans le data center
Ecrire et exécuter les jointures pour lier les sets de données dans MapReduce
Problèmes à prendre en compte dans le développement de travaux Mapreduce
Sujets avancés Hadoop nécessaires pour l'analyse des données en temps réel

Informations complémentaires

Support de cours remis aux participants

Contenu

Pourquoi choisir Hadoop ?

Problèmes avec les systèmes traditionnels à grande échelle
Introduction à Hadoop
Problèmes liés à Hadoop
Hadoop : Concepts de base et HDFS

Projet Hadoop
Composants Hadoop
HDFS (Hadoop Distributed File System)
Introduction à MapReduce

Vue d’ensemble de MapReduce
Exemple: Wordcount
«Mappers»
«Reducers»
Clusters Hadoop et Ecosystème Hadoop

Vue d’ensemble du cluster Hadoop
Jobs Hadoop et tâches
Autres composants de l’écosystème Hadoop
Ecriture d'un programme MapReduce dans java

Concepts de base API MapReduce
Ecrire des drivers, des «mappers» et des «reducers» dans Java
Accélérer le développement Hadoop avec Eclipse
Différences entre les nouveaux et les anciens APIs MapReduce
Ecriture d'un programme MapReduce dans Streaming

Ecrire des «Mappers» et des «Reducers» avec le streaming API
Tests des programmes MapReduce

Test
Frameworks de tests JUnit et MRUnit
Ecrire des tests avec MRUnit
Activer les tests
Approfondir les APIs Hadoop

Utiliser la classe ToolRunner
Installer et «démonter» les «Mappers» et les «Reducers»
Diminution de la quantité de données intermédiaires avec les multiplexeurs
Accès à la programmation HDFS
Utiliser le cache distribué
Utiliser la bibliothèque de «Mappers», des «Reducers» et des «Partitioners» des APIs Hadoop
Sujets pratiques de développement et techniques

Stratégies de débugging du code MapRecuce
Tester le code MapReduce localement avec LocalJobRunner
Récupérer les informations avec les compteurs
Réutiliser des objets
Travaux de Map-only MapReduce
Partitionneurs et «Reducers»

Comment les partitionneurs et les «Reducers» travaillent ensemble
Déterminer le nombre optimal de «Reducers» pour un job
Ecrire les partitionneurs clients
Données en entrée et en sortie

Créer des mises en œuvre personnalisées «writable» et «writable-comparable»
Sauvegarder des données binaires avec SequenceFile et les fichiers de données Avro
Quand savoir qu’il faut utiliser la compression des fichiers?
Mettre en œuvre les formats d’entrée et les formats de sortie personnalisés
Algorithmes courants MapReduce

Trier et rechercher un ensemble de données important
Indexer les données
Fréquence des termes
Fréquence de documents inverses
Co-occurrence Word
Améliorer le tri secondaire
Jointure de de données dans les jobs MapReduce

Ecrire une une jointure «Map-Side»
Réduire les jointures
Intégration de Hadoop dans le Workflow de l’entreprise

Intégrer Hadoop dans une entreprise existante
Charger des données d’un RDBMS dans HDFS avec Sqoop
Gérer les données en temps rééel avec Flume
Accéder à HDFS à partir des systèmes légaux avec FuseDFS et HttpFS
Introduction à Hive, Imapala et Pig

Pourquoi Hive, Impala et Pig?
Vue d’ensemble de Hive
Vue d’ensemble de Impala
Vue d’ensemble de Pig
Choisir entre Hive, Impala et Pig
Introduction à Oozie

Introduction à Oozie
Créer des Workflows Oozie

Clients visés :

Cette formation s'adresse aux développeurs et ingénieurs ayant une expérience en programmation. Des connaissances en Java sont fortement recommandées et sont nécessaires pour compléter les exercices pratiques.

Mots-clés en rapport avec la formation :

APACHE HADOOP

Societe

Si aucune formation ne correspond à votre recherche, mettez en concurrence 2150 Centres de formation.

Votre demande sera transmise de manière anonyme et vous pourrez sélectionner parmi les propositions commerciales, la plus intéressante !