Date et heure de dépôt : 17/06/2015 18:41:52
Formation négociée : 13112
Notre hotline est à votre disposition pour vous accompagner au 33 (0)1 55 58 04 27.
CLOUDERA DEVELOPER TRAINING FOR APACHE HADOOP
Durée : 4 jours
Résumé
Cette formation officielle Cloudera Developer Training for Apache Hadoop permet d'acquérir les concepts clés et l’expertise pour créer des applications de traitement de données solides avec Apache Hadoop.
De la mise en œuvre du Workflow au travail avec les APIs via l’écriture du code MapReduce et de l’exécution des jointures, la formation Cloudera est la meilleure préparation pour aborder les cas concrets rencontrés par les développeurs Hadoop.
Cette formation prépare en partie à la certification CCDH (Cloudera Certified Developer for Apache Hadoop).
Pré-requis
Une expérience en programmation est souhaitable (Java de préférence).
Certification
Cette formation prépare en partie à la certification CCDH : Cloudera Certified Developer for Apache.
Objectifs
MapReduce et HDFS. Comment écrire le code mapReduce
Meilleures pratiques pour le développement et le débogage de Hadoop et la mise en œuvre des Workflows et des algorithmes courants
Comment utiliser efficacement les autres projets tels que Hive, Pig, Sqoop, Flume, Oozie, Mahout et les autres projets Hadoop
Configuration matérielle optimale et besoins réseaux pour l’intégration d’un cluster Hadoop dans le data center
Ecrire et exécuter les jointures pour lier les sets de données dans MapReduce
Problèmes à prendre en compte dans le développement de travaux Mapreduce
Sujets avancés Hadoop nécessaires pour l'analyse des données en temps réel
Informations complémentaires
Support de cours remis aux participants
Contenu
Pourquoi choisir Hadoop ?
Problèmes avec les systèmes traditionnels à grande échelle
Introduction à Hadoop
Problèmes liés à Hadoop
Hadoop : Concepts de base et HDFS
Projet Hadoop
Composants Hadoop
HDFS (Hadoop Distributed File System)
Introduction à MapReduce
Vue d’ensemble de MapReduce
Exemple: Wordcount
«Mappers»
«Reducers»
Clusters Hadoop et Ecosystème Hadoop
Vue d’ensemble du cluster Hadoop
Jobs Hadoop et tâches
Autres composants de l’écosystème Hadoop
Ecriture d'un programme MapReduce dans java
Concepts de base API MapReduce
Ecrire des drivers, des «mappers» et des «reducers» dans Java
Accélérer le développement Hadoop avec Eclipse
Différences entre les nouveaux et les anciens APIs MapReduce
Ecriture d'un programme MapReduce dans Streaming
Ecrire des «Mappers» et des «Reducers» avec le streaming API
Tests des programmes MapReduce
Test
Frameworks de tests JUnit et MRUnit
Ecrire des tests avec MRUnit
Activer les tests
Approfondir les APIs Hadoop
Utiliser la classe ToolRunner
Installer et «démonter» les «Mappers» et les «Reducers»
Diminution de la quantité de données intermédiaires avec les multiplexeurs
Accès à la programmation HDFS
Utiliser le cache distribué
Utiliser la bibliothèque de «Mappers», des «Reducers» et des «Partitioners» des APIs Hadoop
Sujets pratiques de développement et techniques
Stratégies de débugging du code MapRecuce
Tester le code MapReduce localement avec LocalJobRunner
Récupérer les informations avec les compteurs
Réutiliser des objets
Travaux de Map-only MapReduce
Partitionneurs et «Reducers»
Comment les partitionneurs et les «Reducers» travaillent ensemble
Déterminer le nombre optimal de «Reducers» pour un job
Ecrire les partitionneurs clients
Données en entrée et en sortie
Créer des mises en œuvre personnalisées «writable» et «writable-comparable»
Sauvegarder des données binaires avec SequenceFile et les fichiers de données Avro
Quand savoir qu’il faut utiliser la compression des fichiers?
Mettre en œuvre les formats d’entrée et les formats de sortie personnalisés
Algorithmes courants MapReduce
Trier et rechercher un ensemble de données important
Indexer les données
Fréquence des termes
Fréquence de documents inverses
Co-occurrence Word
Améliorer le tri secondaire
Jointure de de données dans les jobs MapReduce
Ecrire une une jointure «Map-Side»
Réduire les jointures
Intégration de Hadoop dans le Workflow de l’entreprise
Intégrer Hadoop dans une entreprise existante
Charger des données d’un RDBMS dans HDFS avec Sqoop
Gérer les données en temps rééel avec Flume
Accéder à HDFS à partir des systèmes légaux avec FuseDFS et HttpFS
Introduction à Hive, Imapala et Pig
Pourquoi Hive, Impala et Pig?
Vue d’ensemble de Hive
Vue d’ensemble de Impala
Vue d’ensemble de Pig
Choisir entre Hive, Impala et Pig
Introduction à Oozie
Introduction à Oozie
Créer des Workflows Oozie
Cette formation s'adresse aux développeurs et ingénieurs ayant une expérience en programmation. Des connaissances en Java sont fortement recommandées et sont nécessaires pour compléter les exercices pratiques.
APACHE HADOOP