Ce document présente Apache Hadoop, un cadre open source permettant de gérer de grandes quantités de données à faible coût grâce à son système de fichiers distribué HDFS et son modèle de traitement MapReduce. Il décrit l'architecture de Hadoop, sa capacité à fonctionner sur un cluster de machines, ainsi que l'évolution de ses versions, notamment la séparation des gestionnaires de ressources et des tâches dans Hadoop v2 avec l'introduction de YARN. L'ensemble permet une gestion efficace et tolérante aux pannes des données massives dans un environnement distribué.