Este documento discute problemas de processamento de grandes volumes de dados em meteorologia e linguística de corpus e propõe soluções usando Apache Hadoop. Ele descreve desafios com bases de dados meteorológicas atualizadas frequentemente e operações comuns em linguística de corpus. Também analisa porque soluções anteriores como Celery + NFS e Python + Mongo não funcionaram bem e propõe que o Apache Hadoop é uma boa alternativa por causa de sua tolerância a falhas, interface amigável e boa documentação.