Hive原理及使用笔记(精华版)资源-CSDN下载

需积分: 5 103 浏览量 2021-07-31 21:03:58 上传评论收藏 2.34MB PDF 举报

Hive是一个由Facebook开源的大数据处理工具，主要用来解决海量结构化日志的数据统计问题。其本质是一个构建在Hadoop之上的数据仓库工具，可以通过HiveQL（一种类SQL查询语言）进行数据存储、查询和分析。Hive的设计目的是使得熟悉SQL的用户可以轻松进行大数据的处理，而不需要深入了解MapReduce编程模型。 Hive的核心原理是将HiveQL查询语句转换为一个或多个MapReduce作业来执行。Hive处理的数据存储在Hadoop的分布式文件系统（HDFS）中，分析数据时底层实现依赖于MapReduce，而执行程序则在YARN（Yet Another Resource Negotiator）上运行。Hive在元数据存储方面，通常默认使用自带的derby数据库，但出于性能和可靠性的考虑，推荐使用MySQL数据库来存储元数据（Metastore）。Metastore存储了表名、数据库、表的拥有者、列/分区字段等元数据信息，这些信息对于Hive的查询处理至关重要。 Hive的主要优点包括： 1. 操作接口采用类SQL语法，提供快速开发的能力，简单易上手，降低了MapReduce的使用门槛。 2. 避免了直接编写MapReduce程序，减少了开发人员的学习成本。 3. Hive适合进行大数据分析，尤其在对实时性要求不高的数据分析场合。 4. 支持用户自定义函数（UDF），满足特定业务需求。然而，Hive也存在一些缺点： 1. HQL（Hive查询语言）的表达能力有限，不擅长处理迭代算法和数据挖掘。 2. Hive的执行效率相对较低，因为其生成的MapReduce作业通常不够智能化，且Hive调优困难，优化的粒度较粗。在架构上，Hive主要由以下组件构成： 1. 用户接口，包括CLI（Hive Shell）、JDBC/ODBC以及Web UI等。 2. Metastore，负责存储元数据信息。 3. Hadoop，Hive的底层存储和计算框架。 4. Driver，它是Hive的核心组件，由解析器（SQLParser）、编译器（PhysicalPlan）、优化器（QueryOptimizer）和执行器（Execution）四个部分组成。解析器将HiveQL转换成抽象语法树（AST），编译器将AST转换为逻辑执行计划，优化器对逻辑执行计划进行优化，最后执行器将逻辑执行计划转换为可执行的物理计划，并运行在Hadoop上。 Hive运行机制是通过用户交互接口接收SQL指令，通过Driver结合Metastore将这些指令翻译成MapReduce作业，并提交给Hadoop执行。执行完成后，结果返回到用户交互接口。 Hive与传统数据库存在显著差异，尽管它们都拥有类似的查询语言。Hive是为数据仓库而设计，而数据库则通常用于在线事务处理（OLTP）。Hive适合用于离线的批量数据分析，而数据库更适合实时处理和事务性操作。 Hive中的表分为内部表和外部表。内部表的数据存储在HDFS上的指定目录中，当删除内部表时，其元数据和数据都会被删除。而外部表的数据存储在HDFS上的某个指定目录中，只是Hive管理这些数据的元数据，删除外部表时，只会删除表的元数据，不会删除数据本身。 Hive在处理大数据集时是一个非常有用的工具，尤其在数据仓库领域。通过Hive，开发者可以使用类似SQL的语法来处理大规模数据，而不必深入底层的MapReduce编程模型，大大简化了大数据分析的过程。

资源推荐

资源评论