
Hadoop
文章平均质量分 73
本专栏聚焦于Hadoop 大数据处理平台及生态体系,旨在为大数据开发者、运维工程师及数据领域从业者提供从基础原理到实战应用、从集群部署到性能调优的全流程技术内容。通过剖析 Hadoop 核心组件(HDFS、MapReduce、YARN)的底层机制、结合典型业务场景的实战案例,帮助读者掌握分布式存储与
shangjg3
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop从入门到精通(1)—— Hadoop 3.3.2 离线安装
2.6 配置etc/hadoop/mapred-site.xml。2.3 配置etc/hadoop/hadoop-env.sh。2.4 配置etc/hadoop/core-site.xml。2.5 配置etc/hadoop/hdfs-site.xml。2.7 配置etc/hadoop/yarn-site.xml。安装目录/data/cmpt/hadoop-3.3.2。1.1 安装jdk,配置jdk环境变量。2.2 配置hadoop环境变量。2.8格式化namenode。1.4 设置hosts。原创 2023-08-02 09:44:56 · 452 阅读 · 1 评论 -
Hadoop从入门到精通(2)—— Hadoop分布式文件系统-HDFS
为了避免这个问题,可以配置 NameNode 使其支持 `FsImage` 和 `EditLog` 多副本同步,这样 `FsImage` 或 `EditLog` 的任何改变都会引起每个副本 `FsImage` 和 `EditLog` 的同步更新。如果复制因子大于 3,则随机确定第 4 个和之后副本的放置位置,同时保持每个机架的副本数量低于上限,上限值通常为 `(复制系数 - 1)/机架数量 + 2`,需要注意的是不允许同一个 `dataNode` 上具有同一个块的多个副本。原创 2023-10-16 21:44:37 · 589 阅读 · 0 评论 -
Hadoop从入门到精通(3)—— HDFS Java API
FsPermission(FsAction u, FsAction g, FsAction o)` 的三个参数分别对应:创建者权限,同组其他用户权限,其他用户权限,权限值定义在 `FsAction` 枚举类中。块输出信息有三个值,分别是文件的起始偏移量 (offset),文件大小 (length),块所在的主机名 (hosts)。这里我上传的文件只有 57M(小于 128M),且程序中设置了副本系数为 1,所有只有一个块信息。和上面输出类似,只是多了文本大小,副本系数,块大小信息。2.6 查看文件内容。原创 2023-10-17 10:01:08 · 212 阅读 · 0 评论 -
Hadoop从入门到精通(4)—— Hadoop集群资源管理器-YARN
1.YARN简介Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。原创 2023-10-17 09:43:25 · 244 阅读 · 0 评论 -
Hadoop从入门到精通(5)—— Hadoop分布式计算框架-MapReduce
4. shuffling:由于 `Mapping` 操作可能是在不同的机器上并行处理的,所以需要通过 `shuffling` 将相同 `key` 值的数据分发到同一个节点上去合并,这样才能统计出最终的结果,此时得到 `K2` 为每一个单词,`List(V2)` 为可迭代集合,`V2` 就是 Mapping 中的 V2;`combiner` 是 `map` 运算后的可选操作,它实际上是一个本地化的 `reduce` 操作,它主要是在 `map` 计算出中间文件后做一个简单的合并重复 `key` 值的操作。原创 2023-10-17 09:32:22 · 683 阅读 · 0 评论 -
Hadoop从入门到精通(6)—— MapReduce案例-电影网站数据统计分析
本文适合大数据初学者学习MapReduce统计分析业务问题的步骤和基础的MapReduce编程方法,初步掌握Hadoop对计算任务的管理。本文末尾有全部数据集和完整代码连接。1.准备工作按照好Hadoop之后要检查一下datanode运行情况,Hadoop3.x的默认端口是98702.上传数据文件到HDFS准备数据集将数据上传到HDFS3.编写统计分析代码3.1 Windows系统配置Hadoop开发环境在windows上开发和调试Hadoop代码需要。原创 2024-04-19 20:08:15 · 1831 阅读 · 0 评论 -
Hive从入门到精通(1)—— Hive 3.1.3 离线安装
将驱动放到/data/olap/hive-3.1.3/lib 目录。原创 2023-08-02 19:05:02 · 337 阅读 · 0 评论 -
Hive从入门到精通(2)—— Hive sql 基础操作
【代码】Hive sql 基础操作。原创 2023-08-03 11:38:41 · 151 阅读 · 0 评论 -
Hive从入门到精通(3)—— Hive 3.1.3客户端打印大量日志问题解决
在hive的conf目录下新建。原创 2023-08-04 17:47:42 · 792 阅读 · 0 评论 -
Hive从入门到精通(4)—— Hive分析英国房产价格数据
由于数据中有部分字段包含逗号‘,’,所以数据要预处理一下。该数据集包含有关英格兰和威尔士自1995年。4GB,在ClickHouse中需要约3。5.3伦敦房产每年的平均价格。5.2 统计每年的平均价格。超过2800王条记录,未压缩形式的数据集大小。5.1 统计数据总量。原创 2023-09-01 16:26:07 · 494 阅读 · 0 评论 -
Hive从入门到精通(5)—— Hive客户端和Beeline命令行的基本使用
由于 HiveServer2 是 Hive 开发维护的重点 (Hive0.15 后就不再支持 hiveserver),所以 Hive CLI 已经不推荐使用了,官方更加推荐使用 Beeline。方式二为在启动命令行 (Hive CLI / Beeline) 的时候使用 `--hiveconf` 指定配置,这种方式指定的配置作用于整个 Session。在不进入交互式命令行的情况下,可以使用 `hive -e ` 执行 SQL 命令。在 Hive CLI 中支持的参数,Beeline 都支持,常用的参数如下。原创 2023-10-26 17:22:55 · 1469 阅读 · 0 评论 -
Hive从入门到精通(6)—— Hive简介及核心概念
Hive 进行的是统一的元数据管理,就是说你在 Hive 上创建了一张表,然后在 presto/impala/sparksql 中都是可以直接使用的,它们会从 Metastore 中获取统一的元数据信息,同样的你在 presto/impala/sparksql 中创建一张表,在 Hive 中也可以直接使用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;Hive 会在 HDFS 为每个数据库上创建一个目录,数据库中的表是该目录的子目录,表中的数据会以文件的形式存储在对应的表目录下。原创 2023-10-26 17:53:59 · 684 阅读 · 0 评论 -
Hive从入门到精通(7)—— Hive分区表和分桶表
1.分区表1.1 概念Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 `where` 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。>这里说明一下分区表并 Hive 独有的概念,实际上这个概念非常常见。原创 2023-10-27 22:38:15 · 543 阅读 · 0 评论 -
Hive从入门到精通(8)—— Hive 视图和索引
视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。在指定列上建立索引,会产生一张索引表(表结构如下),里面的字段包括:索引列的值、该值对应的 HDFS 文件路径、该值在文件中的偏移量。删除视图时,如果被删除的视图被其他视图所引用,这时候程序不会发出警告,但是引用该视图其他视图已经失效,需要进行重建或者删除。被更改的视图必须存在,且视图不能具有分区,如果视图具有分区,则修改失败。原创 2023-10-27 22:47:34 · 762 阅读 · 0 评论 -
Hive从入门到精通(9)—— Hive常用DDL操作
LIKE 子句允许使用正则表达式进行过滤,但是 SHOW 语句当中的 LIKE 子句只支持 `*`(通配符)和 `|`(条件或)两个符号。例如 `employees`,`emp *`,`emp * | * ees`,所有这些都将匹配名为 `employees` 的数据库。临时表仅对当前 session 可见,临时表的数据将存储在用户的暂存目录中,并在会话结束后删除。内部表:不仅会删除表的元数据,同时会删除 HDFS 上的数据;外部表:只会删除表的元数据,不会删除 HDFS 上的数据;1. 查看数据库列表。原创 2023-10-28 22:54:12 · 755 阅读 · 0 评论 -
Hive从入门到精通(10)—— Hive 常用DML操作
1.加载文件数据到表1.1 语法LOCAL 关键字代表从本地文件系统加载文件,省略则代表从 HDFS 上加载文件:从本地文件系统加载文件时, `filepath` 可以是绝对路径也可以是相对路径 (建议使用绝对路径);从 HDFS 加载文件时候,`filepath` 为文件完整的 URL 地址:如 `hdfs://namenode:port/user/hive/project/ data1`原创 2023-10-28 23:09:38 · 1438 阅读 · 0 评论 -
Hive从入门到精通(11)—— Hive数据查询详解
本专栏案例数据集链接: https://download.csdn.net/download/shangjg03/88478038为了演示查询操作,这里需要预先创建三张表,并加载测试数据。1.2 部门表1.3 分区表这里需要额外创建一张分区表,主要是为了演示分区查询:2.单表查询2.1 SELECT2.2 WHERE2.3 DISTINCTHive 支持使用 DISTINCT 关键字去重。2.4 分区查询分区查询 (Partition B原创 2023-10-29 11:09:07 · 773 阅读 · 0 评论 -
Hive从入门到精通(12)—— Hive SQL的编译过程
1.MapReduce实现基本SQL操作的原理详细讲解SQL编译为MapReduce之前,我们先来看看MapReduce框架实现SQL基本操作的原理1.1。原创 2023-10-29 11:32:53 · 910 阅读 · 0 评论