
大数据
文章平均质量分 68
从hadoop、hbase、hdfs、hive一步一步入门大数据,帮助大家入门大数据,进而加深对大数据技术的理解与认识。
码学弟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大数据】Hive的实战
Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HiveQL可以快速实现简单的MapReduce统计。Hive的本质就是将HiveQL语句转换为MapReduce任务后运行,非常适合做数据仓库的数据分析。转载 2024-08-21 08:55:45 · 362 阅读 · 0 评论 -
Kafka Tool 2 使用教程 SASL_PLAINTEXT
这里根据 你自己电脑系统 选择相对应版本。认证(用户名和密码认证)如果 kafka开启。转载 2023-11-01 09:02:14 · 315 阅读 · 0 评论 -
kafka消费者参数设置调优
该属性指定了消费者在读取一个没有偏移量或者偏移量无效(消费者长时间失效当前的偏移量已经过时并且被删除了)的分区的情况下,应该作何处理,默认值是latest,也就是从最新记录读取数据(消费者启动之后生成的记录),另一个值是earliest,意思是在偏移量无效的情况下,消费者从起始位置开始读取数据。第一次运行的时候才有作用,从第二次运行开始,这个参数就失效了。这个参数,只有在一个。转载 2023-10-31 17:20:18 · 1791 阅读 · 0 评论 -
Kafka 之 enable.auto.commit 的理解与使用
假设我们正在从一个 Topic 中消费消息,这个时候我们的这个消费者(客户端)宕机了。我们意识到这不是世界的末日,我们可以从宕机中恢复,重新开始消费。我们可以从我们上一次离开的地方重新接收消息,这非常灵巧。发生这样的事情是因为两个原因。一个是一个叫 “Offset” 的东西,另外一个是一些 Consumer 的默认的值。Offset 是一块元数据,一个整数,会针对每一个 partition 上接收到的消息而持续增长。每一个消息在一个 partition 上将会有唯一的一个Offset。转载 2023-10-31 17:16:55 · 2312 阅读 · 0 评论 -
Kafka auto.offset.reset值详解
昨天在写一个java消费数据的实例,明明设置auto.offset.reset为earliest,但还是不从头开始消费,官网给出的含义太抽象了。the offset to the earliest offset,自动将偏移量置为最早的。难道不是topic中各分区的开始?转载 2023-10-31 17:00:45 · 2906 阅读 · 0 评论 -
flink-standalone模式启动后Available Task Slots都显示0
首先排查应该从日志入手,打开jobmanager的日志和taskmanager日志看报什么错。放开flink的rpc通信权限,等心跳包发送到jobmanager则注册成功。如果是rpc通信失败的错误大概率是。页面显示正确的数量即部署成功!如果webUI无法外机访问把。这个设置放开权限即可。这个配置项引起的。转载 2023-10-27 16:09:25 · 2050 阅读 · 0 评论 -
Flink三种安装部署方式(HA)
Flink提供了多种部署方式,本文只介绍三种常用方式,local、standalone、yarn。转载 2023-10-27 15:49:33 · 975 阅读 · 0 评论 -
Flink on yarn 启动报错:缺jar包(Error: A JNI error has occurred, please check your installation and try ag)
若果不一致,可以去 /hadoop-XXX/lib/native (你的hadoop目录下)把里面的jar包(软连接)拷贝到flink的lib下。**注意:**我的flink版本是1.7.2,hadoop是2.7.2,scala是2.11,要注意你的版本是否和我一致!很久以前遇到的问题,突然回顾了,今天做下总结,供大家参考===============》未补充包和补充包前后对比图(图上)转载 2023-10-27 15:38:39 · 564 阅读 · 0 评论 -
elasticsearch 8.5.0 部署及springboot集成
es更新换代很快,目前已经升级到了最新的8.5.1版本,网上8.x相关的部署和应用文档还不全,在这里做个记录。转载 2023-10-13 17:45:26 · 553 阅读 · 0 评论 -
【ElasticSearch8】SpringBoot集成ElasticSearch8.x 基本应用(环境安装和CRUD操作)
最近在研究es的时候发现官方已经在7.15.0放弃对旧版本中的Java REST Client (High Level Rest Client (HLRC))的支持,从而替换为推荐使用的Java API Client 8.x。查看SpringBoot2.6.4的依赖,其中es的版本仅为7.15.2。</</</</因此这里我就按照官方文档使用了推荐的。</</</</鉴于es8.x的资料文档目前并不是很齐全,本文中如有错误,欢迎各位指出。本文将记录一些es8.x api下的简单CRUD操作。转载 2023-10-13 17:38:11 · 2921 阅读 · 3 评论 -
ElasticSearch-8.2.0-windows安装与配置
最近也是在写关于一个数据分析的项目,感觉只使用mysql和JavaList操作解决不了想要的数据问题,所以也是入手学习了elasticsearch,安装与配置过程中也是有一些需要注意的点,这里分享给大家。我们需要下载一共四个东西,这里由于ElasticSearch的ik分词器只有8.2.0版本,所以我们都以windows版,8.2.0版本为例。elasticsearch-head-master可视化工具下面我们先介绍elasticsearch的安装教程,之后的教程放到后面的文章中。转载 2023-10-13 17:21:16 · 627 阅读 · 0 评论 -
ElasticSearch插件es-head安装及使用:es集群设置了密码时的访问方法
【代码】ElasticSearch插件es-head安装及使用:es集群设置了密码时的访问方法。转载 2023-10-13 17:12:55 · 822 阅读 · 0 评论 -
elasticsearch8.0以上版本修改内置用户密码
修改密码需要在es启动,并cd到es的bin。转载 2023-10-13 17:06:33 · 998 阅读 · 0 评论 -
【ElasticSearch入门】Windows下ElasticSearch、Head安装及分布式集群搭建
启动随从节点服务,进入es_slave1/bin,使用命令 start /b elasticsearch.bat 后台启动slave1。4. 配置slave节点,分别进入es_slave1/config/elaelasticsearch.yml,es_slave2/config/elaelasticsearch.yml文件,添加配置,保存。2. 再次解压两份elasticsearch-7.12.0文件,重命名为es_slave1,es_slave2,作为2个随从节点。重启elasticsearch服务。转载 2023-10-13 17:01:15 · 554 阅读 · 0 评论 -
ElasticSearch-Head操作Elasticsearch进行数据查询
特指查询操作,json数据指查询password属性为123456的数据。,第三行输入以下json数据。test为索引名称,在第二行文本框中输入。在第二行文本框中输入。在第二行文本框中输入。在第二行文本框中输入。转载 2023-10-13 16:57:53 · 1050 阅读 · 0 评论 -
【Phoenix教程】Phoenix 简介及使用方式
Phoenix 简介及使用方式一、Phoenix 简介二、Phoenix 特点三、Phoenix 架构四、和Hbase中数据的关系映射五、Phoenix使用场景5.1 场景一:新建表5.2 场景二:映射Hbase中已有表五、Phoenix使用语法六、使用JDBC连接Phoenix 最早是 saleforce 的一个开源项目,后来成为Apache的顶级项目。Phoenix构建在 HBase 之上的开源 SQL 层。能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据。转载 2023-09-20 15:33:40 · 2712 阅读 · 0 评论 -
【Phoenix教程】SpringBoot-MybatisPlus-HBase-Phoenix 整合
解压。将 phone目录下的 phoenix-server--2.4-5.1.2.jar 拷贝到 hbase\lib 目录下。修改 hbase-site.xml。转载 2023-09-20 15:18:39 · 546 阅读 · 0 评论 -
Phoenix5.0 安装部署
现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。phoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟、事务性、可使用sql、提供jdbc接口的特点。而且phoenix还提供了hbase二级索引的解决方案,丰富了hbase查询的多样性,继承了hbase海量数据快速随机查询的特点。但是在生产环境中,不可以用在OLTP中。转载 2023-09-15 14:22:36 · 711 阅读 · 0 评论 -
Spring Boot 集成 Hive
按照实际情况配置 MySQL 和 Hive 的地址、端口、账号、密码。其他依赖视个人情况添加。转载 2023-09-15 09:42:58 · 1523 阅读 · 0 评论 -
Hive初始化报错:org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver
【代码】Hive初始化报错:org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver。转载 2023-09-14 16:55:12 · 1040 阅读 · 0 评论 -
hive集群tez引擎执行任务卡住
向集群分发capacity-scheduler.将以下value调成1。转载 2023-09-14 16:49:35 · 510 阅读 · 0 评论 -
(最新版本)hive4.0.0 + hadoop3.3.4 集群安装(无坑版)-大数据学习系列(一)
云原生大数据组件研究(Hive+Hadoop)前言网上的找的文档大多残缺不靠谱,所以我整理了一份安装最新版本的hive4…0.0+hadoop3.3.4的学习环境,可以提供大家安装一个完整的hive+hadoop的环境供学习。由于在公司担任大数据的培训工作后续还会更新一些基础的文章,希望能帮助到大家。**一、**安装Hadoop3.3.4前置:集群规划机器信息Hostnamek8s-masterk8s-node1k8s-node2外网IP内网IPNameNodeYNNSecondaryNameN转载 2023-09-14 16:45:53 · 2168 阅读 · 1 评论 -
Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
1)在Hadoop安装目录下找到mapred-site.xml文件($HADOOP_HOME/etc/hadoop/mapred-site.xml),添加以下配置。在所有的Master和Slave节点进行如上设置,设置完毕后重启Hadoop集群,重新运行刚才的MapReduce程序,成功运行。2)如果上述方法不行,采用下面方式。转载 2023-09-12 17:53:42 · 877 阅读 · 0 评论 -
Spark 集群搭建(完整)
如果要在 Yarn 中运行 Spark 程序, 首先会和 RM 交互, 开启 ApplicationMaster, 其中运行了 Driver, Driver创建基础环境后, 会由 RM 提供对应的容器, 运行 Executor, Executor会反向向 Driver 反向注册自己, 并申请 Tasks 执行。对于 Spark Standalone 集群来说, 当 Worker 调度出现问题的时候, 会自动的弹性容错, 将出错的 Task 调度到其它 Worker 执行。转载 2023-09-12 11:03:15 · 5799 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
在启动hive后无论是,show databases;还是查看数据:select * from test01;都是这个错误,说是无法实例化,搜的大部分都是说初始化MySQL,输入以下命令就能运行。转载 2023-09-08 14:49:19 · 785 阅读 · 0 评论 -
HIVE的安装与部署
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。总之,hive正是实现了这个,hive是要类SQL语句(HiveQL)来实现对hadoop下的数据管理。hive属于数据仓库的范畴,那么,数据库和数据仓库到底有什么区别了,这里简单说明一下:数据库侧重于OLTP(在线事务处理),数据仓库侧重OLAP(在线分析处理);转载 2023-09-08 14:44:08 · 234 阅读 · 0 评论 -
启动和退出hive
(exit会影响之前的使用,需要下一句kill掉。(在hive的bin目录下执行)(1)quit退出hive,推荐。查找hive进程,kill掉。(2)exit退出hive。转载 2023-09-08 12:54:26 · 1899 阅读 · 0 评论 -
解决java.sql.SQLException: null, message from server: “Host ‘XXX‘ is not allowed to connect异常
我是迁移项目后,项目访问数据库时报的这个异常。这个异常是数据库只允许localhost或127.0.0.1访问,不允许远程访问。我用的本机IP都不行。flush privileges是为了将权限更新操作刷新到内存中,而不用下次启动时生效。解决办法:修改访问权限即可。打开cmd,进入mysql。转载 2023-09-08 12:50:42 · 557 阅读 · 0 评论 -
hive初始化数据库失败Unknown version specified for initialization :2.3.0
之前上网搜索解决办法都没能管用,能搜到的方法基本上都用过了,就是除了一个降低版本的方法,当时觉得太麻烦了,就没试。后来就想到看一下别人安装成功的文件,才发现我原来hive目录下比别人少了一个文件夹。当成这个文件,后来向别人拷了这个文件装在自己电脑上,在初始化数据库,就成功了。出现了一个错误,搞了两天,才终于解决,如果大家情况和一样就去试试吧!转载 2023-09-08 12:48:46 · 77 阅读 · 0 评论 -
hive报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf
时要记得把原来的也加上,而不是覆盖,否则会造成找不到路径。转载 2023-09-08 11:09:18 · 1243 阅读 · 0 评论 -
Hive集群(3台虚拟机)搭建和交互方式基于Hadoop
我们此处是选择三台虚拟机作为我们hive的安装机器,hive压缩包奉上 hive压缩包奉上,提取码:rr9f文章目录安装derby版hive直接使用(不建议):使用mysql共享hive元数据(建议)mysql 的安装hive的安装使用方式安装derby版hive直接使用(不建议):解压hivecd /export/soft tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/直接启动 bin/转载 2023-09-07 17:48:12 · 430 阅读 · 0 评论 -
SpringBoot集成Hadoop——对HDFS的文件操作
文章目录 一、对HDFS操作设计以下几个主要的类二、依赖配置三、HDFS文件操作接口开发四、一些测试结果截图一、对HDFS操作设计以下几个主要的类:Configuration:封装了客户端或者服务器的配置信息;FileSystem:此类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作通过FileSystem的静态方法get获得该对象,例:FileSystem hdfs = FileSystem.get(conf);FSDataInputStream:这是HDFS中的输入转载 2023-09-07 10:59:15 · 1787 阅读 · 0 评论 -
【Java大数据开发】 Springboot整合hadoop
4. 在测试类中执行创建。文件夹,上传,下载文件。转载 2023-09-06 17:42:20 · 1289 阅读 · 0 评论 -
java访问HDFS指定HADOOP_USER_NAME仍然不生效解决方法
特别是HDFS没有开启ACLS的情况下,如果未正确指定用户,HDFS会使用当前用户进行访问,如果当前用户是administrator、root等用户可能对HDFS没有访问权限,此时我们能够想到的有以下几种解决方案。原因,HDFS在初始化配置的时候会创建查找用户,如果某个先注入的bean中创建了没有指定用户名的Configuration则后面的不会覆盖整个设置,所以造成后面设置的用户名不生效的问题。1.将hdfs目录权限改为当前用户;2.使用hdfs上面的用户启动程序;转载 2023-09-06 17:35:38 · 551 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: org/apache/hadoop/hdfs/DistributedFileSystem
问题就在于provided我们将其注释掉。转载 2023-09-01 17:38:53 · 178 阅读 · 0 评论 -
No FileSystem for scheme: hdfs
从代码中可以看出最终需要调用getFileSystemClass(String scheme, Configuration conf)方法,在此方法中需要读取core-default.xml文件中定义的“fs.” + scheme + “.impl”(在本例中应读取fs.hdfs.impl)的配置信息,但此配置信息在默认的配置文件中没有配置(hadoop-common-x.jar中的core-default.xml文件中).转载 2023-09-01 17:22:11 · 2222 阅读 · 0 评论 -
大数据:SpringBoot整合Hbase(高可用)
在公司项目中使用到hdoop存储大批量数据,在java中要使用操作hdoop,关于hdoop和hbase的安装我就不作说明了。转载 2023-09-01 17:17:17 · 1265 阅读 · 0 评论 -
Hadoop集群搭建(超级详细)
( 提取码:6k1i )、( 提取码:07p6 )转载 2023-09-01 17:09:18 · 220 阅读 · 0 评论 -
Hbase集群的详细安装配置教程
简介:本篇博客是介绍怎么安装配置集群的,主要内容包括Hbase的相关网址,Hbase集群安装部署详细教程,Hbase集群高可用配置等。转载 2023-09-01 16:55:57 · 285 阅读 · 0 评论 -
HBase错误:PleaseHoldException: Master is initializing解决记录
本文也进一步验证了,hadoop 3.2.1 加上 hbase 2.2.5 是可以工作的。为这个问题搞了好久,包括换版本。但是自己确信早先是工作的啊。清除/hbase文件系统,清除zk,然后才会好。其根源在于,有的server没有online。先说版本,jdk版本只要是1.8即可。后来彻底的初始化,才好了。这样子纯粹做了一遍之后,确实好了。转载 2023-09-01 16:38:20 · 830 阅读 · 0 评论