自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 Flink state缓存测试

Flink state 在实际生产中的应用一、FlinkState的概念1、state分类2、FsStateBackend 和 RocksDBStateBackend 相关配置1)一、FlinkState的概念1、state分类以下对目前广泛使用的三类 state backend 做了区分,其中绿色表示所创建的operator/keyed state backend 是 on-heap 的,黄色则表示是 off-heap 的。一般而言,在生产中,我们会在 FsStateBackend 和 Rock

2021-11-26 10:52:21 3427 3

原创 LLM大模型下的高效检索方案:LightRAG技术论文与代码结合解读

LLM大模型、LightRAG、论文解读、代码分析、SEO优化,增强检索,图数据库、实体关系抽取

2025-04-23 22:30:22 891

原创 clickhouse冷热数据分层配置

clikhouse冷热数据分层方案文章目录clikhouse冷热数据分层方案简介一、配置更改二、实际测试简介 TTL策略可以结合业务特点,将数据生命周期与冷热数据存储关联起来。实现既保存历史数据,又能够降低存储成本的效果。比如将最近90天的高频查询数据放置在热数据存储中,而90天之前的低频查询数据自动转移到冷数据存储中一、配置更改在 config.xml 中加入如下配置注意:hot采用default后,会自动匹配路径,21.X版本后支持hdfs存储方式。storage_policy在建表

2022-01-04 16:55:59 2662 1

原创 Clickhouse副本分片、分布式表

Clickhouse副本分片以及分布式表机制一、clickhouse实现二分片双备份案例如下1、配置metrika.xml2、数据测试一、clickhouse实现二分片双备份案例如下1、配置metrika.xml<!--配置分片副本以及zookeeper--><remote_servers> <!-- 2分片2备份,test_ck_cluster 为唯一ID--> <test_ck_cluster> <shard&g

2021-12-24 14:58:26 971

原创 docker构建hadoop镜像并运行

单机版hadoop使用docker构建及运行一、环境:组件信息组件 版本CentOS 7.9.2009java 1.8.0_161hadoop 3.1.3docker 20.10.8服务配置机器 服务node1 datanodenode1 namenodenode1 resourcemanagernode1 nodemanagernode1 secondrynamenode二、准备镜像使用最新版本的centOS.docker pull centos:lat

2021-09-08 11:39:10 2205

原创 Clickhouse集成离线hive、实时kafka数据实操

Clickhouse集成hive一、官网介绍:1、clickhouse集成hive官网介绍:2、clickhouse支持的数据类型:二、创建对应hive的clickhouse表1、利用clickhouse的HDFS Engine建表语句二、建表需要注意的地方(详细解析)1、schema必须要与hive表中一致2、格式要求3、路径解析4、hdfs路径三、我担心hive数据更新后不能同步过来,继续在做测试中。。。一、官网介绍:1、clickhouse集成hive官网介绍:https://clickhous

2021-08-20 10:29:29 2727 7

原创 OLAP组件选型

OLAP组件选型一、OLAP简介1、olap准则2、OLAP场景的关键特征3、与oltp比较二、开源引擎1、Hive2、spark SQL3、presto4、kylin5、impala6、druid7、Greeplum8、clickhouse三、选型要求1、实时性要求较高,对接kafka,实时查询数据2、可以接入hive数据3、单表查询数据较多,较少的join,在数仓中完成宽表构建一、OLAP简介说起 OLAP 要追溯到 1993 年。1、olap准则准则1 OLAP模型必须提供多维概念视图准则

2021-08-19 11:10:54 1179

原创 flink中间结果写入hdfs并构建hive分区表

flink中间结果写HDFS项目中遇到一个应用场景需要将flink计算的中间结果写入到hdfs中提示:正常的kafka数据还是用flume同步至hdfs吧,用flink写hdfs会有很多问题文章目录flink中间结果写HDFS一、pandas是什么?二、使用步骤1.代码修改1)、写入本地文件中2)、写入至hdfs中2.flink写hdfs目前存在的问题总结一、pandas是什么?流数据写入到hdfs中是将数据写入到分桶(bucket)中。默认使用基于系统时间(yyyy-MM-dd–HH)的分

2021-08-05 20:59:56 3981 2

原创 基于dolphinscheduler的增量数据同步至hive分区表

基于dolphinscheduler的增量数据同步至hive分区表前言一、创建新的hive分区表1.外部分区表sql准备2.创建工作流3、将sql语句写入工作流中4、保存选择租户,上线运行5、任务实例中查看运行状态,状态:成功 即创建成功,可以通过hive的beeline客户端执行如下命令查看表创建详情二、hive分区表创建好后需要增加分区,使用shell命令创建分区1、添加每天的定时增加分区任务2、配置shell命令,使用hivevar的方式提交参数3、配置参数:1)增加自定义变量2)点击保存 并增加.

2021-07-27 10:20:35 5825

原创 内网CentOS7安装docker

CentOS 7.9安装docker环境:公司内网centOS7.9内核:3.10.0 docker官方要求内核版本>3.101、网络配置:因为需要搭建集群环境,在三台电脑上配置网络访问代理ip:代理ipport:代理端口export http_proxy="{ip}:{port}"export https_proxy="{ip}:{port}"2、yum代理配置也需要单独配置vi /etc/yum.conf,添加内容:proxy=http://{ip}:{po

2021-07-14 11:42:36 698

原创 dolphinscheduler搭建以及搭建使用中遇到的问题

dolphinscheduler搭建以及遇到的坑们搭建过程主要是参考官网上的搭建步骤https://dolphinscheduler.apache.org/zh-cn/docs/1.3.6/user_doc/cluster-deployment.html1、基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or MySQL (5.7系列):两者任选其一即可,如 MySQL 则需要 JDBC Driver 5.1.47+本文主要用的mysql为例JDK (1.8+)

2021-07-13 19:48:58 11313 9

原创 解决启动hive时连接mysql的SSL认证问题以及元数据管理配置

报错:According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn’t set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to ‘false’. You

2021-07-13 10:37:18 750

原创 kettle添加clickhouse连接

kettle8 增加 clickhouse 数据源插件kettle : 8.2…0-342clickhouse : 19.15.1.4因为kettle官方不支持clickhouse的驱动,所以加粗样式**需要自己自定义插件并生成jar包。*官方教程如下:https://help.pentaho.com/Documentation/8.1/Developer_Center/PDI/Extend/020论坛中还有好多教程大家可以自己搜下主要步骤如下:*1、将打包好的jdbc jar包放入如下路径

2021-07-07 16:45:20 1675 7

原创 连续登录hiveSQL实现

窗口和分析函数的应用需求:统计连续N天登陆人数tablelogindate userid2019-08-28 00:03:00 tom2019-08-28 10:00:00 frank2019-08-28 11:00:00 jack2019-08-29 00:03:00 tom2019-08-29 10:00:00 frank2019-08-30 10:00:00 tom2019-08-30 12:00:00 jack统计连续登陆2天的人数:tom、frank第一种方案:

2021-04-26 14:43:45 509

原创 hive中的常用函数及其优化

一、Hive中的特殊数据类型1、array类型创建数据vim /export/datas/array.txtzhangsan beijing,shanghai,tianjinwangwu shanghai,chengdu,wuhan,haerbin创建表create database db_complex;use db_complex;create table if not exists complex_array(name string,work_locations arr

2021-04-26 14:21:33 595

原创 hive介绍及其原理

一、Hive的介绍及其设计原理1、Hive的设计目标及诞生设计目标:使用SQL来操作HadoopFaceBook:问题,Hadoop需要给公司的数据分析师来使用数据分析师不会JavaJava工程不会数据分析让Java工程师基于Hadoop的接口做二次开发,让这个产品使用SQL来操作,底层全部由Hadoop来实现工具:将SQL变成Hadoop的程序Hive:一个基于Hadoop之上的中间件存储:HDFSinsert:写入数据,最终存储在hdfs上计算:YARNsel

2021-04-26 14:13:59 663

原创 Yarn简介以及资源调度

yarn资源调度1. yarn的介绍:yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMast

2021-04-26 11:20:02 2090

原创 Hadoop介绍以及安装使用入门

Hadoop1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页 抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题—— 如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HD

2021-04-26 11:06:46 176

原创 Hadoop五大过程举例(以单词统计为例)

Hadoop五大过程举例(以单词统计为例)一、Input输入:File1:Hadoop flink HadoopHbase spark flinkFile2:hue hive hive spark sparkhadoop spark spark hbase1、对文件进行分片(文件大小默认128M),以下假设分片为两片2、转换为key value形式Split1:Key value0 Hadoop Flink Hadoop20 Hbase Spark FlinkSplit2:

2021-04-26 09:34:54 226

kettleclickhousejdbc.rar

kettle中添加clickhouseJDBC

2021-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除