- 博客(19)
- 资源 (1)
- 收藏
- 关注

原创 Flink state缓存测试
Flink state 在实际生产中的应用一、FlinkState的概念1、state分类2、FsStateBackend 和 RocksDBStateBackend 相关配置1)一、FlinkState的概念1、state分类以下对目前广泛使用的三类 state backend 做了区分,其中绿色表示所创建的operator/keyed state backend 是 on-heap 的,黄色则表示是 off-heap 的。一般而言,在生产中,我们会在 FsStateBackend 和 Rock
2021-11-26 10:52:21
3427
3
原创 LLM大模型下的高效检索方案:LightRAG技术论文与代码结合解读
LLM大模型、LightRAG、论文解读、代码分析、SEO优化,增强检索,图数据库、实体关系抽取
2025-04-23 22:30:22
891
原创 clickhouse冷热数据分层配置
clikhouse冷热数据分层方案文章目录clikhouse冷热数据分层方案简介一、配置更改二、实际测试简介 TTL策略可以结合业务特点,将数据生命周期与冷热数据存储关联起来。实现既保存历史数据,又能够降低存储成本的效果。比如将最近90天的高频查询数据放置在热数据存储中,而90天之前的低频查询数据自动转移到冷数据存储中一、配置更改在 config.xml 中加入如下配置注意:hot采用default后,会自动匹配路径,21.X版本后支持hdfs存储方式。storage_policy在建表
2022-01-04 16:55:59
2662
1
原创 Clickhouse副本分片、分布式表
Clickhouse副本分片以及分布式表机制一、clickhouse实现二分片双备份案例如下1、配置metrika.xml2、数据测试一、clickhouse实现二分片双备份案例如下1、配置metrika.xml<!--配置分片副本以及zookeeper--><remote_servers> <!-- 2分片2备份,test_ck_cluster 为唯一ID--> <test_ck_cluster> <shard&g
2021-12-24 14:58:26
971
原创 docker构建hadoop镜像并运行
单机版hadoop使用docker构建及运行一、环境:组件信息组件 版本CentOS 7.9.2009java 1.8.0_161hadoop 3.1.3docker 20.10.8服务配置机器 服务node1 datanodenode1 namenodenode1 resourcemanagernode1 nodemanagernode1 secondrynamenode二、准备镜像使用最新版本的centOS.docker pull centos:lat
2021-09-08 11:39:10
2205
原创 Clickhouse集成离线hive、实时kafka数据实操
Clickhouse集成hive一、官网介绍:1、clickhouse集成hive官网介绍:2、clickhouse支持的数据类型:二、创建对应hive的clickhouse表1、利用clickhouse的HDFS Engine建表语句二、建表需要注意的地方(详细解析)1、schema必须要与hive表中一致2、格式要求3、路径解析4、hdfs路径三、我担心hive数据更新后不能同步过来,继续在做测试中。。。一、官网介绍:1、clickhouse集成hive官网介绍:https://clickhous
2021-08-20 10:29:29
2727
7
原创 OLAP组件选型
OLAP组件选型一、OLAP简介1、olap准则2、OLAP场景的关键特征3、与oltp比较二、开源引擎1、Hive2、spark SQL3、presto4、kylin5、impala6、druid7、Greeplum8、clickhouse三、选型要求1、实时性要求较高,对接kafka,实时查询数据2、可以接入hive数据3、单表查询数据较多,较少的join,在数仓中完成宽表构建一、OLAP简介说起 OLAP 要追溯到 1993 年。1、olap准则准则1 OLAP模型必须提供多维概念视图准则
2021-08-19 11:10:54
1179
原创 flink中间结果写入hdfs并构建hive分区表
flink中间结果写HDFS项目中遇到一个应用场景需要将flink计算的中间结果写入到hdfs中提示:正常的kafka数据还是用flume同步至hdfs吧,用flink写hdfs会有很多问题文章目录flink中间结果写HDFS一、pandas是什么?二、使用步骤1.代码修改1)、写入本地文件中2)、写入至hdfs中2.flink写hdfs目前存在的问题总结一、pandas是什么?流数据写入到hdfs中是将数据写入到分桶(bucket)中。默认使用基于系统时间(yyyy-MM-dd–HH)的分
2021-08-05 20:59:56
3981
2
原创 基于dolphinscheduler的增量数据同步至hive分区表
基于dolphinscheduler的增量数据同步至hive分区表前言一、创建新的hive分区表1.外部分区表sql准备2.创建工作流3、将sql语句写入工作流中4、保存选择租户,上线运行5、任务实例中查看运行状态,状态:成功 即创建成功,可以通过hive的beeline客户端执行如下命令查看表创建详情二、hive分区表创建好后需要增加分区,使用shell命令创建分区1、添加每天的定时增加分区任务2、配置shell命令,使用hivevar的方式提交参数3、配置参数:1)增加自定义变量2)点击保存 并增加.
2021-07-27 10:20:35
5825
原创 内网CentOS7安装docker
CentOS 7.9安装docker环境:公司内网centOS7.9内核:3.10.0 docker官方要求内核版本>3.101、网络配置:因为需要搭建集群环境,在三台电脑上配置网络访问代理ip:代理ipport:代理端口export http_proxy="{ip}:{port}"export https_proxy="{ip}:{port}"2、yum代理配置也需要单独配置vi /etc/yum.conf,添加内容:proxy=http://{ip}:{po
2021-07-14 11:42:36
698
原创 dolphinscheduler搭建以及搭建使用中遇到的问题
dolphinscheduler搭建以及遇到的坑们搭建过程主要是参考官网上的搭建步骤https://dolphinscheduler.apache.org/zh-cn/docs/1.3.6/user_doc/cluster-deployment.html1、基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or MySQL (5.7系列):两者任选其一即可,如 MySQL 则需要 JDBC Driver 5.1.47+本文主要用的mysql为例JDK (1.8+)
2021-07-13 19:48:58
11313
9
原创 解决启动hive时连接mysql的SSL认证问题以及元数据管理配置
报错:According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn’t set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to ‘false’. You
2021-07-13 10:37:18
750
原创 kettle添加clickhouse连接
kettle8 增加 clickhouse 数据源插件kettle : 8.2…0-342clickhouse : 19.15.1.4因为kettle官方不支持clickhouse的驱动,所以加粗样式**需要自己自定义插件并生成jar包。*官方教程如下:https://help.pentaho.com/Documentation/8.1/Developer_Center/PDI/Extend/020论坛中还有好多教程大家可以自己搜下主要步骤如下:*1、将打包好的jdbc jar包放入如下路径
2021-07-07 16:45:20
1675
7
原创 连续登录hiveSQL实现
窗口和分析函数的应用需求:统计连续N天登陆人数tablelogindate userid2019-08-28 00:03:00 tom2019-08-28 10:00:00 frank2019-08-28 11:00:00 jack2019-08-29 00:03:00 tom2019-08-29 10:00:00 frank2019-08-30 10:00:00 tom2019-08-30 12:00:00 jack统计连续登陆2天的人数:tom、frank第一种方案:
2021-04-26 14:43:45
509
原创 hive中的常用函数及其优化
一、Hive中的特殊数据类型1、array类型创建数据vim /export/datas/array.txtzhangsan beijing,shanghai,tianjinwangwu shanghai,chengdu,wuhan,haerbin创建表create database db_complex;use db_complex;create table if not exists complex_array(name string,work_locations arr
2021-04-26 14:21:33
595
原创 hive介绍及其原理
一、Hive的介绍及其设计原理1、Hive的设计目标及诞生设计目标:使用SQL来操作HadoopFaceBook:问题,Hadoop需要给公司的数据分析师来使用数据分析师不会JavaJava工程不会数据分析让Java工程师基于Hadoop的接口做二次开发,让这个产品使用SQL来操作,底层全部由Hadoop来实现工具:将SQL变成Hadoop的程序Hive:一个基于Hadoop之上的中间件存储:HDFSinsert:写入数据,最终存储在hdfs上计算:YARNsel
2021-04-26 14:13:59
663
原创 Yarn简介以及资源调度
yarn资源调度1. yarn的介绍:yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMast
2021-04-26 11:20:02
2090
原创 Hadoop介绍以及安装使用入门
Hadoop1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页 抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题—— 如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HD
2021-04-26 11:06:46
176
原创 Hadoop五大过程举例(以单词统计为例)
Hadoop五大过程举例(以单词统计为例)一、Input输入:File1:Hadoop flink HadoopHbase spark flinkFile2:hue hive hive spark sparkhadoop spark spark hbase1、对文件进行分片(文件大小默认128M),以下假设分片为两片2、转换为key value形式Split1:Key value0 Hadoop Flink Hadoop20 Hbase Spark FlinkSplit2:
2021-04-26 09:34:54
226
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人