静听枫语-CSDN博客

原创 Flink state缓存测试

Flink state 在实际生产中的应用一、FlinkState的概念1、state分类2、FsStateBackend 和 RocksDBStateBackend 相关配置1）一、FlinkState的概念1、state分类以下对目前广泛使用的三类 state backend 做了区分，其中绿色表示所创建的operator/keyed state backend 是 on-heap 的，黄色则表示是 off-heap 的。一般而言，在生产中，我们会在 FsStateBackend 和 Rock

2021-11-26 10:52:21 3427 3

原创 LLM大模型下的高效检索方案：LightRAG技术论文与代码结合解读

LLM大模型、LightRAG、论文解读、代码分析、SEO优化，增强检索，图数据库、实体关系抽取

2025-04-23 22:30:22 891

原创 clickhouse冷热数据分层配置

clikhouse冷热数据分层方案文章目录clikhouse冷热数据分层方案简介一、配置更改二、实际测试简介 TTL策略可以结合业务特点，将数据生命周期与冷热数据存储关联起来。实现既保存历史数据，又能够降低存储成本的效果。比如将最近90天的高频查询数据放置在热数据存储中，而90天之前的低频查询数据自动转移到冷数据存储中一、配置更改在 config.xml 中加入如下配置注意：hot采用default后，会自动匹配路径，21.X版本后支持hdfs存储方式。storage_policy在建表

2022-01-04 16:55:59 2662 1

原创 Clickhouse副本分片、分布式表

Clickhouse副本分片以及分布式表机制一、clickhouse实现二分片双备份案例如下1、配置metrika.xml2、数据测试一、clickhouse实现二分片双备份案例如下1、配置metrika.xml<remote_servers>  <test_ck_cluster> <shard&g

2021-12-24 14:58:26 971

原创 docker构建hadoop镜像并运行

单机版hadoop使用docker构建及运行一、环境：组件信息组件版本CentOS 7.9.2009java 1.8.0_161hadoop 3.1.3docker 20.10.8服务配置机器服务node1 datanodenode1 namenodenode1 resourcemanagernode1 nodemanagernode1 secondrynamenode二、准备镜像使用最新版本的centOS.docker pull centos:lat

2021-09-08 11:39:10 2205

原创 Clickhouse集成离线hive、实时kafka数据实操

Clickhouse集成hive一、官网介绍：1、clickhouse集成hive官网介绍：2、clickhouse支持的数据类型：二、创建对应hive的clickhouse表1、利用clickhouse的HDFS Engine建表语句二、建表需要注意的地方（详细解析）1、schema必须要与hive表中一致2、格式要求3、路径解析4、hdfs路径三、我担心hive数据更新后不能同步过来，继续在做测试中。。。一、官网介绍：1、clickhouse集成hive官网介绍：https://clickhous

2021-08-20 10:29:29 2727 7

原创 OLAP组件选型

OLAP组件选型一、OLAP简介1、olap准则2、OLAP场景的关键特征3、与oltp比较二、开源引擎1、Hive2、spark SQL3、presto4、kylin5、impala6、druid7、Greeplum8、clickhouse三、选型要求1、实时性要求较高，对接kafka，实时查询数据2、可以接入hive数据3、单表查询数据较多，较少的join，在数仓中完成宽表构建一、OLAP简介说起 OLAP 要追溯到 1993 年。1、olap准则准则1 OLAP模型必须提供多维概念视图准则

2021-08-19 11:10:54 1179

原创 flink中间结果写入hdfs并构建hive分区表

flink中间结果写HDFS项目中遇到一个应用场景需要将flink计算的中间结果写入到hdfs中提示：正常的kafka数据还是用flume同步至hdfs吧，用flink写hdfs会有很多问题文章目录flink中间结果写HDFS一、pandas是什么？二、使用步骤1.代码修改1）、写入本地文件中2）、写入至hdfs中2.flink写hdfs目前存在的问题总结一、pandas是什么？流数据写入到hdfs中是将数据写入到分桶（bucket）中。默认使用基于系统时间(yyyy-MM-dd–HH)的分

2021-08-05 20:59:56 3981 2

原创基于dolphinscheduler的增量数据同步至hive分区表

基于dolphinscheduler的增量数据同步至hive分区表前言一、创建新的hive分区表1.外部分区表sql准备2.创建工作流3、将sql语句写入工作流中4、保存选择租户，上线运行5、任务实例中查看运行状态，状态：成功即创建成功，可以通过hive的beeline客户端执行如下命令查看表创建详情二、hive分区表创建好后需要增加分区，使用shell命令创建分区1、添加每天的定时增加分区任务2、配置shell命令，使用hivevar的方式提交参数3、配置参数：1）增加自定义变量2）点击保存并增加.

2021-07-27 10:20:35 5825

原创内网CentOS7安装docker

CentOS 7.9安装docker环境：公司内网centOS7.9内核：3.10.0 docker官方要求内核版本>3.101、网络配置：因为需要搭建集群环境，在三台电脑上配置网络访问代理ip:代理ipport：代理端口export http_proxy="{ip}:{port}"export https_proxy="{ip}:{port}"2、yum代理配置也需要单独配置vi /etc/yum.conf，添加内容：proxy=http://{ip}:{po

2021-07-14 11:42:36 698

原创 dolphinscheduler搭建以及搭建使用中遇到的问题

dolphinscheduler搭建以及遇到的坑们搭建过程主要是参考官网上的搭建步骤https://dolphinscheduler.apache.org/zh-cn/docs/1.3.6/user_doc/cluster-deployment.html1、基础软件安装(必装项请自行安装)PostgreSQL (8.2.15+) or MySQL (5.7系列)：两者任选其一即可，如 MySQL 则需要 JDBC Driver 5.1.47+本文主要用的mysql为例JDK (1.8+)

2021-07-13 19:48:58 11313 9

原创解决启动hive时连接mysql的SSL认证问题以及元数据管理配置

报错：According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn’t set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to ‘false’. You

2021-07-13 10:37:18 750

原创 kettle添加clickhouse连接

kettle8 增加 clickhouse 数据源插件kettle : 8.2…0-342clickhouse : 19.15.1.4因为kettle官方不支持clickhouse的驱动，所以加粗样式**需要自己自定义插件并生成jar包。*官方教程如下：https://help.pentaho.com/Documentation/8.1/Developer_Center/PDI/Extend/020论坛中还有好多教程大家可以自己搜下主要步骤如下：*1、将打包好的jdbc jar包放入如下路径

2021-07-07 16:45:20 1675 7

原创连续登录hiveSQL实现

窗口和分析函数的应用需求：统计连续N天登陆人数tablelogindate userid2019-08-28 00:03:00 tom2019-08-28 10:00:00 frank2019-08-28 11:00:00 jack2019-08-29 00:03:00 tom2019-08-29 10:00:00 frank2019-08-30 10:00:00 tom2019-08-30 12:00:00 jack统计连续登陆2天的人数：tom、frank第一种方案：

2021-04-26 14:43:45 509

原创 hive中的常用函数及其优化

一、Hive中的特殊数据类型1、array类型创建数据vim /export/datas/array.txtzhangsan beijing,shanghai,tianjinwangwu shanghai,chengdu,wuhan,haerbin创建表create database db_complex;use db_complex;create table if not exists complex_array(name string,work_locations arr

2021-04-26 14:21:33 595

原创 hive介绍及其原理

一、Hive的介绍及其设计原理1、Hive的设计目标及诞生设计目标：使用SQL来操作HadoopFaceBook：问题，Hadoop需要给公司的数据分析师来使用数据分析师不会JavaJava工程不会数据分析让Java工程师基于Hadoop的接口做二次开发，让这个产品使用SQL来操作，底层全部由Hadoop来实现工具：将SQL变成Hadoop的程序Hive：一个基于Hadoop之上的中间件存储：HDFSinsert：写入数据，最终存储在hdfs上计算：YARNsel

2021-04-26 14:13:59 663

原创 Yarn简介以及资源调度

yarn资源调度1. yarn的介绍：yarn是hadoop集群当中的资源管理系统模块，从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源（主要是服务器的各种硬件资源，包括CPU，内存，磁盘，网络IO等）以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控，实现分离的做法是拥有一个全局的资源管理（ResourceManager，RM），以及每个应用程序对应一个的应用管理器（ApplicationMast

2021-04-26 11:20:02 2090

原创 Hadoop介绍以及安装使用入门

Hadoop1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题—— 如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HD

2021-04-26 11:06:46 176

原创 Hadoop五大过程举例（以单词统计为例）

Hadoop五大过程举例（以单词统计为例）一、Input输入：File1：Hadoop flink HadoopHbase spark flinkFile2：hue hive hive spark sparkhadoop spark spark hbase1、对文件进行分片（文件大小默认128M），以下假设分片为两片2、转换为key value形式Split1：Key value0 Hadoop Flink Hadoop20 Hbase Spark FlinkSplit2：

2021-04-26 09:34:54 226

fengyu_lc的博客