自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 对时间的处理(四)

1 采用批处理架构和Lambda架构计数批处理架构1 数据被分割成一个个文件(例如按小时分割)2 批处理作业以文件作为输入运行存在的问题 太多独立的部分 为了计算数据中的事件数,这种架构动用了太多系统。每一个系统都有学习成本和管理成本,还可能存在 bug。 对时间的处理方法不明确 预警 只有批处理作业做不到及时预警,需要引入Strom,增加了复杂性 乱序事件流 实际情况是事件经常乱序,本属于前一批的事件可能被错误地归入当前一批。批处理.

2021-05-06 11:06:57 173

原创 Flink的用途(三)

1 不同类型的正确性1.1 计算窗口和会话窗口通过点击流追踪网站3个访问者描述:对于每个访问者来说,活动是不连续的。在访问时间段内,事件数据被收集起来;当访问者起身去喝茶或喝咖啡时,或者当他们因为老板从身边经过而切换回工作页面时,数据就产生了间隙采用微批处理方法时,很难使计算窗口(虚线所示)与会话窗口(长方形所示)吻合Flink 的流处理能力能够使计算窗口与会话窗口吻合1.2 事件时间事件时间指的是事件发生的时间;处理时间指的是事件流被程序处理的时间使用事..

2021-05-06 11:06:26 227

原创 流处理架构(二)

1 传统架构与流处理架构传统架构数据是怎么存的1 一个中心化的数据库系统,拥有“新鲜”(或者说“准确”)的数据,反映了当前的业务状态2 分布式文件系统则用来存储不需要经常更新的数据传统数据架构的问题1 从数据流入到分析流程复杂、缓慢,当出现问题时,不太容易保证系统很好运行2 分布式文件系统需要保持一致的全局状态,随着系统规模扩大,维持实际数据与状态数据间的一致性变得越来越困难;流数据结构是怎么样的没有一个数据库来集中存储全局状态数据,取而代之的是共享且永不停止的流数据,它是唯

2021-05-06 11:06:08 245 1

原创 为何选择Flink(一)

目录1连续事件处理的目标2流处理技术的演变3 初探Flink4 参考1连续事件处理的目标流处理应该具备什么样的特点低延迟、高吞吐、容错性(能够处理中断,保证 exactly-once)2流处理技术的演变在flink出来之前是什么技术Storm(低延迟但是故障发生时不能准确处理计算状态)、Spark Streaming(高吞吐和容错性,但是牺牲了低延迟和实时处理能力)Storm是怎么样的,有什么问题1 流处理先锋2 可以做到低延迟,很难实现高吞吐、不...

2021-05-06 11:05:29 141

原创 MergeTree原理解析(五)

1 MergeTree创建与存储 创建CREATE TABLE [IF NOT EXISTS] [db_name.]table_name ( name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr], name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr], 省略...) ENGINE = MergeTree() [PARTITION BY expr] [ORDER BY ...

2020-12-16 21:31:55 1167

原创 数据字典(四)

字典数据常驻内存的特性,所以它非常适合保存常量或经常使用的维度表数据,以避免不必要的JOIN查询;字典中的数据通过字典函数访问,也可以使用特殊的字典表引擎,可以将数据字典挂载到一张代理的数据表下,从而实现数据表与字典数据的JOIN查询;1 内置字典 clickhouse内置字典:Yandex.Metrica字典。2 外部扩展字典 实践后补上!!! 2.1 读取字典方法: (1)通过字典函数 (2)使用字典表引擎 2.2 字典...

2020-12-10 21:22:00 404

原创 clickhouse获取当前时间

1 起因今天使用idea连接clickhouse的时候想获取当前时间发现和现在时间差8个小时,select now(),这是怎么回事呢2 经过1 怀疑是不是时区不对,于是查询资料发现clickhouse默认时区是<timezone>Europe/Moscow</timezone>,这个时区不对,于是修改config.xml,把时区修改为<timezone>Asia/Shanghai</timezone>,重启clickhouse服务,再sele

2020-11-24 14:39:59 10355

原创 数据定义(三)

1 ClickHouse的数据类型 分为基础类型、复合类型和特殊类型【基础类型】 ClickHouse则直接使用Int8、Int16、Int32和Int64指代4种大小的Int类型 ClickHouse的浮点数支持正无穷、负无穷以及非数字的表达方式 如果要求更高精度的数值运算,则需要使用定点数。ClickHouse提供了Decimal32、Decimal64和Decimal128三种精度的定点数 字符串由String定义,长度不限。因此在使用String的时候无须声...

2020-11-21 15:59:26 206

原创 ClickHouse架构概述(二)

1 ClickHouse的核心特性1.1 完备的DBMS功能DDL DML 权限控制数据备份与恢复 分布式管理1.2 列存储及数据压缩 按列存储:可以减少查询扫描数据量 数据压缩的友好性:压缩的本质是按照一定步长对数据进行匹配扫描,当发现重复部分的时候就进行编码转换;同一列的字段具有相同的数据类型和现实语义,重复项的可能性更高,压缩率要更高1.3 向量化引擎 利用CPU的SIMD指令,本质是通过数据并行来提高性能1.4 关系模型及S...

2020-11-18 21:29:06 546 3

原创 ClickHouse的前世今生(一)

1、传 统 BI 系 统的问题传 统 BI 系 统 对 企 业 的 信 息 化 水 平 要 求 较 高受众小,制约BI发展研 发 过 程 滞 后 了 需 求 的 响 应 时 效2、现 代 BI 系 统不 再 需 要 强 制 捆 绑 于 企 业 数 据 仓 库受众多元化快 速 应 答、 简 单 易 用3、OLAP 架 构分类ROLAP关 系 模 型构建,星 型 模 型 或 者 雪 花 模 型MOLAP多 维 数 组 的 形 式 保 存 数 据预 先 聚 ..

2020-11-18 21:25:29 375 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除