涤生大数据-CSDN博客

原创 26届秋招收割offer指南

26届暑期实习已经陆续启动，这也意味着对于26届的同学们来说，“找工作”已经提上了日程。为了帮助大家更好地准备暑期实习和秋招，本期主要从时间线、学习路线、核心知识点及投递几方面给大家介绍，希望能为大家提供一些实用的建议和帮助。

2025-05-06 23:56:27 2004

原创一文吃透！Doris 冷热分层技术全解析

在大数据领域，数据量呈指数级增长，企业不仅要应对海量数据的存储难题，还要保障数据查询的高效性。Doris 作为一款备受青睐的高性能分布式分析型数据库，其冷热分层技术为企业提供了兼具高效性与成本效益的解决方案。本文将从原理、优势、实现方式，以及实际案例等多个维度，对 Doris 冷热分层技术进行深入剖析。

2025-05-01 21:49:06 788

原创海量数据存储与分析：HBase vs ClickHouse vs Doris 三大数据库优劣对比指南

在当今大数据时代，数据正以前所未有的速度持续增长。来自各个领域的数据，如互联网行业用户的每一次点击、浏览记录，金融机构的海量交易数据，以及物联网设备源源不断上传的实时监测数据等，其规模呈指数级攀升。据权威机构统计，全球每年产生的数据量从过去的 EB 级迅速迈向 ZB 级。如此庞大的数据量，对数据存储和分析提出了极为严苛的要求。

2025-05-01 21:42:22 1233

原创 HBase协处理器深度解析：原理、实现与最佳实践

HBase作为Apache顶级项目，凭借其高效的分布式存储和检索能力，在大数据领域广泛应用。然而，随着业务需求的复杂化，单纯的数据存储功能已无法满足所有场景。此时，HBase协处理器（Coprocessor）便成为了一个关键的扩展工具。本文将深入探讨协处理器的原理、实现方法、应用场景及注意事项，帮助开发者高效利用这一特性。

2025-04-26 19:43:18 1179

一般来说金三银四，整体机会略微还是多些的，但是没有想象中的好，3月涤生上岸了23个同学，社招18个，校招5个，说实话这个成绩没有达到我们的预期。现在的行情越来越卷哈，卷学历，卷能力，就是抢别人的饭碗，森林法则，适者生存，找工作学历教育背景+工作背景+技术能力三者你要打造一个属于自己的亮点。：涤生的社招学员目前60%+是企业在职进阶学员，基本各大厂的进阶学员都有，他们的薪资从10k,15k,20k，25k,30k，35k,40k。术业有专攻，企业怎么用，面试怎么面，我们就怎么学，涤生让大数据学习不迷惘。

2025-04-22 23:19:05 615

原创简化K8S部署流程：通过Apisix实现蓝绿发布策略详解（上）

本次主题主要目的是为大家讲解蓝绿发布，但是发现文档和内容太长了，对此将文档拆分成了两部分，视频拆分成了好几部分，这样大家刷起来没疲劳感。第一部分《apisix + argorollout 实现蓝绿发布I-使用apisix发布应用》，主要内容为：

2025-04-22 23:10:20 717

原创一文弄懂离线数仓中小文件问题

产生场景： MaxCompute使用盘古分布式文件系统是按块（Block）存放的，通常文件大小比块大小小的文件（默认块大小为64MB），被称为小文件。

2025-04-16 23:52:23 899

原创数据清洗到底在清洗什么？

在大数据时代，数据是每个企业的五星资产，被誉为“新石油”，但未经处理的数据往往参杂着大量“杂质”。这些“脏数据”不仅影响分析结果，严重的甚至误导企业决策。数据清洗作为数据预处理的关键环节，正是通过“去芜存菁”，让数据焕发价值。那么，数据清洗究竟在清洗什么？本文将为你一一解析。

2025-04-16 23:32:28 941

原创数据质量问题中，数据及时性怎么保证？如何有深度体系化回答！

数据治理，数据质量这快是中大厂，高阶大数据开发面试必备技能，企业基于大数据底座去做数仓，那么首先需要保障的就是数据质量。

2025-04-10 23:04:19 511

原创校招面试全攻略：揭秘校招面试四步走

首先讲一下我的基本情况：本二，211研，数学相关专业，最后求职方向选择了大数据开发方向。这次分享基于我个人的整个校招经历总结，主要和大家分享一下面试的经验，主要的心历路程还是很长的，从提前批开始投递 -> 笔试 ->面试 -> 泡池子 -> 陆续收到Offer，整个时间周期跨度大概3个月。分享前先让大家了解下光哥的关爱哈哈！！

2025-04-05 15:45:36 689

原创探索Doris：日志分析的新宠，是否能取代老牌ES？

在大数据时代，日志存储与分析对于企业的运营和决策起着至关重要的作用。Elasticsearch（简称 ES）作为一款广泛应用的开源分布式搜索和分析引擎，长期以来在日志管理领域占据着举足轻重的地位。然而，随着技术的不断发展，新的解决方案层出不穷，其中Apache Doris 凭借其卓越特性，在日志存储与分析领域迅速崛起，引发业界热议：Doris 是否会成为新一代王者，取代传统的 Elasticsearch（ES）？

2025-04-02 22:09:02 706

原创企业数据治理实践：“七剑” 合璧，释放数据价值

在数字化转型的浪潮中，数据已成为企业的核心资产，其治理水平直接关乎企业的竞争力和可持续发展能力。数据模型治理、元数据治理、数据质量治理、数据标准治理、主数据治理、数据安全治理以及数据服务平台治理，共同构成了企业数据治理的关键体系，如同七把利剑，各司其职又协同作战，助力企业在数据驱动的时代中脱颖而出。本文带大家深入探讨这七个方面在企业数据治理实践中的重要作用、实施方法及应用案例。

2025-04-02 22:03:55 720

原创在海量数据中精准定位：BloomFilter的工作原理与实战指南

布隆过滤器（Bloom Filter）是1970年由 Burton Horward Bloom 提出的一种非常节省空间的概率型数据结构，运行速度快，占用内存小，但有一定误判率且无法删除元素。它实际上是一个很长的位数组（bitmap）和一系列随机哈希函数组成，主要用于判断一个元素是否在一个集合中。

2025-03-28 20:09:20 1065

原创 Spark实战中的坑，你踩过几个？技术专家深度解析！

在这篇文章中，以大数据从业近十年的工作经验来看，我尽可能收集到一些常见的错误和问题以及我们可以实施的解决方案和优化。

2025-03-25 19:19:29 831

原创大数据运维实战之YARN任务内存泄露排查实战：从节点掉线到精准定位的完整指南

最近某大数据集群频繁出现节点掉线事故，物理内存监控持续爆红。运维人员发现当节点内存使用率达到95%以上时，机器会进入不可响应状态，最终导致服务中断。这种"内存雪崩"现象往往由单个异常任务引发，如何快速定位问题作业成为当务之急。

2025-03-23 16:56:50 552

原创 Doris 湖仓一体：数据分析新范式

Doris 湖仓一体凭借其强大的功能、先进的架构和核心技术，为企业数据管理提供了高效、智能的解决方案。在大数据时代，它就像一座坚实的桥梁，打通数据湖与数据仓库的壁垒，让数据流转更顺畅，价值释放更充分，助力企业在数字化转型的浪潮中抢占先机！

2025-03-19 21:33:37 949

原创大数据运维必看：跨数据中心的集群迁移详细步骤与技巧分享

因云平台升级，需要将A机房中的大数据平台迁移到B机房中。AB属于同城市，不同数据中心机房。主要是因为A机房底层物理空间满了，没办法加机器了，但是大数据集群又需要扩容了，所以才搞集群迁移。不然真心不想做的。

2025-03-15 16:12:16 1087

原创 SparkSQL面试到这些内容，你能一次说清楚吗？（上）

今天带各位梳理一下很多SparkSQL在使用中模棱两可得的事情，今天一文带大家全部理清楚。涤生出品，内容很干，不管是在面试还是在实际的工作中，能够理清以下问题，你就是最靓的仔。

2025-03-13 14:31:27 678

原创分享一个数据开发简历面试99%上岸的流程规划，赶紧收藏！

我们一群在职的小伙伴做的网络大数据学习课程。小伙伴有大数据开发，也有技术专家，架构专家（窃以为更高职级的人不适合做技术教学，比如架构师岗位），所有老师非培训机构讲师。另有大厂在职大佬合作数名，如阿里巴巴大数据之路作者数仓专题系列直播。

2025-03-11 16:27:12 1017

原创 1-2月大数据学员Offer榜单：这些求职密码正在被验证！

说起现在的互联网行情，那真是王二小过年一年不如一年了哈。卷学历卷能力，最近几个月涤生大数据带了几十个被裁员的同学，有一线中大厂的，也有小公司，外包的。那是那句话市场行情差的时候在淘汰学历差能力差的人。

2025-03-11 16:05:25 527

原创数据仓库架构全解析：如何构建高效、有序的数据分层？

1.监控体系：建立全方位数据监控，包括数据质量（准确性、完整性、一致性）监控，通过数据校验规则比对；2.故障应急：制定详细故障应急预案，依据故障影响范围、严重程度分级，不同级别启动相应处理流程，从故障发现、通知责任人到恢复系统正常运行各环节明确时间节点与操作步骤，如数据延迟故障，5 分钟内发现通知，30 分钟内定位修复。2.数据脱敏：对敏感数据，如客户身份证号、银行卡号，在非必要场景进行脱敏处理，采用哈希、替换等方法，保证数据可用性同时保护隐私，如身份证号保留前 6 位和后 4 位，中间用星号代替。

2025-03-07 22:18:37 734

原创 2024届一线互联网大厂校招算法题侧重点：从手撕代码到思维能力考察

今天将为大家详细解读2024年部分一线互联网大厂校招中的核心算法题目趋势和考察重点。这些年来，互联网企业的面试题目在不断变化，但有一些核心考察点始终未变——那就是对基础算法能力和编程思维的深度考察。根据内部同学反馈收集到的第一手信息，我把2024年的校招题目进行了整理和分类，并结合具体的例子来分析每个题型背后的考察意图。希望这些内容能为大家的面试准备提供方向。

2025-03-03 19:25:40 860

原创大数据八股文高效背诵指南，助你offer拿到手软

请注意：如果你想看完这篇文章之后，此后的八股背诵之路就如同开挂一般，变得轻松+愉快+记忆牢固，那你可以直接把这个页面关掉了。相反，如果你想用短暂的痛苦，换来思维方式的改变，进而让你对八股的记忆更加牢固和准确，那么可以接着往下看！

2025-02-28 13:59:46 722

原创用户行为分析：漏斗分析模型的实现

所谓的用户行为分析，就是通过对用户在产品（比如APP、网站等）上的行为数据进行收集、处理和分析，来洞察用户的真实需求和特征。这些行为数据包含用户的浏览记录、点击行为、购买、收藏等数据。通过分析这些收集的数据，企业能够更准确地了解用户的行为习惯和购买偏好等，为产品优化和营销策略制定提供有力支持。那么漏斗分心模型是用户行为分析中最重要的模型，漏斗分析是一种常用于产品分析、市场营销和用户行为分析的方法，用来跟踪用户在完成特定目标的过程中，从一个步骤到另一个步骤的流失情况。

2025-02-26 19:42:36 1058

原创 24年校招圆满落幕，25年秋招扬帆起航！学长学姐的求职攻略不容错过！

秋招季，每个人经历的过程都是独一无二的。学历和专业背景在其中扮演着关键角色，深刻影响着面试体验和感受。在校招的面试环节中，高学历无疑是一张王牌，它能让你获得更多的面试机会。这份优势不仅为你打开了更多门，也让你在竞争中脱颖而出。

2025-02-25 21:28:29 1217

原创大数据运维实战：通过自定义Hooks优化Spark Catalyst，提升Spark性能

Apache Spark是大数据处理领域最常用的计算引擎之一。其强大的可扩展性和丰富的API使其在各种场景中得到了广泛应用。除了常见的数据源扩展，Spark SQL的Catalyst引擎也提供了丰富的扩展点，允许用户根据自己的需求定制解析、分析、优化和物理执行策略。本文将深入探讨在实际的生产环境中如何借助Spark Catalyst的拓展功能，实现自定义的 hooks 功能。

2025-02-21 17:28:29 1287

原创数据治理怎么做，看完这篇你就明白了

在大数据时代，几乎所有企业都看到了数据的价值，快速开始探索数据应用场景和商业模式、建设数据中台，但是如果在大数据拼图中遗忘了数据治理，那么即使做再多的业务和技术投入也是徒劳的，因为很经典的一句话：Garbage in Garbage out，数据质量没有保证。而保证数据质量，数据治理是必须的手段。数据治理这个话题看似阳春白雪高大上，实际上是非常下里巴人接地气，或者说必须要顶天立地才能见实效。

2025-02-17 14:41:13 1042

原创一文带你吃透大厂高频面试题：连续登陆问题

连续登录问题是数据开发同学SQL面试中考察的重点，主要涉及对日期字段的处理和逻辑判断。连续登录问题的核心在于“日期连续”，一般题目中出现“求XXX连续N天登录”这种字眼时，往往就是一道连续登陆日期的题目。解决这类题目，首先要清楚什么是“连续”？

2025-02-15 23:24:23 793

原创全网最全Flink网络堆栈探索

Flink 的网络堆栈是构成flink-runtime模块的核心组件之一，也是每个 Flink 作业的核心，它连接来自所有TaskManager的各个子任务。这是Flink待处理的数据必须流经的地方，针对吞吐量和延迟而言，对于 Flink 作业的性能至关重要。与通过 Akka 使用 RPC 的 TaskManager 和JobManager 之间的协调通道相比，TaskManager 之间的网络堆栈依赖于使用 Netty 的低级别 API。

2025-02-10 11:31:15 901

原创从 0 到 1 构建数仓之DWD层

在企业数字化转型进程中，数据仓库的建设至关重要，而 DWD 层（明细粒度事实层）作为数据仓库的核心支撑层，其搭建质量直接影响企业数据的分析价值与决策效率。本文将结合实际案例与行业经验，详细阐述企业如何从 0 到 1 搭建高效、可靠的 DWD 层。

2025-02-05 16:14:04 840 2

原创从0到1构建数仓之ODS层

在互联网金融信贷业务的数字化运营中，离线数仓扮演着数据存储、管理与分析基石的角色。其中，操作数据存储（ODS）层作为离线数仓的首层，负责对源系统数据进行抽取、转换与加载（ETL），是后续数据处理与分析工作的重要基础。本文将深入探讨互联网金融信贷离线数仓ODS层的搭建，重点聚焦于数仓数据采集同步策略中的增量与全量同步方案选择，并结合实践中的代码示例，为对数仓工程师岗位培训提供全面且实用的指导。

2025-01-15 11:37:04 1534

原创数仓面试必问：缓慢变化维的处理

这样新增的数据要改写历史数据，这个时候就像业务数据库的数据一样，我们要更新对应的数据，例如部门的编码为888，后来发现编码错误了，需要改写成666，那么我们在修改好的新数据插入时，维度表中原来的部门编码要改成相应的666，这是第一种类型，做法是就是完全更改，全覆盖。此类解决的就是上述的第三种变化，在原来的维度表中增加新的一列，原先的数据列存放上一版本的历史数据值，当前数据列存放当前版本的数据值。的分析，用不同的字段来保存不同的值，总的来说，这种方法通过是添加字段来保存变化后的数据。

2025-01-04 22:00:04 996

原创大数据现在行情到底如何？还能入坑吗？让11月份就业数据说话！

5年同学普本科班，总包40w+入职某二线城市中大厂，这个同学外包出身，就想去中大厂自研，用了3个多月求职，期间也拿到了一线不错薪资的offer，但是只想去好的自研，最后心愿得逞，薪资也将近double了，很开心，工作背景差，学历弱的同学其实适合准备好，慢慢碰机会，有时候合适的机会比能力重要，这个同学就是学校有点差。今年涤生到简历面试辅导的同学就业率大概在98%左右，上岸200多个同学，除了几个另类的同学，搞着搞着不搞的放弃的，严重极度摆烂的同学，直接消失联系不上的同学，当然也有一个是我劝退退费补偿的。

2024-12-22 18:55:50 1077

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

腾讯大数据安全体系架构与介绍.pdf

Python3.5官方文档中文版本chm格式

程序员的薪资天花板是多少？