
大数据实战
文章平均质量分 92
莫彩
首先是一个人,然后是一个程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mapreduce 工业界批式计算经验汇总(下)
Hadoop分布式缓存使用方式分为API和命令行两种,支持通过-files分发文件、-archives分发并解压压缩包、-libjars添加jar包到CLASSPATH。在MapReduce任务调试方面,可以通过作业诊断工具查看任务日志,常见问题包括Pipe failed进程退出、模块导入错误、类缺失、OOM内存溢出等。针对不同问题,建议检查文件分发路径、调整内存配置、增加任务数量或修改代码逻辑。特别需要注意的是,DistributedCache在同一节点上的任务会共享缓存文件,不适用于需要独占访问的数据场原创 2025-07-06 11:46:21 · 743 阅读 · 0 评论 -
Mapreduce 工业界批式计算经验汇总(上)
与map 端类似,这也是溢写的过程,这个过程中如果你设置有Combiner,也是会启用的,然后在磁盘中生成了众多的溢写文件。, 每次溢写会在磁盘上生成一个临时文件 (写之前判断是否有 Combiner), 如果 Mapper 的输出结果真的很大, 有多次这样的溢写发生, 磁盘上相应的就会有多个临时文件存在. 当整个数据处理结束之后开始对磁盘中的临时文件进行 Merge 合并, 因为最终的文件只有一个, 写入磁盘, 并且为这个文件提供了一个索引文件, 以记录每个reduce对应数据的偏移量。原创 2025-07-06 11:29:16 · 865 阅读 · 0 评论 -
Redis 笔记
Redis核心应用场景与使用实践 摘要:本文介绍了Redis的五大核心应用场景:缓存系统、排行榜、消息队列、分布式锁和计数器。作为高性能内存数据库,Redis通过其丰富的数据结构(字符串、列表、集合、散列、有序集合)和原子性操作,有效解决了传统数据库在高并发场景下的性能瓶颈。文章详细解析了各数据结构的常用命令,并特别强调了大key问题的危害及检测消除方法。此外,还介绍了Redis事务和Pipeline机制,通过批量操作提升性能。最后提醒开发者注意key命名空间划分,推荐使用冒号或减号作为分隔符。原创 2025-07-02 10:44:44 · 1023 阅读 · 0 评论 -
python 性能优化
关于程序优化的第一个准则是“不要优化”,第二个准则是“不要优化那些无关紧要的部分”。原创 2023-01-03 00:40:18 · 1198 阅读 · 1 评论 -
《这就是搜索引擎》——链接分析
常见的有两大类算法:链接分析和子集传播(作者自己提出的分类);前者最典型的是pr,后者典型的是hilltop和hits主流算法之间的演进关系。原创 2022-10-01 21:54:15 · 591 阅读 · 0 评论 -
基数估计:FM算法
LogLog算法参考《大数据——互联网大规模数据挖掘与分布式处理一书》中所提到的FM算法,下面给出简单的python实现。代码中比较重要的就是testFM函数。重要的参数是each_group_k,表示了LogLog中用后多少位表示桶号,然后对所有元素求平均进行估计。group_num是参考《大数据》书上提到的中位数方法的小改进,就是不只是使用平均进行估计,而是使用不同的哈希函数LogLog算法重复多遍,然后每个LogLog算法内求平均,多个LogLog算法内求中位数。结果改进的并不多,索性直接用一组原创 2021-04-26 01:01:23 · 586 阅读 · 0 评论 -
浅析Bloom Filter与java实现
概述布隆过滤器实际上对外表现为一个set类型,可以实现添加元素/判断元素是否存在/并集等操作。需要注意的是布隆过滤器不提供元素的删除功能,这一点特点使得他不能作为常规的集合类型使用,那么它的使用场景是保存大量固定元素的集合,并判断一个新到来的元素是否已经存在在这个集合中,s所谓“过滤器”也是因此得名。他以一定误报率(不在的元素判断为在)为代价,减少了大量存储空间。原理BF主要需要包含一个长度为m位的位图,和k个相互独立的哈希函数,哈希函数的值域在0到m-1之间。如果希望加入一个元素,那么将该元素输原创 2021-04-26 00:55:29 · 201 阅读 · 0 评论 -
HBase初探(一)
写在前面知识点开始动手坑们写在前面上一篇文章已经布置好了Hadoop环境,接下来的任务是在Hadoop的基础上搭建Hbase环境,然后简单的调用HDFS和Hbase的API,完成从hdfs中读取数据,简单的处理之后存储至Hbase的任务。知识点开始动手坑们原创 2017-03-23 22:30:31 · 662 阅读 · 0 评论 -
HADOOP初探(一)
HADOOP与HBASE初探前言基础概念安装过程UbuntujavaHADOOP与HBASE初探前言一直在上学,所以我接触到的偏工程的项目不是特别多,大部分都是基础而范范的理论。而在这学期的一门大数据系统和大规模数据分析的课程,让我有机会接触到了一部分目前广泛应用于业界的开源项目,这篇文章就是关于第一次课程作业的,也是我的第一篇博文。希望能真真正正的积累一些东原创 2017-03-22 22:35:37 · 614 阅读 · 0 评论