
大数据
潜心_守道
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据面试之——大数据解决方案思维题
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将u...原创 2020-03-06 15:58:13 · 778 阅读 · 0 评论 -
大数据面试系列之——Zookeeper
1.简单介绍下ZookeeperZooKeeper是一个开放源码的分布式协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。分布式应用程序可以基于Zookeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。Zookee...原创 2020-02-24 15:28:14 · 515 阅读 · 0 评论 -
Hive表存储格式的介绍和比较
一、四种存储格式介绍1、TestFile TextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。2、RCFile Record Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。&nbs...转载 2020-02-20 18:44:07 · 372 阅读 · 0 评论 -
Hbase的性能优化总结
https://www.cnblogs.com/frankdeng/p/9529044.html转载 2020-02-20 18:05:05 · 267 阅读 · 0 评论 -
大数据面试系列之——Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。1.Spark有几种部署模式,各个模式的特点1.本地模式Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。方便调试,本地模式分三类local:只启动一个executorlocal[k]: 启动k个executorlocal:启动跟cpu数目相同的 executor2.s...原创 2020-02-17 13:31:31 · 1145 阅读 · 0 评论 -
Hive的优化
https://blog.csdn.net/weixin_38073885/article/details/88799894转载 2020-02-12 22:01:09 · 226 阅读 · 0 评论 -
大数据面试系列之——Hive
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据1.Hive与传统数据库的区别1、数据存储位置:Hive是建立在Hadoop之上的,所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。2、数据格式:Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了自己的...原创 2020-02-12 21:55:17 · 1100 阅读 · 0 评论 -
大数据面试系列之——Hbase
Hbase是一个分布式的列式存储的数据库1.说说Hbase的特点1.分布式架构,Hbase通过集群存储数据,数据最终会落到HDFS上2.是一种NoSQL的非关系型数据库,不符合关系型数据库的范式3.面向列存储,底层基于key-value结构4.适合存储半结构化、非结构化的数据5.适合存储稀疏的数据,空的数据不占用空间6.提供实时的增删改查的能力,但是不提供严格的事务机制,只能在行级别...原创 2020-02-05 20:44:08 · 540 阅读 · 0 评论 -
大数据面试系列之——Hadoop
Hadoop的三个核心:HDFS(分布式存储系统)MapReduce(分布式计算系统)YARN (分布式资源调度)一.Hadoop集群的几种搭建模式1.单机模式:直接解压安装,不存在分布式存储系统2.伪分布式:NameNode和DataNode安装于同一个节点,无法体现分布式处理的优势。3.完全分布式:一个主节点,多个从节点,存在如果主节点宕机,集群就无法使用的缺点。4.高可用模式...原创 2020-02-04 21:13:51 · 417 阅读 · 0 评论 -
Centos7下搭建大数据处理集群(Hadoop+Spark+Hbase+Hive+Zookeeper+Kafka+Flume)详细步骤
一.目录二.集群规划三.虚拟机准备及基础配置设置四.Hadoop4.1安装Hadoop4.1.1上传解压安装包1.创建软件安装包上传目录/opt/package,Hadoop安装目录/opt/hadoop[root@hp1 opt]# mkdir package[root@hp1 opt]# mkdir hadoop2.将下载好的Hadoop安装包上传到/opt/package...原创 2019-12-12 16:10:35 · 3131 阅读 · 0 评论 -
个人电脑虚拟环境的搭建(VMware Workstation Pro)
对于刚接触学习Linux系统或大数据的同学,拥有一个自己学习实践的环境是很必要的,然而我们个人购买或租用实体服务器成本比较大,剩下可选择的方式就只有购买云服务器或者在个人电脑上搭建Linux系统了,云服务器对于学生党和经济情况有限的爱好者还是有点小贵,就剩下最后一条路了,在个人电脑上搭建虚拟环境,只要你有一台配置差不多的电脑就可以满足学习的需求了。一.准备工作个人电脑硬盘:大小够你...原创 2019-07-17 17:50:56 · 5004 阅读 · 0 评论 -
Centos7搭建CDH5.15集群(完全版)
CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时...原创 2019-08-19 18:59:26 · 2246 阅读 · 0 评论 -
sqoop数据迁移指南(参数超详细解析)
https://blog.csdn.net/Thomson617/article/details/95357486转载 2019-09-26 16:03:40 · 311 阅读 · 0 评论 -
Hive内存溢出常见问题
MapReduce作业运行过程中内存溢出错误分类1、Mapper/Reducer阶段JVM内存溢出(一般都是堆)1)JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常:第一种:“java.lang.OutOfMemoryError:” GC ove...转载 2019-05-07 11:25:53 · 2122 阅读 · 0 评论