
HIVE
文章平均质量分 90
又见智能商业
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HiveSQL函数优化原理
更多内容,欢迎观众公众号:livandata1、group by的计算原理:代码为:SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到,group by本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.原创 2021-01-21 10:28:05 · 1378 阅读 · 0 评论 -
数据处理奇技巧——python篇
1、数据读取前五行方法:1)pandas读取时限定行数:此方法只将前5行读入到内存中,所以比较快速。import pandas as pddata = pd.read_csv('sub_customer.csv',nrows=5)2)head函数:也是pandas中的用法,不过这个用法需要将大量数据存入到内存中,然后才会读其中的前5行。import pandas as pd...原创 2020-01-04 20:49:33 · 1071 阅读 · 0 评论 -
Hadoop学习(十三)——hive的常用HQL语句
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata原创 2018-07-09 00:11:33 · 3174 阅读 · 0 评论 -
Hadoop学习(十四)——hive参数、函数及案例
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata1、命令行语法结构hive [-hive conf x=y]* [&...原创 2018-07-10 00:20:53 · 1972 阅读 · 0 评论 -
Hadoop学习(十二)——hive的安装与体验
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata原创 2018-07-08 13:11:22 · 1647 阅读 · 0 评论 -
Hadoop学习(十五)——hive优化
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。我的公众号为:livandata一. 表连接优化1.将大表放后头Hive假定查询中最后的一个表是大表。...转载 2018-07-11 21:55:49 · 387 阅读 · 0 评论