
spark2.x学习心得
实战spark
码太狼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark源码远程调试开发
对于spark源码和spark执行过程有兴趣的同学,可以搭建一个spark的源码调试环境,来调试远程spark源码执行过程。由于spark启动都是通过脚本设置一些环境变量执行指定类来启动的,所以在ide里面不能直接调试,需要预先启动一个spark执行代码,然后通过本地的代码进行远程调试。1.环境idea 2017maven 3.3(可以将maven的镜像地址设置成国内的,不然编译很久或编译不成功原创 2017-12-11 18:17:05 · 5274 阅读 · 0 评论 -
spark-sql(四)---读写elasticsearch数据
sparksql读写elasticsearch sparksql将elasticsearch数据转换成RDD进行计算,测试下sparksql对elasticsearch的读和写的操作。1环境1.1软件环境hadoop 2.7.3spark 2.2elasticsearch 5.6.4jdk 1.81.2机器环境 节点 配置 组件 角色...原创 2017-12-07 14:44:05 · 10324 阅读 · 8 评论 -
spark-sql(三)---spark-sql性能测试
sparksql大数据量下测试性能2.数据环境从网上扒过来的数据,某些网站泄漏的帐号信息,数据重复冗余很少。处理了一下,在原基础上增大了数据量。 准备的数据量大,是保证结果误差更小,也检测下sparksql数据处理能力。 9个字段,128亿行,纯文本大小1.2T。3.textfile表textfile表是默认的存储文件原创 2017-12-04 14:56:33 · 5933 阅读 · 0 评论 -
spark-sql(二)---ThriftServer模式
ThriftServerThriftServer和和hiveserver2类似,提供了jdbc/odbc的接口,spark-sql以这种模式启动后可以以服务的形式提供SQL查询。 客户端可以用jdbc直接访问spark-sql,用sql进行交互。启动安装配置接前面链接 http://blog.csdn.net/dante_003/article/details/78652534原创 2017-11-28 18:14:27 · 5939 阅读 · 0 评论 -
spark-sql(一)---cli模式
spark-sqlspark-sql是spark+hive的结合,和hive on spark非常相似,但实现不一样。spark-sql是由spark官方维护,在hive的基础上修改了sql解析任务和执行任务的部分。安装环境hadoop环境(自行安装)spark2.2安装安装很简单,spark开箱即用。从官网上面下载spark后,解压到指定目录,配置好SPARK_HOME环境变量就可以了。只需原创 2017-11-28 11:16:23 · 5697 阅读 · 0 评论 -
spark快速入门
spark快速入门的hellowold原创 2017-12-08 11:20:34 · 6556 阅读 · 0 评论