光于前裕于后
本人有多年大数据与机器学习开发经验,并乐于总结与分享,如有侵权或写的不对的地方可以私信我,有问题也可以问我哟,free~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用Presto重写Hive分区表数据
Presto和Impala、Spark SQL都是SQL查询引擎,也都是基于内存运算。但是Presto支持多种数据源,比如Hive、TiDB、Redis、Kafka、ES、Oracle等等,可以跨数据源连表查,既快又方便。不过多介绍了,下面进入正题。Hive向分区表重写数据是这样的:insert overwrite tablename partition (year='2021')select a, b from tab;但是Presto不支持这种写法,一是不支持overwrite,二是不支原创 2021-08-12 17:55:15 · 2804 阅读 · 5 评论 -
dolphinscheduler 报错及解决办法
1 目录权限问题ERROR orm.CompilationManager: Could not rename /tmp/sqoop-hive/compile/4c4230b9e5d67829fa1f847893ff8560/QueryResult.java to /tmp/dolphinscheduler/exec/process/2/7/25/35/./QueryResult.java. Error: /tmp/dolphinscheduler/exec/process/2/7/25/35/./Quer原创 2021-04-26 11:02:43 · 19281 阅读 · 16 评论 -
使用StreamSets提供接口 实现零代码微服务
通常情况下,我们需要开发一个数据接口,提供给业务部门使用,而开发一个接口,就算使用Spring Boot,也较费时费力。今天我给大家介绍一种不需要敲一行代码,五分钟就能实现的方法~原创 2022-09-20 16:24:00 · 1179 阅读 · 0 评论 -
StreamSets解析MySQL Binlog写入Kafka
前面与写入HBase一样原创 2022-08-30 11:25:35 · 1055 阅读 · 0 评论 -
StreamSets解析MySQL Binlog写入HBase
一种简单的解析MySQL Binlog方法原创 2022-08-26 16:19:48 · 736 阅读 · 0 评论 -
Presto与Hive SQL对比
近期工作涉及到数据治理,对一些老慢任务优化改造,主要是Hive转Presto,Hive实在是太慢了~本篇记录Hive转Presto遇到的问题,希望对你们有所帮助😘长期更新,记得收藏Presto不支持字段类型自动转换(插入和比对)非string类型字段,hive传入’'空字符串可自动转,presto需传入nullHive 自动转换,Presto try_cast(value AS type)Presto不支持字段值不符合定义的字段类型时自动置空如:字段类型为decimal(10,2),h原创 2022-04-19 11:18:27 · 3711 阅读 · 4 评论 -
Presto Max requests per destination 1024 exceeded for HttpDestination
该报错为当前Presto连接数超出了默认的限制,需要检查Presto服务端连接进程的状态,或者根据如下方法调节连接数限制。for slave/worker:sudo su -c 'echo "exchange.http-client.max-requests-queued-per-destination=5000exchange.http-client.max-connections-per-server=5000" >> /etc/presto/conf/config.propertie原创 2022-04-11 10:18:16 · 1137 阅读 · 0 评论 -
Presto Cannot write to non-managed Hive table
使用Presto向Hive表插数据时遇到这个错,我还是头回碰见。Cannot write to non-managed Hive table网上搜了一下也没发现类似的错,不过让我注意到了non-managed Hive table。那么,什么是non-managed Hive table?查了一下才发现,原来 Managed Table 就是 Internal Table,也就是内部表,当建表时没有指明Managed或者External,就会默认创建Managed Table。而 non-man原创 2022-03-23 11:27:48 · 3664 阅读 · 0 评论 -
我可爱的卧龙凤雏同事又双叒叕搞了个BUG
亲爱的朋友们,我可爱的卧龙凤雏同事又双叒叕搞了个BUGDolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情还是在DolphinScheduler上发生的。背景上一篇也提到过,某业务数仓要上云,把本地正常运行的任务弄到云上,DolphinScheduler相关的工作很简单,导出工作流再导入就可以了。卧龙的操作同事卧龙将工作流导入云上DolphinScheduler之后,执行工作流,发现没有生成任务实例,查看工作流实例,任务上的标志是暗的查看日原创 2022-03-02 16:15:08 · 920 阅读 · 0 评论 -
DolphinScheduler无故删除HDFS上的Hive库表目录
亲爱的朋友们,我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情就是在DolphinScheduler上发生的。据领导描述,某团队负责的某业务数仓上云后,HDFS上的Hive库表目录总是无故被删,他们找不到原因,让我协助处理一下。本来某业务数仓上云是一个很简单的工作,对于DolphinScheduler上的任务而言,只需要把工作流导出,然后导入到云上的DolphinScheduler,不幸的是XX云上的S原创 2022-03-02 11:53:06 · 3692 阅读 · 0 评论 -
使用Presto SQL实现身份证号部分脱敏
众所周知,新的身份证号是18位,可以从中获取到地址、生日、性别等信息。第1-2位数字:所在省份的代码。第3-4位数字:所在城市的代码。第5-6位数字:所在区县的代码。第7-14位数字:出生年、月、日。第15-17位数字:同一地址码所标识的区域范围内,对同年、月、日出生的人员编定的顺序号。其中,第十七位奇数分给男性,偶数分给女性。第18位数字:校验码。校验码数字分别用0-1十个阿拉伯数字或 ×代表。这个校验码是通过法定方式计算得出的。计算结果为10的时候,用希腊数字×代表。例子:-- subs原创 2021-12-15 11:06:26 · 1655 阅读 · 0 评论 -
使用Presto访问MySQL报错
‘failureInfo’: {‘type’: ‘com.facebook.presto.spi.PrestoException’, ‘message’: ‘Could not create connection to database server. Attempted reconnect 3 times. Giving up.’, ‘cause’: {‘type’: ‘com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException原创 2021-10-13 14:01:35 · 1009 阅读 · 0 评论 -
使用Presto实现Hive动态分区
Presto和Impala、Spark SQL都是SQL查询引擎,也都是基于内存运算。但是Presto支持多种数据源,比如Hive、TiDB、Redis、Kafka、ES、Oracle等等,可以跨数据源连表查,既快又方便。不过多介绍了,下面进入正题。Hive 动态分区使用方法见下:set hive.exec.dynamic.partition=true; #开启动态分区,默认是falseset hive.exec.dynamic.partition.mode=nonstrict; #开启允许所有原创 2021-09-01 14:37:17 · 1623 阅读 · 5 评论 -
Kudu简单使用
环境版本:CDH 6.3.2 | Impala 3.2.0 | Hive 2.1.1 | Hue 4.2.0 | kudu 1.10.0# 创建kudu表,需指定主键、分区CREATE TABLE kudu_table( id BIGINT, name STRING, PRIMARY KEY(id))PARTITION BY HASH PARTITIONS 16STORED AS KUDU;# 创建impala外部表映射kudu表CREATE EXTERNAL TABL.原创 2021-05-20 18:15:48 · 564 阅读 · 2 评论 -
删除MySQL历史数据并修改sqlsource.status lastindex脚本
每月1号 00:00:00定时执行保存最近一个月数据,如1月1日删除12月1日之前(11月)数据,12月31日时有最多的两个月数据(11与12月)[flume@hqc-test-hdp3 ~]$ crontab -eno crontab for flume - using an empty onecrontab: installing new crontab[flume@hqc-test...原创 2019-12-10 15:42:26 · 514 阅读 · 2 评论 -
Hadoop与MongoDB整合(Hive篇)
1.背景公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for Hadoop2.MongoDB简介–摘自邹贵金的《mongodb》一书NoSQL数据库与传统的关系型数据库原创 2016-06-17 11:33:30 · 29805 阅读 · 11 评论 -
大数据平台作业智能诊断/管理组件之Apache Eagle
源码见:https://github.com/apache/eagle官方文档见:http://eagle.apache.org/docs/latest目录前言一、Apache Eagle 介绍二、Quick StartInstallationBuild EagleDeploy Eagle三、遇到的问题前言随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来没有任何问题,但占用了极大的资源。为了改善这种情况,我最近调研了两个开源的大数据平台作业智能诊断/管理组件,D原创 2020-11-23 14:59:19 · 875 阅读 · 2 评论 -
大数据平台作业智能诊断/管理组件之Dr.Elephant
源码及官方文档见:https://github.com/linkedin/dr-elephant目录前言一、Dr.Elephant 介绍二、Quick Setup Instructions三、遇到的问题前言随着业务开展,公司在大数据集群上的作业越来越多,而程序员的水平参差不齐,有些程序跑起来没有任何问题,但占用了极大的资源。为了改善这种情况,我最近调研了两个开源的大数据平台作业智能诊断/管理组件,本文先分享Dr.Elephant。一、Dr.Elephant 介绍Dr.Elephant被定位成一个对原创 2020-11-23 14:32:44 · 926 阅读 · 1 评论 -
基于Docker从零搭建Prometheus+Grafana
环境版本:Ubuntu Kylin 20.04目录1 安装docker2 拉取相关镜像3 node exporter3.1 start node exporter3.2 查看端口91003.3 访问url4 prometheus4.1 编辑prometheus.yml4.2 start prometheus4.2 查看端口90904.3 访问url5 grafana5.1 start grafana5.2 查看端口30005.3 访问url5.4 简单使用grafana备注:1 安装docker使用原创 2020-10-09 11:31:25 · 1891 阅读 · 6 评论 -
使用Sqoop将SQL Server视图中数据导入Hive
环境版本: ·HDP-2.5.3 ·Hive 1.2.1 ·Sqoop 1.4.6 ·SQL Server 2012文章目录1.下载sqljdbc4.jar放在$SQOOP_HOME/lib下2.测试sql server连接2.1 List available databases on a server2.2 List available tables in a database2.3 ...原创 2019-10-30 21:57:30 · 2089 阅读 · 2 评论 -
使用DataX将Hive与MySQL中的表互导
一、DataX简介(摘自https://github.com/alibaba/DataX)DataXFeaturesDataX详细介绍Quick StartSupport Data Channels二、开始正文备注:1.可能会遇到的错误2.MysqlWriter 针对 Mysql 类型转换列表:一、DataX简介(摘自https://github.com/...原创 2018-08-30 15:25:44 · 18360 阅读 · 5 评论