
基于Spark对时空轨迹数据处理分析方法
本专栏功能:
1、2021.06-2024-0306之间的开发技巧
2、自己使用Spark开发部分心得
3、部分开发技巧代码,第一份JG开发工作
BigData_老李
在岗消防
开发运维两手抓
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark-关于《传播溯源》算法的几点思考
刚接到需求时一脸懵,当时正值疫情,传播溯源在追踪0号感染者有很大的意义,当然在别的领域也是如此,来活了.......近日想起来刚工作不久时候组长安排给我的任务,基于Spark图计算代码开发一个传播溯源的代码。原创 2024-10-11 08:49:18 · 272 阅读 · 0 评论 -
轨迹平滑算法_参考资料
python或者scala都行。原创 2024-02-02 10:25:26 · 440 阅读 · 0 评论 -
航迹rh参考资料
第六部分:什么是轨迹级融合(或轨迹融合)?_哔哩哔哩_bilibili第五章轨迹规划 - 5.5 轨迹融合Blend - 知乎第十一讲航迹融合.ppt【一等奖解题思路】基于雷达数据的航迹实时关联与轨迹融合任务赛题 - 知乎原创 2024-01-17 16:07:48 · 447 阅读 · 0 评论 -
Spark数据倾斜_产生原因及定位处理办法_生产环境
在Spark作业中,如果存在可能导致数据倾斜的key,可以考虑将这个key进行过滤,滤除可能导致数据倾斜的数据,从而在Spark作业中避免数据倾斜。在最近的项目中,历史和实时数据进行关联平滑时出现了数据倾斜,产生了笛卡尔积,具体现象如下:运行内存175GB,核数64,运行代码时,查看SparkUI界面的active jobs ,数据输入是1G,成功的stage为0,一直是0/120,由此,通过排查,的确发生笛卡尔积。原创 2023-11-16 09:46:36 · 873 阅读 · 0 评论 -
轨迹分段处理思路
需id,lon,lat,time,v,a,heigh,deep。数据预处理,空值处理,时间处理,异常点处理,轨迹单点处理。轨迹分段,速度、加速度,高度、深度阈值设置;原创 2023-10-31 22:14:14 · 299 阅读 · 0 评论 -
Spark开发_简单DataFrame判空赋值逻辑
Spark开发_简单DataFrame判空赋值逻辑。原创 2024-02-02 16:13:57 · 194 阅读 · 0 评论 -
生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB
本文将介绍如何使用Apache Spark在大数据环境中,将数据库数据转换为DataFrame并进行查询。主要内容涵盖了从数据库获取数据、将数据转换为DataFrame、创建临时视图、展示数据、构造SQL查询语句,以及使用正则表达式和Spark SQL执行最终查询等步骤。该代码具有高度的通用性,可以适配多种数据库,如HBase和MySQL。原创 2024-02-01 10:22:41 · 650 阅读 · 0 评论 -
生产环境_Spark找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。原创 2024-01-27 19:41:39 · 413 阅读 · 0 评论 -
轨迹大数据分析:革命性的地理空间分析与Apache Spark:处理空间不连续的点数据
本文将介绍如何使用Apache Spark对地理空间数据进行处理。我们将以实际代码示例展示如何解决点数据中由于跨越180度经线而产生的突变问题。通过分析连续点之间的经度差异,并巧妙地插值生成新数据,我们将展示如何稳健地处理这类特殊情况。这个技术不仅可以应用于航行和地理信息系统等领域,同时也为大规模地理数据处理提供了新的思路和方法。原创 2023-12-22 20:21:47 · 554 阅读 · 0 评论 -
生产环境_Apache Spark技术大牛的实践:使用DataFrame API计算唯一值数量并展示技术(属性报告)
可以使用下面代码运行一下看看结果,听有趣的,我写的代码中计算了不同字段的值的数量,并生成了一个显示字符串来描述这些数据的分布情况然后使用"details"列限制显示的行数,以便更方便地查看和分析数据,其实是生产环境中的应用,为了不涉及敏感信息,进行了数据和字段的脱敏处理。给前端提供算法集成好的数据,对算法处理后的数据进行进一步删选展示。原创 2023-12-16 17:10:21 · 463 阅读 · 0 评论 -
生产环境_Spark解析JSON字符串并插入到MySQL数据库
随后使用SparkSQL将这条数据写入mysql中特定的库表,其实还可以做一个优化的,比如入库前先判断有没有这条数据,如果有则不插入,如果没有就插入,优化这部分我没做,有时间在改吧。我需要将一段从前端传过来的JSON字符串进行解析,并从中提取出所需的数据,然后将这些数据插入到MySQL数据库中。库解析JSON数据将上面的json串解析,使用。注意的是,只要配置好mysql的配置即可。spark代码会使用。最近开发有一个需求,是这样的。json格式样例如下。原创 2023-12-16 15:37:11 · 793 阅读 · 0 评论 -
生产环境_Spark处理汽车行驶轨迹中跨越本初子午线的经度列
始处理轨迹数据跨越本初子午线的问题原创 2023-12-15 10:45:28 · 774 阅读 · 0 评论 -
生产环境_使用Scala语言_Spark编写灵活的SQL查询生成器
使用Scala编写灵活的SQL查询生成器原创 2023-12-14 16:56:41 · 470 阅读 · 0 评论 -
spark将dataframe中的字段转成一列
【代码】spark将dataframe中的字段转成一列。原创 2023-12-08 16:25:48 · 500 阅读 · 0 评论 -
生产环境_从数据到层级结构JSON:使用Spark构建多层次树形数据_父子关系生成
文将介绍如何使用Apache Spark以及JSON4S库,将CSV数据转换为层级结构的JSON格式。通过分析国家、性别、种族和民族等信息,我们将展示如何构建层级结构的节点,并将其转换为易于理解和处理的JSON格式。这篇博客将帮助读者了解如何利用Spark强大的数据处理功能,以及在JSON处理方面的最佳实践。原创 2023-11-30 17:50:36 · 580 阅读 · 0 评论 -
生产环境_sql获spark将课程与对应的选课人员以逗号分隔的形式存储
将课程和人员列进行分组,然后将人员列聚合为逗号分隔的字符串。原创 2023-11-28 16:10:44 · 597 阅读 · 0 评论 -
生产环境_移动目标轨迹压缩应用和算法处理-Douglas-Peucker轨迹压缩算法
1、以路面上行驶的汽车为例,即在地图应用中,对GPS轨迹数据进行压缩,减少数据传输和存储开销,因为轨迹点太频繁了,占用空间太大,运行节点太慢了,经过小组讨论需要上这个算法。图片来源:郑宇博士《computing with spatial trajectories》生产环境中,以汽车等为例子,需要进行调试参数,比如点缩小10倍,6倍等,具体业务具体分析。2、需要注意的问题,拐点怎么保留,如何才能初拐点外的经纬度点压缩。3、压缩一定与轨迹平滑相关联,还要平滑后的轨迹不失真。原创 2023-11-21 12:00:34 · 624 阅读 · 0 评论 -
数据处理生产环境_获取当前日期的前一天日期
现在我每天接入实时数据,保存在库里,时间为最近时间的两天数据,比如今天是20号,数据库里存的数据就是19号,20号的数据,现在我要进行跑批任务,将数据库里的19号的数据离线跑批进行部分逻辑处理后,增加的存入原创 2023-11-21 11:00:08 · 962 阅读 · 0 评论 -
数据处理生产环境_利用MurmurHash3算法在Spark和Scala中生成随机颜色
生产环境中的前端轨迹是没有颜色的,我这边作为数据工程的应用层,必须支撑给不同的编号 数据一个随机颜色,如果数据中编号一样了,也要支持同一颜色目标是同一种随时颜色。此代码定义了一个函数,使用MurmurHash3算法根据输入的种子生成随机颜色。代码主要功能是使用自定义的函数(UDF)将这个函数应用到DataFrame上,并添加一个新列“c1”来显示生成的随机颜色。效果非常好用。原创 2023-11-17 14:57:24 · 1322 阅读 · 0 评论 -
数据处理生产环境_利用Scala和Spark对DataFrame进行复杂数据操作__withClumn,split及SubString_将包含两列的DataFrame进行转换和拆分
包含两列的DataFrame进行转换和拆分,我想实现的是将dataframe表table1中的字段b1与c1的内容使用下划线_连接起来列的名字为d1,比如比如学习_1,睡觉_2,吃饭_3,这是我的第一个需求;随后我想保留的是dataframe表table1中的字段d1中的数据比如学习_1,睡觉_2,吃饭_3,中的数据中_前后的数据分别作为两列e1,f1,原创 2023-11-17 00:18:33 · 437 阅读 · 0 评论 -
Spark处理方法_提取文件名中的时间
本文主要使用spark开发中遇到一个解析文件时间问题,目前解决了解析出最后一个文件时间添加到读取所有outrdd的dataframe列中,后期优化的话,要将每一个文件名解析出来的时间放到读取的文件内容中。原创 2023-11-10 09:15:24 · 621 阅读 · 0 评论