Apache Spark中国社区-CSDN博客

转载 Community Over Code Asia 2025 专题介绍之 Data Storage & Computing

大数据也是 ASF 非常重要的组成部分，ASF 有非常多的大数据存储和计算领域的项目，比如大家熟知的 Apache Hadoop, Apache Spark, Apache HBase, Apache Ozone, Apache CarbonData, Apache Cassandra, Apache ZooKeeper 等等，在这个主题中，大家会学习到这些技术的前沿趋势和来自一线用户的实践经验、原理、架构分析等精彩内容。每个数据库来自不同的供应商，需要专门的技能集，并且具有独特的备份和故障恢复流程。

2025-07-16 18:00:21 23

转载阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

摘要：本文整理自阿里云 EMR Serverless Spark 产品专家玄橙老师在用户钉群的直播分享。从业务痛点、产品定位、产品介绍以及客户案例四个部分详细介绍了 EMR Serverless Spark 产品。EMR Serverless Spark 用户钉群：58570004119EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。同时，它

2025-07-10 12:00:35 34

转载一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

其次，通过 Serverless Spark 构建了数仓经典分层架构，95%的数据源采用 DataWorks 数据集成的实时入湖（ODS），经过清洗转化为明细数据（DWD），然后根据主题将明细层数据轻度聚合（DWS），再根据特定应用或业务场景提供高质量的指标数据（ADS），为上层业务系统提供支持。在 ML/AI 应用方面，一体系通过 DataWorks 调度 Spark 任务，进行数据的计算和聚合，处理后的指标数据从数据湖推送到了 AI 知识库，推动了 Data + AI 技术在实际业务中的应用。

2025-06-10 08:00:23 61

转载 Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

数据存储阿里云 OSS ，提供高可靠、低成本的对象存储。该场景同样是在 Airflow 中调度提交任务到 EMR Serverless Spark，由于增量数据可能会有周期性变化，借助于 Serverless 的弹性伸缩能力，可显著提高资源利用率，避免资源浪费，相比于之前半托管集群的定时弹性伸缩更加稳定和流畅。流利说是领先的科技驱动的教育公司，公司自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统，致力于为用户提供一整套系统性的英语学习解决方案，从听、说、读、写多个维度提升用户的英语水平。

2025-05-29 17:34:43 58

转载开源大数据平台 Data+AI 场景经典案例合集（文末有礼）

用友畅捷通基于 EMR StarRocks 搭建实时湖仓，通过其高性能查询、物化视图优化、流批一体能力，支撑实时大屏、BC 一体化报表及用户画像等场景，替代 ClickHouse 等分散方案后，解决了历史系统回写效率低、数据孤岛严重、技术架构分散等问题，解决了查询性能瓶颈，统一了技术栈，同时满足了业务实时数据分析需求。喜马拉雅大数据全面上云架构升级后，实现了秒级弹性伸缩，减少了数万张表，任务性能提升40%以上，即席查询性能提升30%以上，大幅提升了数据的时效性和开发效率。

2025-05-12 18:00:28 393

转载立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

接着，使用Serverless Spark的计算能力，调用机器学习模型服务，将商品标题转换为向量表示。通过构建数据接口，Milvus中的数据可以对外提供查询服务，用户可以通过该接口输入一个商品或其特征，系统将返回相似商品的列表。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理和模型训练的全流程。为了应对新的业务挑战，蝉妈妈选择与阿里云合作，利用其 Serverless Spark & Milvus，构建了符合业务场景和分析师习惯的工程解决方案。

2025-04-24 16:00:35 499

转载鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

在离线调度方面，我们实施了两种策略一种引擎，一是使用 Airflow 服务支持有代码基础的研发用户，同时为普通数据分析师和数仓研发提供了 DolphinScheduler 服务，这两种调度系统都实现了对 EMR Serverless Spark 的对接，满足平台服务的灵活性。数据也应用于算法团队进行业务探索与数据科学分析。通过这一系列技术栈的优化，我们不仅优化了数据管理和分析流程，还有效支持了公司的全球化战略和业务扩展，目前我们已经在海外基于 EMR Serverless Spark 搭建类似数据架构。

2025-04-15 12:00:16 108

转载百观科技基于阿里云 EMR 的数据湖实践分享

百观数据平台，主要面向数据工程师、数据分析师和数据科学家，其业务场景以数据的即席分析为主，以定时调度任务为辅，并提供简单易读的 OLAP 查询，覆盖数据接入、数据清洗、数据分析与聚合、数据交付全流程。在保留开箱即用的基础上，EMR 为用户提供了高度定制化的选项，除了内置软件的参数均可调整之外，对于有能力的用户，可以深入 EMR 集群的系统内部做更自由的开发，以满足复杂且多样的生产需求。百观以全域数据为基础，通过客观科学的数据分析，解锁数据价值，为客户提供具有现实指导意义的洞察和解决方案。

2025-04-02 08:00:44 77

转载最佳实践 | 在 Notebook 中使用 Python 第三方库

三种方式均能帮助您实现这一目标，建议根据实际情况选择最适合的方式。中填写库的名称及版本，不指定版本时，默认安装最新版本。(链接：https://x.sm.cn/6YT3CJ3)下拉列表中选择前一步骤创建的运行环境，单击。在编辑会话之前，您需要先停止会话。在编辑会话之前，您需要先停止会话。第三方库处理数据的场景，例如使用。单元格中，输入以下命令，然后单击。单元格中，输入以下命令，然后单击。页面，单击目标工作空间名称。页面，单击目标工作空间名称。在使用该方式时，需确保已安装。第三方库，其开源许可证请参见。

2025-03-20 08:03:04 82

转载最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

01背景信息阿里云 EMR Serverless Spark 版是一款兼容开源 Spark 的高性能 Lakehouse 产品，提供了企业级全托管的数据平台服务。Apache Doris是一个高性能、实时的分析型数据库，能够较好地满足报表分析、即席查询、数据湖联邦查询加速等使用场景。更多信息，请参见Apache Doris 简介。（链接：https://x.sm.cn/FVRekM4）基于Apac...

2025-03-13 08:03:31 105

转载最佳实践 | 在 EMR Serverless Spark 中实现 StarRocks 读写操作

EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。StarRocks官方提供了Spark Connector用于Spark和StarRocks之间的数据读写，EMR Serverless Spark可以在开发时...

2025-03-06 19:00:24 118

原创美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

作者：美的楼宇科技事业部先行研究中心智能技术部美的楼宇科技 IoT 数据平台建设背景美的楼宇科技事业部（以下简称楼宇科技）是美的集团旗下五大板块之一，产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯以及楼宇自控软件和建筑弱电集成解决方案，远销海内外200多个国家。针对当前设备数据量庞大且持续增长、数据呈现半结构化特点的现状，现有系统仅停留在数据存储和基础使用层面，缺乏深度挖掘数...

2025-02-19 08:31:39 955

原创阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

作者：微财技术研发经理宋鑫微财介绍微财是一家创新型的金融科技企业，凭借多年积累的金融科技能力和数据处理优势，为客户提供消费分期等金融信息服务，致力于成为值得信赖的金融机构合作伙伴。旗下拥有好分期等品牌，为高成长用户提供信用分期借款过程中的综合性信息、技术以及辅助服务。业务挑战数据资源是金融科技企业的核心价值，微财依托大数据评估用户借款过程中的风险，随着微财业务的快速发展，积累了大量用户数据...

2025-01-20 08:30:15 657

转载阿里云 EMR 发布托管弹性伸缩功能，支持自动调整集群大小，最高降本60%

开源大数据平台 E-MapReduce（简称“EMR”）是云原生开源大数据平台，为客户提供简单易集成的 Hadoop、Hive、Spark、StarRocks、Flink、Presto 等开源大数据计算和存储引擎。EMR on ECS 是指 EMR 在 ECS 上运行的方式。EMR on ECS 将 EMR 的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理 EMR 集...

2025-01-16 08:00:39 179

转载奇富科技基于 Celeborn 优化 Spark Shuffle 实践

引言：在大数据处理中，Shuffle 机制是计算组件的核心，负责将数据导向正确的处理节点，其设计直接影响任务执行效率和资源利用率。从 MapReduce 到 Spark，Shuffle 机制的进化不仅体现了大数据技术的进步，也凸显了优化 Shuffle 以应对大规模集群挑战的重要性。背景奇富科技的大数据平台每日处理超过数十万个离线任务（90%以上基于 Spark）和上万个 adhoc 查询，S...

2025-01-15 18:30:56 147

转载最佳实践 | 在 PySpark 程序中使用 Python 第三方库

PySpark 作业往往需要借助 Python 第三方库来增强数据处理和分析能力。本文详细介绍了如何利用 Conda 和 PEX 这两种方法，有效地将这些库集成到 Serverless Spark 环境中，确保作业在分布式计算场景下的稳定性和灵活性。01背景信息Conda 是一个跨平台的包管理和环境管理系统，它允许用户轻松创建、保存、加载和切换多个环境，每个环境都可以拥有独立的 Python 版本...

2025-01-09 08:03:25 164

原创 Celeborn Spark 集成最新进展

摘要：本文整理自阿里云基础平台开发冯明潇老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。本文从 Celeborn 的核心设计和关键机制等方面详细介绍了 Celeborn Spark 集成最新进展，解决了现有 Shuffle 局限性，显著提升了大数据引擎的性能、稳定性和灵活性。EMR Serverless Spar...

2025-01-02 08:30:43 1280

原创基于 Paimon x Spark 采集分析半结构化 JSON 的优化实践

摘要：本文整理自阿里巴巴 A+ 数据湖架构师康凯老师和 Paimon PMC Member 毕岩老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了阿里巴巴 A+ 业务基于 Variant 类型的 JSON 链路优化，并从技术原理层面深入剖析了 Variant 及 Paimon 在半/非结构化的演进。Ap...

2024-12-25 08:03:07 1225

转载最佳实践 | 在 EMR Serverless Spark 版中实现 MaxCompute 读写操作

背景信息阿里云 EMR Serverless Spark 版[1]是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案，致力...

2024-12-19 08:00:51 162

转载 vivo 湖仓离线方向的落地实践

摘要：本文整理自vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 vivo 互联网大数据团队基于 Spark + Paimon 进行湖仓架构选型及升级的历程。详细介绍了其基于归因/拉链表、物理删除、数据拼接、查询提速等增量...

2024-12-11 08:03:29 215

原创 Paimon x Spark：助力企业 Lakehouse 架构升级

摘要：本文整理自 Paimon Committer邹欣宇老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon x Spark 的发展历程，企业搭建 Lakehouse 面临的挑战，Paimon 通过分层元数据架构支持 ACID 事务，主键表通过引入 LSM Tree 结构实现实时场景分钟级时...

2024-12-04 18:04:29 1274

转载 Paimon 流批一体存储演进

摘要：本文整理自 Paimon PMC Chair 李劲松老师在11月15日 Apache Spark & Paimon Meetup，助力 Lakehouse 架构生产落地上的分享。文章介绍了 Paimon 湖格式的演进过程，Paimon 的典型应用场景包括 Flink 流式入湖 + Spark 批查、基于 Flink+Spark+Paimon 构建 Lambda 架构等，还详细介绍了 ...

2024-11-29 12:01:05 499

转载通过 Jupyter Notebook 与 EMR Serverless Spark 进行交互的最佳实践分享

阿里云 EMR Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。Jupyter Notebook 是一个强大的交互式开发工具，您可以在 Web 界面中即时编写和执行代码，并实时查...

2024-11-20 18:01:33 129

转载倒计时1天！Apache Spark & Paimon Meetup · 北京站

????Apache Spark&PaimonMeetup，助力 Lakehouse 架构生产落地活动时间：2024年11月15日 13:30-17:30（本周五）活动地点：北京市朝阳区阿里中心-望京A座-05F报名地址：https://hd.aliyun.com/form/5276数据工程师、分析师、技术爱好者们注意啦！本周五13:30，我们将在北京举办一场Apache Spark ...

2024-11-14 08:30:30 63

转载通过 Apache Airflow 的 Livy Operator 自动化向 EMR Serverless Spark 提交任务

Apache Airflow是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow的Livy Operator实现自动化地向EMR Serverless Spark提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任...

2024-11-06 18:16:03 113

转载 Apache Spark & Paimon Meetup · 北京站，助力 LakeHouse 架构生产落地

活动介绍众所周知，LakeHouse 架构是当前大数据领域领先的技术架构之一。LakeHouse 由海外知名大数据公司 Databricks 提出，旨在融合数据湖的灵活性及成本效益与传统数据仓库的强大事务支持、高性能分析能力于一体，并且能够无缝集成机器学习等多种应用场景，为企业提供了更加全面的数据管理和分析平台。Apache Spark 作为近十几年来大数据领域最优秀的开源项目之一，提供了强大统一...

2024-11-04 18:00:27 75

转载 EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会实录整理而成，演讲信息如下：演讲人：李钰（绝顶） | 阿里云智能集团资深技术专家，阿里云 EMR 团队负责人活动：2024 云栖大会 -开源大数据专场01数据平台技术演变追溯数据处理软件及平台的演进历程，每一次大的架构升级与变迁都是由全球范围的新兴应用出现和落地触发的。具体来说，20世纪60-70年代数据库技术出现，数据库技术的普及和落地与个人计算机（PC）兴起的浪潮息息...

2024-10-31 11:17:59 132

转载通过 Apache Airflow 向 EMR Serverless Spark 提交任务

Apache Airflow是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过Apache Airflow实现自动化地向EMR Serverless Spark提交任务，以实现作业调度和执行的自动化，帮助您更有效地管理数据处理任务。01前提条件已安装并启动...

2024-10-29 18:00:31 161

转载通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发

摘要本文以 ECS 连接阿里云 EMR Serverless Spark 为例，介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。前提条件已安装Java 1.8或以上版本。如果使用 RAM 用户（子账号）提交 Spark 任务，需要将 RAM 用户（子账号）添加至 Serverless Spark 的工作空间中，并授予开发者或开发者以上的角...

2024-10-22 18:30:32 131

转载通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代，流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务，展示其在流处理方面的易用性和可运维性。前提条件已创建工作空间，详情请参见创建工作空间[1]。操作流程步骤一：创建实时...

2024-10-15 18:02:51 92

转载阿里云 EMR Serverless Spark 版正式开启商业化

阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖，本文将简要介绍 EMR Serverless Spark 的产品优势、应用场景、支持地域，及计费模式等。EMR Serverless Spark 是一款云原生，专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品内置 Fusion Engine，100% 兼容开源 Spark 编程接口...

2024-09-21 10:01:57 208

转载【最后三天】参加 EMR Serverless Spark 产品评测，赢机械键盘、充电宝等礼品！

EMR Serverless Spark是一款云原生、专为大规模数据处理与分析而设计的全托管 Serverless Spark 计算产品。为企业提供了围绕Spark 任务的一站式开发、调试、调度以及运维等产品化服务，极大的简化了数据处理全生命周期的工作流程，使企业更加专注于数据的分析与价值提炼。现面向所有用户发出诚挚邀请，即日起至2024年7月18日，免费体验产品，并写下宝贵评测反馈，即有机会赢...

2024-07-15 18:30:30 127

转载【邀请函】相约CommunityOverCode Asia 2024，共探Flink、Paimon、Celeborn开源新境界!

CommunityOverCode 是由 Apache 软件基金会（ASF）主办的一系列全球性会议，旨在促进开源技术的发展和社区参与。自 1998 年以来，ApacheCon 一直是这一系列活动的核心，吸引了不同背景和技术层级的参与者，关注于“明天的技术”。随着对亚太地区日益增长的关注，2021年首次举办面向该地区的在线会议，并在北京成功举办了首场线下会议。今年，CommunityOverCode...

2024-07-05 16:30:47 147

转载 EMR Serverless Spark：结合实时计算 Flink 基于 Paimon 实现流批一体

简介EMR Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，使用户能更专注于数据分析和价值提炼。实时计算 Flink 版是阿里云提供的全托管 Serverless Flink 云服务，具备实时应用的作业开发、数据调...

2024-06-12 18:00:29 334

转载基于阿里云 EMR Serverless Spark 版快速搭建 OSS 日志分析应用

背景随着互联网服务的广泛普及与技术应用的深入发展，日志数据作为记录系统活动、用户行为和业务操作的宝贵资源，其价值愈发凸显。然而，当前海量日志数据的产生速度已经远远超出了传统数据分析工具的处理能力，这不仅要求我们具备高效的数据收集和存储机制，更呼唤着强大、灵活且易用的数据分析平台的诞生。在此背景下，Apache Spark，这一专为大规模数据处理而设计的计算引擎，成为了构建高性能日志分析应用的理想选...

2024-05-31 18:01:13 230

转载阿里云 EMR Serverless Spark 版开启免费公测

阿里云 EMR Serverless Spark 版是一款云原生，专为大规模数据处理和分析而设计的全托管 Serverless 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理的全生命周期工作流程。使用 EMR Serverless Spark 版，企业可以更专注于数据分析和价值提炼，提高工作效率。阿里云EMRServerlessSpark版...

2024-05-22 18:00:53 119

转载知乎基于 Apache Celeborn 优化 Spark Shuffle 的实践

背景知乎Hadoop集群上每天运行着大量的Spark作业，包括调度平台提交的例行作业、Kyuubi提交的Spark SQL作业，每天Spark作业的Shuffle量达到3PB以上，单个Spark作业Shuffle量最大接近100TB，单个Stage 50TB。同时Hadoop集群上每天有1PB左右的MR作业Shuffle，以及DataNode的磁盘IO。Spark ESS Shuffle在大作业稳...

2024-05-06 18:00:33 787

转载官宣：Apache Celeborn 顺利毕业，成为 Apache 顶级项目！

2024年4月23日，Apache 软件基金会（ASF）官方宣布 Apache Celeborn 顺利毕业，成为顶级项目（TLP, Top Level Project）：（Apache 官网部分截图）关于 Apache CelebornApache Celeborn 源于阿里云自研的 EMR Remote Shuffle Service，旨在解决大数据引擎处理中间数据遇到的性能、稳定性及弹性问题。...

2024-04-28 12:04:00 363

转载阿里云 EMR Serverless Spark 版免费邀测中

随着大数据应用的广泛推广，企业对于数据处理的需求日益增长。为了进一步优化大数据开发流程，减少企业的运维成本，并提升数据处理的灵活性和效率，阿里云开源大数据平台 E-MapReduce （简称“EMR”）正式推出 EMR Serverless Spark 版，并已开启邀测！以强大的 Spark Native Engine 为基础，阿里云 EMR Serverless Spark 版旨在提供一个全托管...

2024-03-20 12:10:48 264

原创 Paimon 与 Spark 的集成（二）：查询优化

PaimonApache Paimon (incubating) 是一项流式数据湖存储技术，可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念，可以与 Flink / Spark / Trino 等诸多业界主流计算引擎进行对接，共同推进 Streaming Lakehouse 架构的普及和发展。Paimon x Spark‍‍Apache ...

2024-03-08 14:00:50 1522

空空如也

空空如也