作者:禅与计算机程序设计艺术
1.简介
1997年诞生于美国加利福尼亚州圣克拉拉市的一家初创企业Asterix是一个非常著名的关系型数据库管理系统。它具有优秀的数据处理能力、灵活的查询语言、良好的性能表现及可靠的扩展性。而随着互联网的崛起和云计算的发展,越来越多的人开始关注数据分析的新领域。不得不说,云计算确实给了很多新的可能。
在AWS上,Amazon Athena服务如期而至,它提供一个服务器端的数据分析服务,可以直接从S3中读取数据,然后进行复杂的查询分析,并且支持非常丰富的函数库。而且,它也提供了BI工具(比如Quicksight),可以方便地将结果呈现给最终用户。
2017年AWS推出了基于Apache Hive的Hadoop Service,用于快速并行处理大量的数据,包括ETL(Extract-Transform-Load)管道(Extract-Transform-Load Pipeline)。但是,由于Hive存在一些缺陷,比如无状态的设计,无法应对动态数据的增删改,没有容错机制等,因此,当面临海量数据时,需要用到更为高级的分布式数据库系统,才能做到快速查询、高效处理。
本文所要讨论的是Amazon Athena中的数据传输管道(Data Transfer Pipelines)以及最佳实践。本文适合已经有一定经验的IT专业人员阅读,也可以作为后续的学习材料,帮助读者提升技能。
2.基本概念术语说明
2.1 数据传输管道概述
数据传输管道(Data Transfer Pipelines)一般指从源头获取原始数据到目的地持久化存储过程的流程。