现代企业往往需要在多个互不连通的系统中管理数据,其中包括结构化数据库、非结构化文件以及独立的可视化工具,这些系统间的隔阂阻碍了分析工作流程的推进,限制了深度洞察的生成。此外,独立的可视化平台也常常形成壁垒,阻碍团队全面挖掘商业洞见。
这些互不连通的工作流程,更阻碍了企业充分释放数据投资价值,导致决策延迟,错失了结合多种数据类型进行全面分析的宝贵机会。
Amazon SageMaker现推出三项全新功能,加速从原始数据到可执行洞察的转化进程。
01
Amazon QuickSight集成
您可直接从Amazon SageMaker Unified Studio启动Amazon QuickSight,利用项目数据构建仪表盘,随后将其发布至Amazon SageMaker Catalog,以便在整个组织内更广泛地发现和共享数据。
02
Amazon SageMaker在Amazon SageMaker Catalog中,新增对Amazon S3通用存储桶和Amazon S3 Access Grants的支持
借助Amazon S3 Access Grants,团队可更轻松地查找、访问存储在Amazon S3通用存储桶中的各类数据(包括非结构化数据),并开展团队协作,同时保持精细化的访问控制。
03
从湖仓架构自动导入数据
无需手动设置,即可将湖仓架构中现有的Amazon Glue Catalog(GDC)数据集,自动导入至Amazon SageMaker Catalog。
Amazon SageMaker这些全新功能提供统一且受管控的体验,覆盖数据全生命周期。您既可自动导入湖仓架构中现有的结构化数据,又能无缝编目Amazon S3中的非结构化数据内容,还能通过Amazon QuickSight高效实现数据可视化呈现,并且所有操作均采用一致的管控与访问控制机制。
下文将详细介绍每一项功能。
Amazon SageMaker与
Amazon QuickSight集成
通过该集成,您可使用Amazon SageMaker项目中的数据,在Amazon QuickSight中构建仪表盘。
当您从Amazon SageMaker Unified Studio启动Amazon QuickSight时,Amazon SageMaker会自动创建Amazon QuickSight数据集,并将其整理至仅项目成员可访问的安全文件夹中。
此外,您构建的仪表盘会保存在该文件夹中,并自动作为资产显示在您的Amazon SageMaker项目中。在项目中,您可以将它们发布到Amazon SageMaker Catalog,并与企业目录中的用户或用户组共享,从而确保了仪表盘在Amazon SageMaker Unified Studio中保持有序、可被发现且受管控。
要使用此集成功能,Amazon SageMaker Unified Studio域和Amazon QuickSight账户,必须使用同一Amazon IAM Identity Center实例与Amazon IAM Identity Center完成集成。此外,Amazon QuickSight账户必须位于您希望启用Amazon QuickSight蓝图的同一亚马逊云科技账户中。
您可在Amazon SageMaker文档页面了解更多有关准备条件的信息。
Amazon SageMaker文档页面:
https://docs.aws.amazon.com/sagemaker-unified-studio/latest/adminguide/amazon-quicksight.html
满足上述准备条件后,您可进入Amazon SageMaker控制台,选择“Blueprints”启用Amazon QuickSight蓝图,然后找到Amazon QuickSight并按照指示操作即可。
您还需要在“添加蓝图部署设置”中,将SQL分析项目配置文件设置为包含Amazon QuickSight。
有关导入设置的更多信息,请参阅文档。
导入设置文档:
https://docs.aws.amazon.com/sagemaker-unified-studio/latest/adminguide/amazon-quicksight.html
创建新项目时,您需要使用SQL分析配置文件。
项目创建完成后,即可开始使用Amazon QuickSight构建可视化图表。您可导航至“数据”选项卡,选择要可视化的表或视图,然后在“操作”下选择“在Amazon QuickSight中打开”。
重定向至Amazon QuickSight交易数据集页面后,您可以选择“用于分析”以开始探索数据。
使用Amazon QuickSight蓝图创建项目时,Amazon SageMaker Unified Studio会自动为每个项目,配置一个受限制的Amazon QuickSight文件夹,Amazon SageMaker会将所有新资产(分析记录、数据集和仪表盘)都限定在该文件夹内。该集成功能可实时同步文件夹权限,确保Amazon QuickSight文件夹的访问权限与项目成员资格保持一致。
Amazon S3通用存储桶集成
即日起,Amazon SageMaker在Amazon SageMaker Catalog中,新增对Amazon S3通用存储桶的支持,以提高数据的可发现性,并通过Amazon S3 Access Grants实现细粒度权限管理,使用户能够对数据进行管控,包括权限共享与管理。
数据科学家、工程师和业务分析师等数据消费者,现可通过Amazon SageMaker Catalog发现并访问Amazon S3资产。此次扩展还使数据生产者能够通过单一界面,对任何Amazon S3数据资产实施安全管控。
要使用该集成功能,您需要具备相应的Amazon S3通用存储桶权限,并且您的Amazon SageMaker Unified Studio项目必须能够访问包含数据的Amazon S3存储桶。
有关Amazon S3数据先决条件的更多信息,请参阅Amazon SageMaker Unified Studio文档。
Amazon SageMaker Unified Studio文档:
https://docs.aws.amazon.com/sagemaker-unified-studio/latest/userguide/data-s3.html
您可以添加与现有Amazon S3存储桶的连接。
连接成功后,您能够浏览可访问的文件夹,并通过选择存储桶或文件夹,并点击“发布到目录”来创建可被查找的数据资产。
该操作将创建一个类型为“Amazon S3 Object Collection”的Amazon SageMaker Catalog资产,打开资产详情页面,用户可在该页面添加业务背景信息,以提升搜索效果和资产的易发现性。
发布后,数据消费者即可查找并订阅这些已编目的资产。订阅“Amazon S3 Object Collection”资产且经过审批后,Amazon SageMaker Catalog会通过Amazon S3 Access Grants自动授予访问权限,从而在确保只有合适用户获得相应访问权限的同时,实现跨团队协作。
获得访问权限后,您现可在Amazon SageMaker Jupyter笔记本中处理非结构化数据。下图展示了在医疗用例中处理图像的示例。
如果您拥有结构化数据,则可使用Amazon Athena查询数据,或在笔记本中使用Spark处理数据。
通过Amazon S3 Access Grants所授予的此项权限,您可将Amazon S3数据无缝融入自身工作流程——在笔记本中分析数据,将其与湖仓及Amazon Redshift中的结构化数据相结合,以进行全面分析。您可在JupyterLab笔记本中访问文档、图像等非结构化数据,用于训练机器学习模型或生成可查询的洞察。
从湖仓架构自动导入数据
此集成功能可自动将湖仓中的所有数据集,导入至Amazon SageMaker Catalog。其核心优势在于,能将GDC中的数据集导入Amazon SageMaker Catalog,无需手动设置即可实现数据集的集中编目、共享与管控。
该集成功能要求已搭建好包含数据目录的湖仓环境,且数据目录中需存有结构化数据集。
当您设置Amazon SageMaker域时,Amazon SageMaker Catalog会自动从所有湖仓数据库和表中摄取元数据,使您无需进行任何配置,即可直接在Amazon SageMaker Unified Studio中探索并使用这些数据集。
该集成功能可帮助您在Amazon SageMaker Unified Studio内部,直接对这些资产进行管理、管控和使用,在统一技术与业务元数据的同时,还能应用与其他数据类型相同的治理策略和访问控制机制,确保管理的一致性和规范性。
须知事项
您还需要注意以下几点事项:
可用性:这些集成功能在所有支持Amazon SageMaker的亚马逊云科技商业区域均可用。
定价:适用标准的Amazon SageMaker Unified Studio、Amazon QuickSight和Amazon S3定价规则,集成功能本身不收取额外费用。
文档说明:您可在Amazon SageMaker Unified Studio文档中获取完整的设置指南。
立即通过Amazon SageMaker Unified Studio控制台,开始使用这些全新集成功能。
Amazon SageMaker Unified Studio文档:
https://docs.aws.amazon.com/sagemaker/latest/dg/unified-studio.html
Amazon SageMaker Unified Studio控制台:
https://console.aws.amazon.com/sagemaker/unified-studio
本篇作者
Donnie Prakoso
亚马逊云科技首席开发者布道师、软件工程师,拥有超过17年的技术行业经验,职业生涯跨越了电信、银行和初创公司等多个领域,积累了丰富的行业见解和技术专长。如今,Donnie致力于帮助开发者深入理解并掌握各种前沿技术,助力他们将创新想法转化为现实。
星标不迷路,开发更极速!
关注后记得星标「亚马逊云开发者」
听说,点完下面4个按钮
就不会碰到bug了!
点击阅读原文查看博客!获得更详细内容!