AWSは次世代のAmazon SageMakerを発表した。新機能として、データとAIの開発環境を統一する「SageMaker Unified Studio」などが追加された。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Amazon Web Services(AWS)は2024年12月4日(米国時間)、機械学習(ML)モデルを構築できる「Amazon SageMaker」(以下、SageMaker)の次世代版を発表した。新しいSageMakerは高速SQL分析、ペタバイト規模のビッグデータ処理、データ探索と統合、モデル開発とトレーニング、生成型人工知能(AI)に必要な機能を1つのプラットフォームに統合している。
AWSは、新しいSageMakerの変更点について次のように解説している。
今回発表されたSageMakerの新機能の一つが「SageMaker Unified Studio」(以下、Unified Studio)だ。これにより、ユーザーは組織内の全てのデータを一元的に検索、アクセスができる。
Unified Studioは、「Amazon Bedrock」「Amazon EMR」「Amazon Redshift」「AWS Glue」「SageMaker Studio」が持つさまざまな機能とツールを統合したものだ。これにより、顧客はデータの発見と準備、クエリやコードの作成、データ処理、MLモデルの構築などの機能を簡単に使えるようになる。
Unified Studioに統合されたBedrockの統合開発環境(IDE)を利用することで、ユーザーは、Bedrockが提供する高性能な基盤モデルや「Agents」「Guardrails」「Knowledge Bases」「Flow」といったツールを活用して、生成AIアプリケーションを迅速かつ容易に構築、デプロイできる。
Unified Studioには、データの発見、共有、ガバナンス機能が組み込まれているため、アナリスト、データサイエンティスト、エンジニアは、目的に合ったデータを簡単に検索、発見でき、セキュリティ管理とアクセス制御を適用しながら、データを利用できる。
今回発表された新機能には、データ管理サービス「Amazon DataZone」上に構築された「SageMaker Catalog」もある。これにより、管理者は緻密な制御が可能な単一のアクセス許可モデルを使用して、一貫したアクセスポリシーを定義および実装できる。
一方、チームのデータ担当者は、生成AIによって作成されたビジネスコンテキストメタデータで強化された承認済みデータやモデルを安全に検出してアクセスできる。管理者は、モデル、ツール、データソース全体にわたるアクセス権限を、容易に定義、適用でき、実施できる。同時に、カスタマイズ可能なセキュリティ対策により、AIアプリケーションのセキュリティとコンプライアンスを確保できる。また、顧客はSageMaker内のデータ分類、有害性検出などの機能により、AIモデルを安全に保護することができる。
「Amazon SageMaker Lakehouse」(以下、SageMaker Lakehouse)は、「Amazon S3」上に構築されたデータレイク、Redshift上のデータウェアハウス、フェデレーテッドデータソースに保存されたデータへの統一的なアクセスを提供する。データサイロを削減し、物理的にどこにどのように保存されているかに関係なく、データを簡単にクエリできるようにするものだ。
SageMakerの新しいApache Iceberg互換Lakehouse機能により、ユーザーはSageMaker Unified Studio内から、Apache Icebergオープンスタンダードに対応したAIおよびMLツールやクエリエンジンを用いて、全てのデータにアクセスして活用できる。
これにより、データが物理的にどこに保存されていても、ユーザーはツールを自由に選択して、SQL分析、アドホッククエリ、データサイエンス、ML、生成AIといったユースケースをサポートできる。SageMaker Lakehouseは統合された詳細なアクセス制御を提供し、Lakehouse内の全ての分析およびAIツールに対して一貫して適用されるため、ユーザーは一度権限を定義するだけで、安全にデータを組織全体で共有できる。
業務全体でデータを真に活用するためには、データの所在とは無関係に、シームレスにアクセスできることが必要だ。このため、AWSは手間のかかる手動作業を排除し、顧客が簡単に必要な箇所のデータを読み込める「ゼロETL」実現に向けて投資してきた。この取り組みには、「Amazon Aurora MySQL」と「PostgreSQL」「Amazon RDS for MySQL」「Amazon DynamoDB」と「Amazon Redshift」のゼロETL統合が含まれている。
これにより、ユーザーはAmazon RedshiftとSageMaker Lakehouseでの分析ができるようになる。また、MLに必要なリレーショナルおよび非リレーショナルデータベースからデータに迅速かつ簡単にアクセスし、分析やMLを実施できる。また、運用データベースやデータレイクに加えて、多くの顧客はSaaSアプリケーションに重要な企業データを保存しており、分析やMLのためにこのデータへ容易にアクセスできるようになり、利便性が上がる。
SaaSアプリケーションとの新しいゼロETL統合により、SageMaker LakehouseやRedshift上にある「Zendesk」「SAP」といったアプリケーションのデータを容易に分析やAIに利用できるこの統合により、構築が困難でコストがかかり、エラーが発生しやすいデータパイプラインを使用しなくて済むようになる。SaaSアプリケーション向けゼロETL統合は、完全なデータ同期、増分更新や削除の検出、ターゲットマージ操作に関するベストプラクティスを組み込んでいる。
Copyright © ITmedia, Inc. All Rights Reserved.