Googleは2018年11月8日(米国時間)、機械学習のパイプラインを容易に構築できるツール「Kubeflow Pipelines」と、機械学習のためのツールやデータのカタログとも呼べる「AI Hub」を発表した。
Googleは2018年11月8日(米国時間)、機械学習のパイプラインを容易に構築できるツール「Kubeflow Pipelines」と、機械学習のためのツールやデータのカタログとも呼べる「AI Hub」を発表した。Kubeflow PipelinesはGitHubで公開されている。また、AI Hubは限定ユーザーとαテスト中。
この2つのツールの目的について、Google CloudでML Platformエンジニアリング ディレクターを務めているフセイン・メハンナ(Hussein Mehanna)氏は、「機械学習専門家の成果を一般ソフトウェアエンジニアなどが再利用することで、機械学習プロセスにおいてより大きな役割を果たすことができ、専門家の仕事をスケールさせられる」と説明した。
Kubeflow Pipelinesは、Kubeflowプロジェクト(Kubernetes上で機械学習のパイプラインを提供するソフトウェアを開発するOSSプロジェクト)の一部として位置付けられるワークベンチツール。データサイエンティストが、自身の開発したロジックをパイプラインに組み込むことで、一般的な開発者がこれを再利用し、Kubeflowでどこにでも容易にデプロイできるようになる。
データサイエンティストは、Jupyter NotebookからPython関数を呼び出すことで、パイプラインを作成できるという。Kubeflow Pipelinesのユーザーインタフェースから、モデルの品質評価や監視が容易に行えるとする。
「例えば、データのクレンジングや特徴量抽出を行うパイプラインと、画像分類や物体検知のための既存アルゴリズムを利用するパイプラインの2つをつなげて新しいシステムを構築することもできる」(メハンナ氏)
Kubeflow Pipelinesには、Googleが開発したさまざまなツールが組み込まれているという。例えば、Googleは「TensorFlow Extended(TFX)」という、データのバリデーション、変換、モデル分析、デプロイメントなどで公正性を確保するためのライブラリ群を提供しているが、これらを簡単につなぎ合わせてワークフローを構築できる。
一方、AI Hubは機械学習のためのワンストップカタログ。
「データエンジニアやビジネスユーザーが、一からAIソリューションを構築するのではなく、最良のAIソリューションをベースとして作れるようにしたい」(メハンナ氏)
Kubeflow Pipelinesで作った各種パイプライン、Jupyter Notebook、TensorFlowモジュールなどのリポジトリとして機能。まずGoogleはAutoMLを部品として使えるようにするのをはじめ、同社のさまざまな機械学習関連チームが構築した資産の一部をここで公開する。他の誰でも、自身の作ったものを公開できる。今後はマーケットプレイス機能を持たせたいという。
Google傘下のKaggleなどが管理しているデータセットも、このカタログに掲載される。ただし、データ自体がここにホストされるのではなく、リンクを置くようだ。
ユーザー組織は、AI Hubをオンプレミスで動かし、機械学習関連ツールのプライベートリポジトリ/カタログとして使うこともできるという。
Copyright © ITmedia, Inc. All Rights Reserved.