メールアドレスだけで無料で使えるStudio Labは、同種のColabとどう違うのか。Studio Labプロジェクトランタイムのスペック(CPU/GPUや、実行時間、メモリ、ディスクサイズなど)や機能(ランタイムの保存と再開など)について説明する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Python/Rコードの実行や機械学習/データサイエンスの実装を無料でオンライン実行できる環境といえば、Google Colaboratory(略してColab)が特に有名である。2021年12月1日、そのColabに強力なライバルが現れた。「Amazon SageMaker Studio Lab」(アマゾン・セージメーカー・スタジオ・ラボ)だ*1。
*1 日本語では「ラボ」だが、英語では「ラブ(Lab)」と発音するのが普通。「スタジオ」は英語では「ステューディオ(Studio)」。「セージ(Sage)」とは、ハーブや花の名前ではなく「学び経験を積んだ賢者(Wise old man、例えばハリー・ポッターのダンブルドア校長は魔法の賢者)」のことで、賢者は「機械学習モデル」を暗喩すると思われるが、一説にはマーケティング目的で独自用語にするためにランダムな単語生成で命名されたという噂(うわさ)もあり、両方とも正しい説なのかもしれない。
「Colabのライバル」という表現だけで、Colabを使っている人ならある程度の内容は予想できるだろう。そこで本稿では、Colabとの違いも示しつつAmazon SageMaker Studio Labの概要と利点/欠点、ハードウェアスペック(CPU/GPU、メモリ、ディスク容量など)、基本機能(ランタイムの保存と再開など)を紹介する。次回で、その使い方を説明する。
クラウドプラットフォーム「AWS」が提供するAmazon SageMaker Studio Labとは、Python言語やR言語などが使える、無料の機械学習(ML:Machine Learning)/データサイエンス(DS:データサイエンス)のオンライン作業環境である。その環境の中身はJupyterLabであり、Webブラウザー上でJupyterLabのノートブックを含む任意のファイルを作成して編集可能で、「(そのノートブックの実行環境に対する)コンソール(Console、ターミナル、コマンドプロンプト)」も利用できる。
図1に示すように、Jupyter Notebookや、その次世代バージョンであるJupyterLabを既に使っている人には使いやすいUIである(※一方のColabは、独自の使いやすさを求めて機能が変更/強化されている部分がある。どちらが使いやすいかは人によって違うと思われる)。
使い勝手や機能はJupyterLabそのもので、図2に示すようにランチャー(Launcher)から、
といった各種機能を実行できる。※通常はPython環境だけでR言語の環境はないが、ノートブック上でconda install -c r r-irkernel -yというコマンドで「r」と「r-irkernel」をインストールすることで図2のように使用可能になる。
なお「Amazon SageMaker Studio Lab」という名前だが、非常に長いので、公式ドキュメントでは「Studio Lab」と略している。本稿でも、この略語を使用する。また、その略語では分かりづらいコンテキストでは、「SageMaker Studio Lab」と略されている場合もある。
ちなみにAWSには、Amazon SageMaker Studio(以下、Studio)という有償の環境が既に存在する。Studio LabはStudioに「Lab」(実験室:Laboratory)という言葉が足されており(※こういうところも、Colab=「Co-Laboratory:共同実験室」と似ている)、Studio LabがStudioの一部機能(JupyterLab部分)のみを限定的に切り出したサブセットであることを示唆している。なお本稿の最後で、「StudioとStudio Labの違いと移行方法」について説明している。
Studio Labの利点と欠点について、筆者が印象深く感じたものを紹介する。
Studio Labは、現在はプレビュー版で、利用申請を下記のリンク先の[Request free account]で受け付けている。
利用申請では、「メールアドレス」が必須で、オプションで「姓と名」「国名」「会社名/組織名」「職業(学生/先生/データサイエンティスト/プログラマー/ML愛好家/その他)」「なぜ興味があるか(学校/仕事/趣味/ハッカソン/その他)」を入力する。筆者が試した限りでは、利用申請の数日後にアカウント登録のメールが届き、期日内に登録を済ませる必要があった。
Studio Labは、機械学習やデータサイエンスの経験を積みたい初心者をメインターゲットとしているが、上記の「職業」の選択は幅広いので、恐らく誰でも使えると思われる。
Colabとの違いとして、ColabはGoogleアカウントが必須なのに対し、Studio LabはAWSアカウントが不要(つまりクレジットカードも不要)で、メールアドレスさえあればよいという自由さがある。これは、多くの学生に機械学習を教える必要がある教育現場では非常に魅力的な特長だろう。
前述の通り、JupyerLabそのままの機能が使えることは大きな利点である。非常に柔軟性が高く、何でもできる。
本稿の比較対象であるColabでも、「何でもできる」と言えばできるのだが、作業のしやすさが段違いだ。Colabだと、プロジェクトの内に複数のノートブックを作成して切り替えるなどがしづらい。Studio Labでは、ファイルブラウザーからまるでWindows OSやmacOSで作業しているようにファイルを管理できる。
また、Studio LabのPython実行環境は、データサイエンティストに愛されているConda(=AnacondaやMinicondaで使えるパッケージ管理ツール)による仮想環境で管理されている(詳細後述)。Condaのcondaコマンドは、(筆者の感想では他のPython仮想環境に比べて)忘れることがほとんどないほど直感的で短いコマンドになっており、非常に使いやすい(※「Python仮想環境はどれがよいか」は、宗教論争の火種で「Python標準機能のvenvが一番良い」などさまざまな意見がそれぞれの人にあり、Condaであることが利点になる人と欠点になる人がいると思うが、ここでは筆者視点で利点の一つとして挙げておいた)。
condaの基本的な使い方は次回で説明する。
「仮想環境である」ということは、デフォルトの環境以外に、必要に応じて任意のPython/R環境を作成できるということだ。
機械学習のコードは、各種ライブラリーなどのバージョンに細かく依存する場合がよくあり、Pythonや機械学習フレームワークなどのバージョンを細かく指定してインストールすることが要求されるケースが多い。そういったケース・バイ・ケースで個別の作業環境を用意したい場合に、仮想環境は有用である。環境構築に失敗した場合には、それを削除して、新たに真っさらな新環境を構築することも、仮想環境なら簡単だ。
完成したConda仮想環境は、YAML形式のファイルにエクスポートして再利用することも可能である(その方法は次回で説明)。これもColabにはない大きなメリットである。
欠点としては、ノートブックなどの実行環境となるプロジェクトランタイム(project runtime、実体は「Amazon EC2」インスタンス)には最初、フレームワークやライブラリーがほとんどインストールされていないことだ。具体的には下記のもの以外は、全て自分でインストールする必要がある。
※上記のライブラリーは、公式サイトの「Manage your environment - Amazon SageMaker」を参考にしたが、筆者がconda listというコマンドで、conda管理のパッケージとpip(PyPI)管理のパッケージの一覧を出力してみると、もっと多くのものが表示された。
サポートが明言されている機械学習のライブラリーは、以下の通りである。これらのライブラリーは、2021年12月16日時点のもので、随時変更される可能性があるので注意してほしい。サポートされていないからといって、必ずしも使えないわけではない。
一方のColabは、多くのライブラリーが事前にインストールされているので、scratchpadなどにアクセスするだけで数秒で新しい仮想マシン(VM=Studio Labのプロジェクトランタイムに相当)上で機械学習のコードを書いて実行できる。「すぐに使う」という点ではColabが圧倒的に有利である。しかしこれは上記のメリットである柔軟性とトレードオフにあり、どちらが良いとは言い切れないところもある。
この他、プロジェクトランタイムのハードウェアスペックや、それに関連するStudio Labの機能も、Colabと比較すると、一長一短があり、一概には言えないので、次章で1つずつ内容を見ていくことにしよう。
Studio Labのスペック&機能を、まずは一覧表にまとめ、比較対象としてColabの内容も併記した。
AWS vs. Google | Studio Lab | Colab無償版 |
---|---|---|
CPU | 例:Xeon Platinum 8259CL @ 2.50GHz (2コア4スレッド) |
例:Xeon @ 2.20GHz (1コア2スレッド) |
GPU | 例:Tesla T4 | 例:Tesla K80 |
実行時間 | 12時間(CPU)/4時間(GPU) | 最長12時間 |
メモリ | 例:15.48GB(CPU)/ 15.37GB(GPU) |
例:12.69GB |
ディスク | 例:24.99GB | 例:107.72GB(CPU/TPU)/ 78.19GB(GPU) |
ターミナル/コンソール | ○使える | × |
プロジェクトランタイム /仮想マシン(VM) の保存と再開 |
○できる | × |
表1 Studio Labプロジェクトランタイムのスペック&機能の一覧(Colab無償版との比較) |
※この表は、比較しやすいように、「Colab Pro/Pro+とは? 無料版との違い、比較表:Google Colaboratory入門」という記事の表1と同じような構成にした。有償のColab Pro+版ではバックグラウンド実行ができるが、Colab無償版やStudio Labではできないので掲載を省略した。費用はどちらも無料なので、これも省略した。
各項目の詳細についてそれぞれ説明していこう。※各数値やGPUは2021年12月16日現在のもので、筆者が試した範囲でしかなく、常にこの数値のままとは限らないので注意してほしい。
Studio Labでは基本的に、
というCPUを搭載したランタイムが割り当てられる(図3)。
一方のColab無償版では、Intel Xeon @ 2.20GHz(1コア2スレッド)が割り当てられる。つまりStudio Labは、Colabより基本的に2倍以上、性能が良い。
Studio LabでGPUを使う場合は基本的に、
というGPUを搭載したランタイムが割り当てられる(図4)。
一方のColab無償版では、Tesla K80(GPUメモリ:12GB)が割り当てられる。同じT4は、有償のColab Pro版で割り当てられる。つまりStudio Labは、無料にもかかわらず良い性能のGPUを提供してくれているということだ。
なお、Studio LabでのCPU/GPUの指定や切り替えは、
で、ランタイムを開始するタイミングで行える(図5)。
Amazon公式の説明では、CPUとGPUで下記の使い分け指針が示されている。
Studio Labでは、
でランタイムの実行が自動的に停止させられる(図6)。
一方のColab無償版では、CPUでもGPUでも「最長」12時間であるが、時間前にタイムアウトになるので、実行時間でもStudio Labの方が良い。ただしGPUの場合は、わずか4時間で短いという欠点がある。
Studio Labでは、
のメモリサイズのランタイムが割り当てられる(図7。※あくまで筆者が得た数値で、CPUとGPUでわずかに違うのは誤差だと思われる。公式ドキュメントでは16GBと記載されている)。ちなみに、このメモリサイズをオーバーフローすると、カーネル(Kernel)が自動的に再起動してしまい、実行が止まってしまう。
一方のColab無償版では12.69GBなので、メモリ(RAM)サイズでもStudio Labの方が良い。
Studio Labのユーザーコンテンツ領域には、
のディスクサイズのランタイムが割り当てられる(図8)。
一方のColab無償版では107.72GB(CPU/TPU選択時)/78.19GB(GPU選択時)と4倍近くもあるので、ディスクサイズに関してはColab無償版の方がかなり良い。
Studio Labでは、最初から下記の3つのConda仮想環境が作成されている。この情報はconda env listもしくはconda info --envsというコマンドで確認できる。
このうち、studiolab仮想環境とbase仮想環境はシステム管理的な側面があるので、あまり触らない方がよいだろう。前掲の図2で紹介した、
は、このstudiolab仮想環境上で実行される(図9)。
対して、前掲の図1で紹介した、
は、default仮想環境上で実行される(図10)、という点が違うので注意してほしい。各種ライブラリーなどのインストールは、default仮想環境上で行う必要がある。
なお、「ターミナル」と「コンソール」は一般的には同じような意味で使われるが、JupyterLabやStudio Labでは上記のように用語を使い分けている。
一方のColab無償版では、!を行頭に付けることでシェルコマンドが実行可能で各種インストールもできるが、ターミナル(=Studio Labのコンソール)という形で別ウィンドウで操作するには、有償のPro版かPro+版が必要になる。
Studio Labのプロジェクトランタイムのスナップショットは、
に保存され、中断したところから再開できる(※ただし、25GBのディスクサイズ全部を使った場合にどうなるのかは検証していないので分からない)。つまり、インストールしたPythonパッケージや、生成したファイル群などは保存されるということだ。
一方のColab無償版では、仮想マシン(VM)を保存することはできない。ランタイムの起動のたびに、リセットされてしまう。
以上が、筆者が確認して注目したプロジェクトランタイムの機能である。この他の細々としたStudio Labの注目機能について、次章で簡単に紹介しておこう。
Studio Labプロジェクト概要ページの下の方には、機械学習の基礎を学ぶコンテンツが用意されている(図11)。内容については、実際にStudio Labを使ってみて確認してほしい。
Studio Labのノートブックを共有したい場合は、GitHubにリポジトリを作ってそこに置いておくだけでよい。GitHubリポジトリにJupyter/JupyterLabのノートブックが存在すれば、それがStudio Labで作られたものでなくても、Studio Labで開くことができる。方法は、URLリンクを張るだけである。
例えば、GitHubリポジトリ上に、
https://github.com/DeepInsider/playground-data/blob/master/docs/sample_notebooks/basic.ipynb
というURLのノートブックがある場合、上記の太字部分(=https://github.com/を外した部分)を、https://studiolab.sagemaker.aws/import/github/の後に続けたURL、具体的には、
というURLを作るだけだ。上記のリンクをWebブラウザーで開くと、図12のように表示され、[Copy to project]ボタンでプロジェクトランタイム内にインポートしたりクローンしたりできる。
Colab無償版でも同じように共有/参照できるので、学習コンテンツでColabがよく活用されている。今後はStudio Labを活用した学習コンテンツも増えてくるのかもしれない。リンクだけなので、ノートブックをGitHubに置いて共有する場合には両方に対応しておくことをお勧めする。
リスト1のようなMarkdownテキストをノートブックのテキストセルに記述しておけば、小さなリンクボタン(図13)も作成できる。
[![Open In SageMaker Studio Lab](https://studiolab.sagemaker.aws/studiolab.svg)](https://studiolab.sagemaker.aws/import/github/<GitHubリポジトリにあるノートブックのURLの一部>)
最後に、Studio Lab使用上の注意点について簡単に示しておく。
Studio Labでは、Colabのように「使っていないと勝手に停止させられる」ということはない。無料で料金を気にしなくてよいので、ついついランタイムを実行中のまま、Webブラウザーを閉じてしまうかもしれない。あまりにそのような人が多いと、制約がかかったり、サービスの廃止につながりかねない(と筆者は予想している)。
使い終わったら忘れずにストップするようにしよう。これは本当に忘れやすいので。
Studioなら、「AWS Identity and Access Management」(IAM)によるアクセス制御やセキュリティや、任意のスペックのEC2インスタンス、SageMakerの各種機能を使うことができるが、Studio Labではできない。そういった機能が必要な場合や、前述したプロジェクトランタイムのスペックでは不足する場合には、無料のStudio Labから有償のStudioに移行することが推奨される。
実際に移行するには、Studio Labの成果物をいったんGitHubにエクスポートして、Studioにインポートし直すという手順を踏むことになる(参考:「Export Amazon SageMaker Studio Lab environment to Amazon SageMaker Studio - Amazon SageMaker」)。
以上の内容から、筆者自身は「Studio Labは無料なのにすごい!」と思っているが、読者の皆さんはどのように感じただろうか。
次回は、より具体的に使い方について紹介する予定である。公開は2022年1月中を目指している。お楽しみに。
Copyright© Digital Advantage Corp. All Rights Reserved.