Amazon Elastic MapReduce(EMR)の選択肢を考える:きょうから試せる Hadoop“スモールスタート”ガイド(5)(4/6 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「Amazon Elastic MapReduce(EMR)の選択肢と活用方法」を解説します。
セキュリティグループ
セキュリティグループとはインスタンスの外側に位置して、入ってくるアクセスのプロトコルとポートをフィルタリングする機能です。EC2インスタンス起動時には必ずひとつのセキュリティグループを指定します。セキュリティグループを指定することで、アクセスできるIPアドレスに制限をかけたり、特定のポートだけを開いておくことが可能です。
基本的にデフォルトではすべてのアクセスを拒否していて、設定したアクセスだけを許可するようになっています。例えば、セキュリティグループで22番ポート(SSH)へのアクセスを許可してあげないとSSHでログインすることすら出来ません。Webサーバなら80番ポート(HTTP)を空けるなど、適切にセキュリティグループを編集してください。
なお、起動時にインスタンスに設定したセキュリティグループの内容を編集することは可能ですが※20、セキュリティグループを別のものに差し替えるようなことはできません。別のセキュリティグループを利用したい場合には一度インスタンスを停止して、利用したいセキュリティグループを指定して新しいインスタンスを起動する必要があるので、起動する際には適切なセキュリティグループを指定するように注意してください。
※20 変更はリアルタイムに反映されます
スポットインスタンス
EC2インスタンスは通常、オンデマンドインスタンスと呼ばれますが、それ以外にもスポットインスタンスという利用方法もあります。これは、EC2で未使用のリソースに対して入札が行えるというものです。ユーザは自分が払ってもいいという料金をあらかじめ指定しておけば、需要と供給の関係でAWSがスポット価格を算出し、このスポット価格より高い入札を行っているユーザーはインスタンスを利用することができます※21。入札額がスポット価格を超えていてもその時点でのスポット価格分だけが課金され、通常のEC2インスタンスの利用に比べてはるかに安く利用できます。
※21 ただし、入札価格がスポット価格を下回った場合にはインスタンスは即停止されます
このスポット価格についてはAWSコンソールから確認できます。EC2のコンソールを開き、左側のメニューから「Spot Requests」を選択し、「Request Spot Instances」をクリックします。
するとこのような画面になるので使いたいインスタンスタイプを選択してください。「Current Price」の部分がスポット価格となります。スポット価格はリージョンや時間、インスタンスタイプによって変動します※22。
※22 たくさんの人が入札していたりリソースの余りが少なければスポット価格は上がります
例えばアメリカ東部でm1.smallを利用する場合、通常だと利用料金は$0.080/時ですが、スポットインスタンスだと$0.007/時と圧倒的に安く利用することができます。動作確認程度であれば1/10程度の料金で利用できるのでおすすめです。本書でも基本的に全てスポットインスタンスを利用しています。
ただし、注意点があって、スポットインスタンスは入札価格がスポット価格を下回るとインスタンスが即停止されてしまいます。そのため、開発環境やインスタンスが停止しても大丈夫な用途での利用であれば問題ありませんが、本番環境などインスタンスが停止して困るような用途に用いるのは問題があるでしょう。
リザーブドインスタンス
本番環境やマスターノードでより安くインスタンスを利用したいということであればリザーブドインスタンスの利用を検討すると良いかもしれません。リザーブドインスタンスとは、1年間または3年間の金額を一括で支払い、その期間内に購入した台数分に関してインスタンスを安く利用できるという仕組みです。
さらにリザーブドインスタンスのメリットは料金だけではなく、確実なリソース確保の意味もあります。例えば大量のインスタンスを起動したい場合、AWS側のリソースが不足していると起動できなかったりしますが、そういった場合でもリザーブドインスタンスを利用していれば、契約している台数に関しては常に稼働が保証されています。
リザーブドインスタンスの購入はEC2のAWSコンソール左側のメニュー「ReservedInstances」から行えます。
詳細は脚注を見ていただくとして※23、1年契約でm1.smallをリザーブドインスタンスで購入する場合、前払いで$69が必要ですが利用量は$0.039/時ですみます。通常は$0.08/時であることを考えれば、だいぶ安くなります。長時間に渡って利用し続けることがわかっていれば購入すると良いでしょう。
※23 EC2 リザーブド インスタンス | アマゾン ウェブ サービス(AWS 日本語)
ただし、リザーブドインスタンスは一度購入するとキャンセルはできません。また、リージョンやインスタンスタイプを変更することもできないのでよく考えてから購入してください。例えば、新しいリージョンが追加されてそちらを利用したくなっても、新しいリージョンでのインスタンス利用にはリザーブドインスタンスは利用できず、通常の利用料金が掛かります。
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。
Copyright © ITmedia, Inc. All Rights Reserved.