Amazon Elastic MapReduce(EMR)の選択肢を考える:きょうから試せる Hadoop“スモールスタート”ガイド(5)(3/6 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「Amazon Elastic MapReduce(EMR)の選択肢と活用方法」を解説します。
AWSで提供されるインフラ構成
ここから、EMRについて詳細に取り扱っていきます。そもそもEMRはAWSのインフラ上で動くので、まずはAWSがどのようなインフラを備えているのかを見ていくことにしましょう。
リージョン
リージョンとはAWSのデータセンターが位置する場所のことです。AWSは、アメリカ東部(バージニア)、アメリカ西部(北カリフォルニア)、アメリカ西部(オレゴン)、欧州(アイルランド)、アジア太平洋(シンガポール)、アジア太平洋(東京)、南米(サンパウロ)と世界で7カ所のデータセンターを提供(*編注:本書執筆当時)しており、利用者の場所によって使用するリージョンを変えることができたり、冗長化のために複数のリージョンを利用することができます。
利用者の場所とリージョンが離れているとレイテンシ(遅延)が発生するので、例えば日本向けのサービス(主に日本のユーザが利用するサービス)の場合には東京リージョンを選ぶとレイテンシが抑えられます。例えば、日本からアメリカ東部のリージョンで起動したEC2インスタンスにSSHログインして作業する場合、レイテンシが発生するためコマンドのレスポンスがワンテンポ遅れて返ってくる感覚となります。
AWSが提供しているリージョンについてはこちらにまとめておくので参考にしてみてください。
地域 | リージョン名 | ホスト名 | |
---|---|---|---|
アメリカ東部(バージニア) | us-east-1 | ec2.us-east-1.amazonaws.com | |
アメリカ西部(北カリフォルニア) | us-west-1 | ec2.us-west-1.amazonaws.com | |
アメリカ西部(オレゴン) | us-west-2 | ec2.us-west-2.amazonaws.com | |
欧州(アイルランド) | eu-west-1 | ec2.eu-west-1.amazonaws.com | |
アジア太平洋(シンガポール) | ap-southeast-1 | ec2.ap-southeast-1.amazonaws.com | |
アジア太平洋(東京) | ap-northeast-1 | ec2.ap-northeast-1.amazonaws.com | |
南米(サンパウロ) | sa-east-1 | ec2.sa-east-1.amazonaws.com | |
(編注:本書執筆当時) |
EC2インスタンス
EMRではいくつかのインスタンスタイプの中から、用途に適したインスタンスを選択して利用することができます。利用可能なインスタンスタイプにはスタンダードインスタンス、ハイメモリインスタンス、ハイCPUインスタンス、クラスタコンピュートインスタンス、クラスタGPUインスタンスがありますが、主に利用するところだと以下のような特徴を持っています。
タイプ | 説明 | |
---|---|---|
スタンダードインスタンス | スタンダードなタイプ | |
ハイメモリインスタンス | メモリが多めに搭載されているタイプ | |
ハイCPUインスタンス | CPUが多めに搭載されているタイプ |
さらに、それぞれのインスタンスタイプには複数の種類が存在します。それをまとめたものが以下のようになります。なお、EC2の利用料金やEMRの利用料金※19はリージョンによって異なるので注意してください。以下は参考までに、アメリカ東部の料金についてまとめたものです。
※19 EC2料金と比べればだいぶ安いですが
インスタンスタイプ | インスタンス 名称 |
メモリ | ECU※ | I/O性能 | EC2料金 | EMR料金 | |
---|---|---|---|---|---|---|---|
スタンダード インスタンス | |||||||
スモール会合(デフォルト) | m1.small | 1.7Gバイト | 1 | 標準 | $0.08/時 | $0.015/時 | |
ラージ | m1.large | 7.5Gバイト | 4 | 高速 | $0.32/時 | $0.06/時 | |
エクストララージ | m1.xlarge | 15Gバイト | 8 | 高速 | $0.64/時 | $0.12/時 | |
ハイメモリ インスタンス | |||||||
エクストララージ | m2.xlarge | 17.1Gバイト | 6.5 | 標準 | $0.45/時 | $0.09/時 | |
ダブル エクストララージ | m2.2xlarge | 34.2Gバイト | 13 | 高速 | $0.90/時 | $0.21/時 | |
クアドラプル エクストララージ |
m2.4xlarge | 68.4Gバイト | 26 | 高速 | $1.80/時 | $0.42/時 | |
ハイ CPU インスタンス | |||||||
ミディアム | c1.medium | 1.7Gバイト | 5 | 標準 | $0.165/時 | $0.03/時 | |
エクストララージ | c1.xlarge | 7Gバイト | 20 | 高速 | $0.66/時 | $0.12/時 | |
クラスタコンピュート インスタンス | |||||||
クアドラプル エクストララージ |
cc1.4xlarge | 23Gバイト | 33.5 | 超高速 | $1.30/時 | $0.27/時 | |
クラスタコンピュート エイトエクストララージ |
cc2.8xlarge | 60.5Gバイト | 88 | 超高速 | $2.40/時 | $0.50/時 | |
クラスタ GPU インスタンス | |||||||
クアドラプル エクストララージ |
cg1.4xlarge | 22Gバイト | 33.5 | 超高速 | $2.10/時 | $0.42/時 | |
※ ECU(EC2 Compute Unite):1ECUは1.0-1.2GHz 2007 Opteronまたは2007 XeonプロセッサのCPU能力と同等の能力を提供する 編注:価格は本書執筆当時のものです。詳細はこちらを参照 |
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。
Copyright © ITmedia, Inc. All Rights Reserved.