AWSとAmazon EMRを利用してみる:きょうから試せる Hadoop“スモールスタート”ガイド(6)(3/6 ページ)
実際にHadoopで処理を実装していきながら「Hadoopは、誰にだって扱える」を体感しましょう。今回は「AWSとAmazon EMRの利用方法」を解説します。
EC2を利用する
EC2とは、AWSが提供する仮想インフラストラクチャーサービスです。簡単に言えば仮想サーバの時間貸しサービスであり、サーバのOSはLinuxやWindowsなどが選択できます。ちなみにEMRは内部的にはEC2を利用してインスタンスを起動しているのですが、それに加えてHadoopクラスタの構築まで自動で行ってくれるためユーザがHadoopをインストールしたりする必要はありません。
EC2を起動する
試しに一度、EC2を起動してみましょう。S3のときと同様にAWSコンソールから操作できます。コンソール左上にリージョンを指定する部分があるので好きなリージョンを指定してください。S3と同じリージョンを選択するのがお金も掛からないので良いと思います。今回はアメリカ東部(デフォルト)を選択しました。
その状態で「Launch Instance」をクリックすると起動フローが立ち上がります。最初はAMIの選択になりますが、ここではAmazon Linux AMIを選択してみます。
Amazon Linux AMIとは、簡単に使えて、常にメンテナンスされていて、EC2の環境に最適化されたLinuxのAMIです。Amazon Linux AMIはできるだけ軽量かつシンプルに設計されており、不必要なアプリケーションやサービスは全く入っていません。必要に応じてパッケージをインストールすることになりますが、その際にはAWSがS3上で用意するパッケージリポジトリから素早くインストールすることができます。
インスタンスタイプはマイクロを選択しましょう。実はAWSの新規アカウント登録ユーザはマイクロインスタンスを1年間無料で利用することができるのです※32。せっかくなのでいろいろと触ってみましょう。
※32 Amazon EC2 Pricing | アマゾン ウェブ サービス(AWS 日本語)
キーペアの作成
その後、「Create a new Key Pair」というフローになります。ここではキーペア(Key Pair)を新たに作成してそれを使うように設定します。
EC2やEMR利用時に起動したEC2インスタンスには、SSHでリモートログインして操作することになります。本来、SSHでのリモートログイン時はパスワード認証も行えるのですが、AWSではパスワード認証を許可していないため、必ず公開鍵暗号方式で認証しログインすることになります。そのための公開鍵・秘密鍵のことをAWSではキーペアと呼んでいます。
もちろんPuttyなどで生成した鍵を登録して使っても良いのですが、今回のようにAWSコンソール上からEC2のインスタンス起動時にその場で作成することも可能です。秘密鍵がダウンロードされるので~/.sshなどに置いてください。
これでEC2が起動をはじめて以下のような画面になったかと思います。
EC2インスタンスにSSHログインする
さて、ではEC2が起動したと思うので、次は起動したEC2インスタンスにSSHでリモートログインしてみましょう。さきほどのキーペアを使って以下のようにログインします。ユーザ名はec2-userとしてログインして下さい。この手順はEMRでマスターノードにログインするときも同じです。
xxxxxの部分はコンソールでインスタンスを選択すると画面下の方に表示されるのでそこから確認してください。この例だと、ec2-174-129-155-9です。
もしこのようなエラーが表示された場合には秘密鍵のパーミッションが間違っている可能性があるので、パーミッションを600に設定してください。
無事にログインできれば以下のようなログイン画面が表示されるはずです。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します。 - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう。 - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - 欧米の金融業界は今、どうHadoopを活用しているか
Hadoopは、欧米の金融関連サービス業界でどう活用されているか。米Hortonworksの金融サービス業界担当ゼネラルマネージャーへのインタビューで得た情報を、2回に分けてお届けする。今回は金融業界におけるHadoopのユースケースを概観する。