Greenplum Databaseとの連携を説明
EMCはHadoopをどのように展開していくのか
2011/08/12
米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。
EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。
Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3〜5倍のパフォーマンス向上が見込めるという。また、NameNode、JobTrackerを冗長化し、可用性を高めるとともに、システム管理ツールにより管理性を向上する。Apache Hadoopとの互換性を100%確保するという。
EMCジャパンのデータ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏によると、初期段階では、すでにApache Hadoopを導入済みの企業が、可用性やパフォーマンス、サポート環境の改善のため、Greenplum HD Enterprise Editionに乗り換えるケースがほとんどだろうという。Apache Hadoopと100%互換のGreenplum HDは、当然ながらHadoopに適しているとされるあらゆる用途に活用できる。
Greenplum DatabaseとHadoopの関係は
だが、EMCが「Greenplum」の名を冠してHadoopディストリビューションを提供するもう1つの理由は、既存製品「Greenplum Database」とともに、今後拡大するデータウェアハウスニーズを取り込むことにある。
米EMCは、Greenplum Databaseを開発・販売してきたGreenplumを2010年7月に買収した。Greenplum DatabaseはPostgreSQLインスタンスを並列に動かすスケールアウト型の処理プロセスによる高速化が特徴。EMCジャパンでは、競合製品に比べ、データローディングの速度が速いのが特徴の1つだと強調する。
スケールアウト的な構成をとる他社製品は、データローディングの際にマスタサーバがセグメントサーバへのデータの振り分けを一手に引き受けるため、マスタサーバが処理性能のボトルネックとなる。
一方Greenplum Databaseでは、マスタサーバがデータローディングに実質的に関与せず、すべてのセグメントサーバが、同時に分散協調してローディングを行うため、セグメントサーバの台数を増やせば、リニアに性能が向上する。シェアドナッシング(ストレージをはじめ、ITコンポーネントを何も相互に共有しない)で、処理が完全に並列化される。
Greenplum Databaseのもう1つの大きな特徴は、ソフトウェアで完結した製品であること。他社のデータウェアハウス製品では、最近ハードウェアに工夫を施して処理の高速化を図るケースが見られる。しかしGreenplumは汎用的なサーバと内蔵ハードディスクを用い、並列処理でパフォーマンスを稼ぐようになっている。Greenplum Database製品ファミリには、ハードウェア+ソフトウェアのアプライアンス製品「Greenplum Data Computing Appliance」もあるが、この製品も汎用的なハードウェアしか使っていない。
EMCでは、Greenplum Databaseを従来通り構造化データの分析用途、そしてGreenplum HDは各種のログやテキスト情報、画像など非構造化データの分析用途に推進していく。同社では、Greenplum DatabaseとGreenplum HD/Apache Hadoopとの高速なデータのやり取りが可能な点も強調している。前述のGreenplumが備える並列ロード/アンロード機能を活用し、Greenplum DBのマスタサーバとHadoopのネームノードがメタデータをやり取りできる一方、Greenplum DBのセグメントサーバとHadoopのデータノードが直接データのやり取りを行えるという。
上記のような機能を活用し、Greenplum HDで処理した非構造化データを構造化データとしてGreenplum Databaseに渡し、Greenplum Database自体が処理する構造化データと統合して、BIツールなどから活用する仕組みがつくれるという。なお、Greenplum HDをアプライアンス化した製品「Greenplum HD Data Computing Appliance」は、Greenplum HDとGreenplum Databaseの双方を搭載したものとなる。
データ分析でのIT部門の役割を変えるChorus
EMCジャパンは8月9日、あわせて「Greenplum Chorus」についても説明した。少数のユーザーには先行提供中のようだが、一般向け提供開始の予定は2011年中という。
Chorusはデータ分析におけるユーザー部門とIT部門の関係を変えるようなツールだ。これまでのような、ユーザー側の要件定義に基づいてIT部門がデータベースのスキーマ設計を行う手法だと、準備に時間が掛かりすぎるケースが多い。Chorusではこれを解消するため、ユーザーがセルフサービスで仮想的なデータマートをプロビジョニングできるようにする機能を備える。これにより、業務ニーズにIT機能が即座に応えられるようにする。また、SNS的に、ユーザーが相互にデータの見方を共有できる機能も提供するという。Chorusは当初、データソースとしてGreenplumのみに対応するが、将来的にはさまざまなデータソースに対応する予定という。
情報をお寄せください:
- Windows 10の導入、それはWindows as a Serviceの始まり (2017/7/27)
本連載では、これからWindows 10への移行を本格的に進めようとしている企業/IT管理者向けに、移行計画、展開、管理、企業向けの注目の機能について解説していきます。今回は、「サービスとしてのWindows(Windows as a Service:WaaS)」の理解を深めましょう - Windows 10への移行計画を早急に進めるべき理由 (2017/7/21)
本連載では、これからWindows 10への移行を本格的に進めようとしている企業/IT管理者に向け、移行計画、展開、管理、企業向けの注目の機能を解説していきます。第1回目は、「Windows 10に移行すべき理由」を説明します - Azure仮想マシンの最新v3シリーズは、Broadwell世代でHyper-Vのネストにも対応 (2017/7/20)
AzureのIaaSで、Azure仮想マシンの第三世代となるDv3およびEv3シリーズが利用可能になりました。また、新たにWindows Server 2016仮想マシンでは「入れ子構造の仮想化」がサポートされ、Hyper-V仮想マシンやHyper-Vコンテナの実行が可能になります - 【 New-ADUser 】コマンドレット――Active Directoryのユーザーアカウントを作成する (2017/7/19)
本連載は、Windows PowerShellコマンドレットについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、「New-ADUser」コマンドレットです
|
|
キャリアアップ
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
2024夏アニメの人気維持率 「負けヒロインが多すぎる!」の特異な動き
ブシロードのグループ会社であるゲームビズは「アニメビジネスインサイト『データで見る2...
約8割の人が経験する「見づらいホームページ」 最も多い理由は?
NEXERはくまwebと共同で「見づらいホームページ」に関するアンケートを実施した。
スマホ時間の奪い合い「利用者増えても、利用時間は減少」 唯一の勝者は?
データマーケティング支援のGlossomは、「スマートフォンでのメディアとコマースの利用に...