Greenplum Databaseとの連携を説明
EMCはHadoopをどのように展開していくのか
2011/08/12
米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。
EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。
Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3〜5倍のパフォーマンス向上が見込めるという。また、NameNode、JobTrackerを冗長化し、可用性を高めるとともに、システム管理ツールにより管理性を向上する。Apache Hadoopとの互換性を100%確保するという。
EMCジャパンのデータ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏によると、初期段階では、すでにApache Hadoopを導入済みの企業が、可用性やパフォーマンス、サポート環境の改善のため、Greenplum HD Enterprise Editionに乗り換えるケースがほとんどだろうという。Apache Hadoopと100%互換のGreenplum HDは、当然ながらHadoopに適しているとされるあらゆる用途に活用できる。
Greenplum DatabaseとHadoopの関係は
だが、EMCが「Greenplum」の名を冠してHadoopディストリビューションを提供するもう1つの理由は、既存製品「Greenplum Database」とともに、今後拡大するデータウェアハウスニーズを取り込むことにある。
米EMCは、Greenplum Databaseを開発・販売してきたGreenplumを2010年7月に買収した。Greenplum DatabaseはPostgreSQLインスタンスを並列に動かすスケールアウト型の処理プロセスによる高速化が特徴。EMCジャパンでは、競合製品に比べ、データローディングの速度が速いのが特徴の1つだと強調する。
スケールアウト的な構成をとる他社製品は、データローディングの際にマスタサーバがセグメントサーバへのデータの振り分けを一手に引き受けるため、マスタサーバが処理性能のボトルネックとなる。
一方Greenplum Databaseでは、マスタサーバがデータローディングに実質的に関与せず、すべてのセグメントサーバが、同時に分散協調してローディングを行うため、セグメントサーバの台数を増やせば、リニアに性能が向上する。シェアドナッシング(ストレージをはじめ、ITコンポーネントを何も相互に共有しない)で、処理が完全に並列化される。
Greenplum Databaseのもう1つの大きな特徴は、ソフトウェアで完結した製品であること。他社のデータウェアハウス製品では、最近ハードウェアに工夫を施して処理の高速化を図るケースが見られる。しかしGreenplumは汎用的なサーバと内蔵ハードディスクを用い、並列処理でパフォーマンスを稼ぐようになっている。Greenplum Database製品ファミリには、ハードウェア+ソフトウェアのアプライアンス製品「Greenplum Data Computing Appliance」もあるが、この製品も汎用的なハードウェアしか使っていない。
EMCでは、Greenplum Databaseを従来通り構造化データの分析用途、そしてGreenplum HDは各種のログやテキスト情報、画像など非構造化データの分析用途に推進していく。同社では、Greenplum DatabaseとGreenplum HD/Apache Hadoopとの高速なデータのやり取りが可能な点も強調している。前述のGreenplumが備える並列ロード/アンロード機能を活用し、Greenplum DBのマスタサーバとHadoopのネームノードがメタデータをやり取りできる一方、Greenplum DBのセグメントサーバとHadoopのデータノードが直接データのやり取りを行えるという。
上記のような機能を活用し、Greenplum HDで処理した非構造化データを構造化データとしてGreenplum Databaseに渡し、Greenplum Database自体が処理する構造化データと統合して、BIツールなどから活用する仕組みがつくれるという。なお、Greenplum HDをアプライアンス化した製品「Greenplum HD Data Computing Appliance」は、Greenplum HDとGreenplum Databaseの双方を搭載したものとなる。
データ分析でのIT部門の役割を変えるChorus
EMCジャパンは8月9日、あわせて「Greenplum Chorus」についても説明した。少数のユーザーには先行提供中のようだが、一般向け提供開始の予定は2011年中という。
Chorusはデータ分析におけるユーザー部門とIT部門の関係を変えるようなツールだ。これまでのような、ユーザー側の要件定義に基づいてIT部門がデータベースのスキーマ設計を行う手法だと、準備に時間が掛かりすぎるケースが多い。Chorusではこれを解消するため、ユーザーがセルフサービスで仮想的なデータマートをプロビジョニングできるようにする機能を備える。これにより、業務ニーズにIT機能が即座に応えられるようにする。また、SNS的に、ユーザーが相互にデータの見方を共有できる機能も提供するという。Chorusは当初、データソースとしてGreenplumのみに対応するが、将来的にはさまざまなデータソースに対応する予定という。
情報をお寄せください:
- Windows 10の導入、それはWindows as a Serviceの始まり (2017/7/27)
本連載では、これからWindows 10への移行を本格的に進めようとしている企業/IT管理者向けに、移行計画、展開、管理、企業向けの注目の機能について解説していきます。今回は、「サービスとしてのWindows(Windows as a Service:WaaS)」の理解を深めましょう - Windows 10への移行計画を早急に進めるべき理由 (2017/7/21)
本連載では、これからWindows 10への移行を本格的に進めようとしている企業/IT管理者に向け、移行計画、展開、管理、企業向けの注目の機能を解説していきます。第1回目は、「Windows 10に移行すべき理由」を説明します - Azure仮想マシンの最新v3シリーズは、Broadwell世代でHyper-Vのネストにも対応 (2017/7/20)
AzureのIaaSで、Azure仮想マシンの第三世代となるDv3およびEv3シリーズが利用可能になりました。また、新たにWindows Server 2016仮想マシンでは「入れ子構造の仮想化」がサポートされ、Hyper-V仮想マシンやHyper-Vコンテナの実行が可能になります - 【 New-ADUser 】コマンドレット――Active Directoryのユーザーアカウントを作成する (2017/7/19)
本連載は、Windows PowerShellコマンドレットについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、「New-ADUser」コマンドレットです
|
|
キャリアアップ
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
新成人(二十歳)のTikTok利用率は5年で5倍に その他のSNSの利用動向は?
「芦田愛菜」「鈴木福」「本田望結」といった天才子役で知られた著名人を含むこの世代の...
TikTokが「米国で禁止」回避へ必死のアピール トランプ氏の反応は?
TikTokは米国での禁止措置回避に向けて、次期大統領であるトランプ氏による救済の可能性...
2025年正月三が日のテレビCM動向 CM露出タレント3位は「広瀬すず」、2位は「横浜流星」、1位は?
ビデオリサーチは、2024年1月1〜3日の間に関東地区でオンエアされたテレビCM動向(速報値...