これからのデータベースの在り方について、リレーショナルデータベース技術のパイオニアの1人であるマイケル・ストーンブレーカー氏に話を聞いた。今回は、同氏へ行ったインタビューの後編をお届けする。
英国のIT専門媒体、「The Register」とも提携し、エンタープライズITのグローバルトレンドを先取りしている「The Next Platform」から、@IT編集部が独自の視点で“読むべき記事”をピックアップ。プラットフォーム3へのシフトが急速に進む今、IT担当者は何を見据え、何を考えるべきか、バリエーション豊かな記事を通じて、目指すべきゴールを考えるための指標を提供していきます。
→ハードウェアはこれからのデータベースの在り方をどう変えるか――ストーンブレーカー氏に聞いた(インタビュー前編)
ストーンブレーカー氏:私にとって興味深いのは、十分な数のデータサイエンティストを教育できれば、BIはすぐにデータサイエンスに取って代わられるだろうということだ。BIは「SQLの集計に使いやすいUIを付加したもの」と言える。一方、データサイエンスは予測分析、回帰、K平均法などを利用するものであり、基本的に配列をベースにした線形代数だ。データサイエンスがデータベースシステムにどのように統合されていくかが重要になる。
現状は混沌(こんとん)としている。現在、大規模なデータ分析の基盤技術として「Apache Spark」の人気が高い。だが、これはデータストレージと完全に切り離されている。このことから「データサイエンスはデータベースシステムの単なる外部アプリケーションになる」というシナリオも考えられる。
考えられるもう1つのシナリオは「配列型データベースシステムが普及する」ことだ。「SciDB」「TileDB」「Rasdaman」の3つは普及する可能性がある。配列型データベースの利用がどのように広がるかは不明だが、ゲノミクスで人気を博するのは確かだ。ゲノミクスは配列データを扱うからだ。
さらにもう1つのシナリオは、「現在のデータウェアハウスベンダーがユーザーにとってデータサイエンス機能を使いやすくする」ことだ。彼らは既に「R」のユーザー定義関数を利用できるようにしている。Sparkが今後、どのようなものになるかは分からない。実際、将来はどの技術も今とは違ったものになるだろう。データサイエンスは混沌としていると言わざるを得ない。
――さまざまな技術がストレージ階層において、どのように使われるかという話があった。コンピュート階層についてはどうか。具体的には、GPUアクセラレーテッドデータベース、例えば「MapD」「Kinetica」「BlazingDB」「Sqream」などについてはどう見ているのか?
ストーンブレーカー氏:私も非常に興味を持っていることの1つだ。シーケンシャルスキャンや浮動小数点演算を行いたい場合、GPUなら素晴らしく速い。だが、GPUの問題は、「全てのデータがGPUメモリに収まれば極めて高速だが、そうでないとデータを別の場所からロードする必要があり、ロードがボトルネックになる」ことだ。GPUメモリにロードできる小規模なデータを扱う分野では、極めて高いパフォーマンスが要求されるローエンドアプリケーションでGPUアクセラレーションが活用されるようになるのは間違いない。だが、他のデータベース分野では、GPUの利用がどれだけ広がるかは分からない。
私にとって最も興味深いことは、ネットワーキングの高速化がCPUの性能向上やメモリの高速化を上回るペースで進んでいることだ。基本的に、マルチノードデータベースシステムは全て「ネットワーキングがボトルネックになる」という前提で設計されている。今のところ、40Gbpsイーサネットでは帯域が不足することはないことが分かっている。実際、われわれはこの5年で1Gbpsから40Gbpsイーサネットに移行した。この間に8ノード規模のクラスタも高速化したが、40倍には程遠い。メモリの高速化も同様だ。つまり、ネットワーキングはもはやボトルネックではないだろう。
――確かに、40Gbpsで事足りているため、100Gbpsイーサネットはそれほど支持されていない。それでもベンダーは、200Gbpsやさらには400Gbpsを実現するASICを1〜2年以内に提供できることを示すデモを行っている。
ストーンブレーカー氏:もしそうなれば、基本的に、誰もがパーティショニングアーキテクチャを根本から見直すことになるだろう。それは大きな変化だと思う。
Copyright © ITmedia, Inc. All Rights Reserved.