続・ハードウェアはこれからのデータベースの在り方をどう変えるか――ストーンブレーカー氏が語る機械学習への進化：「The Next Platform」で読むグローバルITトレンド（16）（3/3 ページ）

» 2017年11月24日 05時00分公開

[Timothy Prickett Morgan, The Next Platform]

――機械学習用のデータストアについてはどうか？　私が興味深いと思うのは、GPUアクセラレーテッドデータベースプロバイダーが皆、TensorFlowのような機械学習フレームワークのネイティブフォーマットを将来的にどのようにサポートするかを語っていることだ。実際、彼らはTensorFlowしか眼中にないようだ。彼らは同じデータベースプラットフォームで、高速OLTPと機械学習を橋渡ししようとしている。

ストーンブレーカー氏：少し話を戻すと、機械学習は配列ベースの計算と言える。TensorFlowは、素朴な配列の演算をワークフローに多数組み込める配列指向のプラットフォームだ。テーブルベースのシステムと100万行100万列の配列（1兆セル）がある場合、その配列をリレーショナルシステムにテーブルとして格納すると、3列または1行のテーブルと、全ての値を持つ巨大なBLOBを含むテーブルを格納することになる。

　配列ベースのシステムでは、これを配列として格納し、行方向、列方向ともに大きなものを格納するようにストレージを最適化する。リレーショナルエンジンでTensorFlowやRなど、配列を使用するものを実行するにはテーブルを変換しなければならず、この変換はコストが高くつく。

――その場合、どれだけパフォーマンスを損なうのか？　少なくとも、リレーショナルまたは配列のいずれかのワークロードに悪影響があると推察する。

ストーンブレーカー氏：2つの異なる答えがある。密な配列（全てのセルが埋まっている）の場合、変換すると高いコストがかかる。だが、非常に疎な配列の場合、疎配列をテーブルとしてエンコードするのは決して悪いアイデアではない。つまり、パフォーマンスへの影響は細部によって決まる。完全にアプリケーション次第であり、機械学習フレームワークに左右されるわけではない。

　繰り返しになるが、データサイエンスとストレージの統合は一筋縄ではいかず、混沌としている。

――あなたの答えは「OLTPにはVoltDBを、配列にはSciDBを使う」ということではないかと思われる。今はこれらの製品の事業には携わっていないのか？

ストーンブレーカー氏：企業では、データ統合が大きなアキレスけんとなっているようだ。そこで私は、2013年設立のTamrという新興企業に関わっている。

　Tamrの顧客の1社であるGeneral Electric（GE）は、75の異なる調達システムを持っている。ことによるともっと多いかもしれない。実は彼らも正確な数を把握していないからだ。GEのCFO（最高財務責任者）は、これらの調達システムが連携して稼働し、ベンダーとの最も有利な取引条件を要求すれば、年間約10億ドルのコスト節減効果が見込めると試算している。ただし、そのためにはバラバラに構築された75のサプライヤーデータベースを統合しなければならない。

――Tamrのようなツールは、異種システムを統合する方が、全システムを1つの大規模データベースに集約し、アプリケーションを書き換えたり、あるいは少なくとも1つのアプリケーションに統一したりするよりもはるかに簡単だという前提に立っている。

ストーンブレーカー氏：その通り。企業ではサイロ化が進んでいる。さまざまなビジネスを展開するために、複数のビジネス部門に分かれているからだ。サイロの統合は、クロスセルや購買の一元化、ソーシャルネットワーキング、さらには単一の顧客ビューの作成といったさまざまな目的で行われるが、いずれにしても大仕事だ。

出典：How Hardware Drives The Shape Of Databases To Come（The Next Platform）