大規模データの匿名処理を約100倍高速化　データの有用性とプライバシー保護を両立――東大と日立が共同開発

東京大学生産技術研究所と日立は、パーソナルデータを含む大規模データの匿名加工処理を高速化する技術を開発。日立は2019年度中にデータベースソフト「Hitachi Advanced Data Binder」に同技術を組み込む。【訂正】

» 2018年11月21日 19時00分公開

　東京大学生産技術研究所（東大生研）の喜連川優教授の研究グループと日立製作所（日立）は2018年11月20日、大規模データの匿名加工処理を高速化する技術を共同開発したと発表した。データの有用性とプライバシー保護を両立する高速な匿名加工処理が可能になり、パーソナルデータの安全な利活用を促進するという。

　従来、匿名加工処理では、例えば同じ属性を持つデータが一定数以上存在するようにデータを変換し、個人が特定される確率を低減するといった措置を行うが、この処理過程で有用な情報が失われる可能性がある。有用な情報量を確保するには、データの抽出範囲や加工単位などを細かく調整しながら、有用性、安全性などの検証を繰り返す必要があり、データの規模や種類が増えるほど、匿名加工処理に費やす時間が膨大になるという課題があった。

　また、匿名加工処理に用いられる専用ソフトウェアでは、データベース（DB）から対象となるデータを抽出後、専用ソフトウェア側で匿名加工処理を行うため、大規模データに匿名加工処理を施すのは困難だった。

　今回、東大生研と日立は、ハードウェア性能を最大限に引き出すソフトウェア実行原理「非順序型実行原理」を匿名加工処理に適用。匿名加工処理の手続きをDB上の演算として定義し、匿名加工処理に非順序型実行原理を採用した高速なDBエンジン上で直接実行できるようにして、大規模データの匿名加工処理を高速化した。

　非順序型実行原理は、データの要求順序とは無関係な順序で非同期的にデータを処理することで、ハードウェアの処理性能を最大限に引き出す。喜連川優東大生研教授兼国立情報学研究所所長と合田和生東大生研特任准教授が考案した。

【訂正：2018年11月22日13時11分　※初出で喜連川教授と合田特任准教授の肩書が間違っておりました。初出の「東大生研の喜連川優教授と合田和生特任准教授兼国立情報学研究所所長」を「喜連川優東大生研教授兼国立情報学研究所所長と合田和生東大生研特任准教授」に訂正しました。おわびして訂正いたします。】

　東大生研と日立は、2010年から2014年にかけて、非順序型実行原理に基づく超高速DBエンジンの共同開発を進めており、日立は2013年10月に同DBエンジンとサーバ、ストレージを組み合わせた高速データアクセス基盤「Hitachi Advanced Data Binder プラットフォーム」を製品化している。

非順序型実行原理を採用した超高速データベースエンジンの処理イメージ（出典：日立製作所「Hitachi Advanced Data Binder プラットフォーム：概要」）

　新技術の匿名加工処理性能を検証するため、東大生研では、ベンチマーク用データセットを用いた実験を実施。

　24コアのプロセッサ、256GBの主記憶を搭載したサーバと256台の磁気ディスクドライブを搭載したストレージシステムで構成された実験環境で、従来の非順序型実行原理を採用しないDBエンジンと新技術を適用したDBエンジンで、ベンチマーク用データセット約1000億レコードを格納するDBから特定の属性条件に基づいてレコードを選択するデータ抽出処理を対象に、データの匿名加工処理と安全性、有用性検証の所要時間を計測した。

　その結果、新技術を適用したDBエンジンでは、100倍程度の高速化を確認。匿名加工処理が高速化され、加工処理後のデータの安全性や有用性の検証までも短時間に行えるようになったという。

　新技術は、データの有用性を維持しつつパーソナルデータを含む大規模データの安全な活用を支援する技術で、ヘルスケアや都市計画、購買履歴分析をはじめとしたデータ活用分野に適用が期待されるとしている。日立では、2019年度中にDBソフトウェア「Hitachi Advanced Data Binder」への同技術の実装を計画している。

　なお、今回の研究開発は、内閣府総合科学技術・イノベーション会議が主導する「革新的研究開発推進プログラム（ImPACT）」の研究開発プログラム「社会リスクを低減する超ビッグデータプラットフォーム」（プログラム・マネージャー：原田博司）の支援を受けて行われた。同研究開発プログラムでは、1日に数億件程度、年間で数百億件程度に上る超ビッグデータを数分～数十分程度で処理する「超高速動的スケーラブルデータベースエンジン」の開発に取り組んでいる。

高速DBエンジンの活用イメージ（出典：東京大学生産技術研究所の研究紹介ページ）

「クラウド」から「データ利活用」へ、NTT Comが戦略キーワードを変えた理由
NTTコミュニケーションズが事業戦略のキーワードを、これまでの「クラウド」から「データ利活用」に変えた。果たして、そこにはどんな思惑があるのか。
答えの出ないデータ分析は、もう終わりにしよう――「結果にコミット」を打ち出すTeradataの新戦略
Teradataは、データ分析に特化した年次イベント「Teradata Analytics Universe 2018」で新戦略を打ち出した。膨大なデータから知見を得るのは“宝探し”的な側面がある中、同社はコンサルタントやSaaSベンダーを巻き込み、「結果にコミット」する姿勢を見せる。
データ分析をクラウドでやれば、コストは4分の1に――みずほ銀行が「BigQuery」を試して分かったこと
データ分析の高度化と分析に使うデータ量の増加に伴い、オンプレミスでの環境に限界が見えてきたというみずほ銀行。分析基盤をクラウドに移すため、Google Cloud Platformを試したという同社が得た知見とは。
データの前に「人」をつなげよ――ホンダのDXを進める“データコンシェルジュ”の流儀
自動車のスマート化により、ユーザーニーズが激変している今、業界全体でデータ活用の重要性が高まってきている。本田技術研究所で進む「ビッグデータプロジェクト」のメンバーである中川さんは、データと同時に、人をつなぐプロフェッショナルでもあった。
東京23区で41万人の通勤減少――位置情報ビッグデータの活用で「テレワーク・デイズ2018」の効果を測定
KDDIとコロプラは、「テレワーク・デイズ2018」の効果測定を実施。位置情報ビッグデータを活用した動態分析により、期間中、丸の内、豊洲、品川を中心に、東京23区合計で約41万人の通勤者が減少したことが分かった。
政府が本気、クラウドファーストで変わる英国のデジタル医療
医療におけるクラウド活用が進んでいる英国だが、その裏には国を挙げた「クラウドファースト戦略」があるのはご存じだろうか。データ保護からセキュリティまで、政府がしっかりと方針を立てているのだ。