東京大学生産技術研究所と日立は、パーソナルデータを含む大規模データの匿名加工処理を高速化する技術を開発。日立は2019年度中にデータベースソフト「Hitachi Advanced Data Binder」に同技術を組み込む。【訂正】
東京大学生産技術研究所(東大生研)の喜連川優教授の研究グループと日立製作所(日立)は2018年11月20日、大規模データの匿名加工処理を高速化する技術を共同開発したと発表した。データの有用性とプライバシー保護を両立する高速な匿名加工処理が可能になり、パーソナルデータの安全な利活用を促進するという。
従来、匿名加工処理では、例えば同じ属性を持つデータが一定数以上存在するようにデータを変換し、個人が特定される確率を低減するといった措置を行うが、この処理過程で有用な情報が失われる可能性がある。有用な情報量を確保するには、データの抽出範囲や加工単位などを細かく調整しながら、有用性、安全性などの検証を繰り返す必要があり、データの規模や種類が増えるほど、匿名加工処理に費やす時間が膨大になるという課題があった。
また、匿名加工処理に用いられる専用ソフトウェアでは、データベース(DB)から対象となるデータを抽出後、専用ソフトウェア側で匿名加工処理を行うため、大規模データに匿名加工処理を施すのは困難だった。
今回、東大生研と日立は、ハードウェア性能を最大限に引き出すソフトウェア実行原理「非順序型実行原理」を匿名加工処理に適用。匿名加工処理の手続きをDB上の演算として定義し、匿名加工処理に非順序型実行原理を採用した高速なDBエンジン上で直接実行できるようにして、大規模データの匿名加工処理を高速化した。
非順序型実行原理は、データの要求順序とは無関係な順序で非同期的にデータを処理することで、ハードウェアの処理性能を最大限に引き出す。喜連川優東大生研教授兼国立情報学研究所所長と合田和生東大生研特任准教授が考案した。
【訂正:2018年11月22日13時11分 ※初出で喜連川教授と合田特任准教授の肩書が間違っておりました。初出の「東大生研の喜連川優教授と合田和生特任准教授兼国立情報学研究所所長」を「喜連川優東大生研教授兼国立情報学研究所所長と合田和生東大生研特任准教授」に訂正しました。おわびして訂正いたします。】
東大生研と日立は、2010年から2014年にかけて、非順序型実行原理に基づく超高速DBエンジンの共同開発を進めており、日立は2013年10月に同DBエンジンとサーバ、ストレージを組み合わせた高速データアクセス基盤「Hitachi Advanced Data Binder プラットフォーム」を製品化している。
新技術の匿名加工処理性能を検証するため、東大生研では、ベンチマーク用データセットを用いた実験を実施。
24コアのプロセッサ、256GBの主記憶を搭載したサーバと256台の磁気ディスクドライブを搭載したストレージシステムで構成された実験環境で、従来の非順序型実行原理を採用しないDBエンジンと新技術を適用したDBエンジンで、ベンチマーク用データセット約1000億レコードを格納するDBから特定の属性条件に基づいてレコードを選択するデータ抽出処理を対象に、データの匿名加工処理と安全性、有用性検証の所要時間を計測した。
その結果、新技術を適用したDBエンジンでは、100倍程度の高速化を確認。匿名加工処理が高速化され、加工処理後のデータの安全性や有用性の検証までも短時間に行えるようになったという。
新技術は、データの有用性を維持しつつパーソナルデータを含む大規模データの安全な活用を支援する技術で、ヘルスケアや都市計画、購買履歴分析をはじめとしたデータ活用分野に適用が期待されるとしている。日立では、2019年度中にDBソフトウェア「Hitachi Advanced Data Binder」への同技術の実装を計画している。
なお、今回の研究開発は、内閣府総合科学技術・イノベーション会議が主導する「革新的研究開発推進プログラム(ImPACT)」の研究開発プログラム「社会リスクを低減する超ビッグデータプラットフォーム」(プログラム・マネージャー:原田博司)の支援を受けて行われた。同研究開発プログラムでは、1日に数億件程度、年間で数百億件程度に上る超ビッグデータを数分〜数十分程度で処理する「超高速動的スケーラブルデータベースエンジン」の開発に取り組んでいる。
Copyright © ITmedia, Inc. All Rights Reserved.