企業によるオープンデータの3つ目のパターンは、より新たなビジネスモデルを志向したものです。
つまり、データを公開することで他社のビジネスを支援しつつ、自社のビジネスへのメリットも創出する、いわゆる、Win-Winによりビジネス生態系の拡大を目指したものになります。
分かりやすい事例を挙げると、自動車、携帯電話などのメーカーが製品の外形データを公開することが考えられます。このようなデータを公開することで、サードパーティーによるオプションパーツの開発が促進され、オプションパーツの充実によって自社の自動車や携帯電話などの価値が間接的に高まります。例えばNokiaは2013年1月に自社のスマートフォンの3Dデータを公開し、ユーザーが3Dプリンターを用いてカバーなどのアクセサリーを作成できるようにしました。
また、Webサービスにおいては、Web-API*を公開して、周辺サービスを生み出し、より自社のサービスの価値を高める手法が以前から使われています。これらもオープンデータとして捉えることができます。グーグル、フェイスブック、ヤフー、楽天などはWeb-APIを公開しており、これによってさまざまなアプリケーションやサービスが創出されています。
* Web-API APIは「Application Programming Interface」の略で、特定の機能や管理するデータを外部から呼び出して利用するための手法のことです。開発者は必要なAPIを呼び出すだけでアプリケーションに該当機能を加えることができます。Web-APIはWebサーバー上のAPIのことを指し、各Webサービス事業者が提供しています。Web-APIを使用することで、Webサービス事業者が提供している検索機能などを使用することもできます(参考記事)。
ここでは、2012年12月31日時点で1000万個以上のアプリやWebサイトに使用されているフェイスブックのAPIについて紹介します。
フェイスブックでは、さまざまなAPIを公開していますが、ユーザー情報を活用できる代表的なAPIとして「Graph API」があります。このAPIでは、フェイスブックの利用者の交友関係や共有されたコンテンツ、写真のタグなどの情報を取得して利用できます。
例えば、「Candy Crush Saga」というスマートフォン用ゲームでは、これらのAPIを用いることで、フェイスブックへの投稿を利用した友達間でのスコア競争や、ユーザー同士の協力によるアイテムの取得などができるため、毎月約5000万人がさまざまな端末からアクセスしており、フェイスブックの利用者数拡大に寄与しています。Candy Crush Sagaのフェイスブックページによると、2014年7月4日時点で1億人以上がこのアプリを使用しています。
前述したようなさまざまな目的のため、企業がオープンデータを進める機会が、今後、さらに増えると予想されます。しかしながら、その公開においては留意すべき点が幾つかあります。本稿の最後に、代表的な留意点を2つ紹介します。
まず、公開の範囲とデータの価値のトレードオフがあります。一般的なコンテンツのようにコピーして配布しても価値が落ちないものと異なり、データはコピーすることで価値が低減します。もちろんデータが劣化するわけではありません。これはデータの使われ方によるものです。
例えば、A地域の住民の年代、性別による買い物の嗜好(しこう)に関するデータがあったとします。このデータをA地域でコンビニを経営するB社、C社、D社に販売することを想像してください。3社に公平に販売した場合、各社ともそのデータによってマーケティング活動を行えますが、差別化することができなくなり、データの価値は相対的に小さくなります。
逆にB社だけに販売した場合、C社、D社は同様のマーケティング活動が行えず、差別化の材料となり、データの価値は相対的に高まります。このように、全てに対してオープンにすることで、かえって価値が低減してしまう場合もあります。もちろん、広く公開して、誰にでも使ってもらうことで価値が高まるケースもあります。前述のグーグルやフェイスブックのAPIはまさにこれに該当します。
このように企業におけるオープンデータ活用においては、目的やデータの価値を考慮した、公開方法を検討することが不可欠です。
公開対象となるデータの中には個人に関するデータ、いわゆる「パーソナルデータ」が含まれている場合もあります。このような場合、個人が特定される危険性があるため、プライバシーへの配慮が不可欠です。
先に例示したNetflixでは、最適なレコメンデーションアルゴリズムを開発するために、ユーザーの視聴履歴を匿名化して公開しましたが、テキサス大学のグループがこのデータから一部の個人を特定してしまいました。この結果、FTC(米連邦取引委員会)*などからプライバシーの侵害を懸念する指摘があり、第2回のコンテストは中止になりました。
* FTC(米連邦取引委員会) Federal Trade Commission(連邦取引委員会)の略です。FTCはアメリカの独立行政機関で、日本では公正取引委員会にあたる機関になります。
このようにパーソナルデータの取り扱いには、プライバシーへの十分な配慮が求められます。ただし、パーソナルデータだからオープンデータができないわけではありません。診療データを公開し、未来の入院する可能性を予測するアルゴリズムの開発を競ったHeritage Health Prizeというコンテストでは、十分な匿名化を行い、データを公開することで、このような問題は顕在化していません。
同コンテストは、カリフォルニア州最大の医療提供ネットワークが、300万ドル以上の賞金を拠出し、データ解析アルゴリズムの開発コンテストを実施したもので、過去の入院データから未来の入院状況をどれだけ正確に予測できるかを競うものです。そのため、過去の診療データを安全に公開する必要がありました。そこで、安全性を担保するため、高度な匿名化技術(k匿名化*)の第一人者がデータの加工に協力するだけでなく、前述したテキサス大学の研究者の一人であったデータマイニングの専門家があらかじめ攻撃し、個人が特定できないことを確認し、その他のセキュリティ対策も十分に施した上で、データの公開を行っています。
次回は、オープンデータの目指す世界である「Linked Open Data」(LOD)を実現するための要素技術の概要を紹介します。
* k匿名化 複数の項目で同じ値の組合せを持つレコードが少なくともk個存在するようにするため、項目の値をk個以上となるように一般化したり、k個以下となるレコードを削除したりする匿名化手法のことです。
本稿は下記2名の共同執筆によります。
株式会社 日立コンサルティング シニアマネージャー
株式会社 日立コンサルティング アナリスト
Copyright © ITmedia, Inc. All Rights Reserved.