勉強会で明らかになった医療向けOSSの多様な活用法──電子カルテ、臨床試験データ解析、日本語医学用語プラットフォーム、画像DBヘルスケアだけで終わらせない医療IT(6)(2/4 ページ)

» 2015年08月28日 05時00分 公開
[益田昇@IT]

【RとCDISC】OSSだけで効率的な臨床データ解析が可能な時代に

東京大学 UMINセンター(大学病院医療情報ネットワーク研究センター) 岡田昌史氏

 東京大学 UMINセンター(大学病院医療情報ネットワーク研究センター)の岡田昌史氏が「RとCDISC」と題して行った報告では、臨床試験のデータ解析が、国際標準に準拠したメタデータとデータセットを用いることによって、OSSツール(統計解析用プログラミング環境のRと、そのパッケージ)だけを使って効率的に実現できる時代が到来したことが明らかにされた。

 OSSによる本格的な解析な可能になった背景には、医学領域での臨床データ交換の規格である「CDISC(Clinical Data Interchange Standards Consortium)」標準のオープン化がある。CDISC標準は、これまでODM(Operational Data Model)ベースのXMLによるメタデータの表現(Define-XML)には対応していたが、データそのものの表現についてはXMLに対応しておらず、特定の解析ツールベンダーのデータ表現だけに対応していた。そのため、OSSツールとの連携を十分に図ることはできなかった。

CDISCの歴史(岡田氏の講演資料より)

 しかし、2014年にCDISC標準がXMLによるデータ表現に正式に移行したことによって、RなどのOSSツールでの利用が可能になった。その結果として、「OSSツールだけで、国際標準形式のメタデータを伴った臨床試験データセットを作成し、効率的でミスのない解析や検査を実施できるようになった」と岡田氏は説明する。

オープン化で役割を増すCDISC標準

 CDISC標準は、臨床試験が始まってから終わるまでの、試験計画、データの収集、クリーニング、データベースへの蓄積、分析、リポートなどの規格を包含している。これらの規格は、「Controlled Terminology」と呼ばれる統制用語辞書によって語彙の統一が図られている。

CDISC標準を介したやりとり(岡田氏の講演資料より)

 CDISC標準は、米国ではすでに、FDA(米国食品医薬品局)が正式に採用しており、日本でも、PMDA(医薬品医療機器総合機構)が、2016年度から、医薬品の製造承認申請を行う際に、臨床試験データを、CDISC標準の申請臨床試験データモデル「SDTM(Study Data Tabulation Model)」および申請統計解析データモデル「ADaM(Analysis Data Model)」に準拠した形式で提出することを義務付けると発表している。

 臨床試験の世界で、CDISC標準はなぜこのように注目されているのか。それは、臨床データの内容を表すメタデータが標準化されており、ようやくXMLで記述されるようになったからだ。このメタデータを使えば、統計解析ソフト自身が勝手に臨床データの内容を解釈し、解析処理を自動化できる。岡田氏は、「解析で一番大変な部分は、データの持つ“値”に対応する“意味”、すなわちメタデータを解析者が理解することだ」と指摘する。

解析とメタデータ(岡田氏の講演資料より)

 臨床データベースは表として表現でき、メタデータはDefine-XMLとして定義される。このメタデータには、データセット全体にどのような表が含まれているのかを示す「Dataset-Level Metadata」、それぞれの表にどのような列が含まれているのかを示す「Variable-Level Metadata」、それぞれの列にどのような値が含まれているのかを示す「ValueLevel Metadata」がある。そして、臨床データベースそのものは、メタデータと対になって、Dataset-XMLとしてXMLで表現(シリアライズ)される。

Rが統計解析ソフトのデファクトスタンダードに

 CDISC標準のオープン化によって、臨床試験の世界でも、より多くの領域でOSSを活用できるようになってきた。中でも臨床データを解析するOSSとして有力なのがGNUプロジェクトの一つとして開発が進められている統計解析プログミラング環境のRである。岡田氏は、「世界中のR技術者が開発した機能拡張可能なRパッケージの数はこの数年で急激に増大しており、2015年7月現在で6789種に上っている。Rはすでに統計解析ソフトのデファクトスタンダードだと言ってよい」と強調する。

 Rパッケージ配信ネットワーク「CRAN(The Comprehensive R Archive Network)」に登録されているCDISC関連のRパッケージとしては、ODMファイルを変換する「ODMConverter」や、ODM形式の医療形態を比較する「CompareODM」、CDISCデータファイルをR4に読み込ませる「R4CDISC」がある。下図二つは、R4CDISCを使ってDefine-XMLをRに読み込ませてDataset Level MetadataおよびVariable Level Metadataを抽出した例を示している。

Define-XML 2.0読み込ませて、Dataset Level Metadataを抽出(岡田氏の講演資料より)
Define-XML 2.0を読み込ませて、Variable Level Metadataを抽出(岡田氏の講演資料より)

 また、下図によると、Dataset-XMLをそのままデータフレームに変換できることが分かる。

Dataset-XMLを読み込ませて、データフレームにする(岡田氏の講演資料より)

 この他に、CDISCに関係するOSSとしては、SDTM、AdAMなどのデータセットが標準に適合しているかどうかをチェックするバリデーションツール「OpenCDISC」、データ入力用の電子症例報告書の開発・運用ツール「OpenClinica」がある。OpenClinicaは、GitHub上で開発が行われており、ODMでのデータ出力に対応している。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。