海外の研究者による公開DBについて
-
AEOLUS って何?
先日、「AEOLUS」という海外研究者によるキュレーション済みデータについての質問を受けましたので
その調査内容をもとに本稿を作成、”解析者視点”で報告したいと思います。公開データの運営団体について
DRYAD
AEOLUSを公開しているのは上記団体です。(開発者は別です。)
いわゆる非営利組織である『DRYAD』(The Dryad Digital Repository)は、
学術文献として自由に利用可能なデータ基盤を提供し引用や再利用の促進を目的に立ち上げられた団体のようです。
研究データを公開し、学術文献と統合された新しい知識を作り出し、またそれをオープンにし、日常的に再利用されるというような循環システムを作り出し、サステイナブルな研究と科学の発展への貢献を目指しています。
簡単に言うと学術利用のためのフリーな素材(データや文献等)を集めてアーカイブを進めながら再頒布する組織と思われます。
データをリポジトリにあげて、公開したい利用者から課金をしているようです。
利用したいユーザーからの徴収ではなく、データを公開したい側から課金をしている点が特徴的だと思われます。
個人的に完全理解に至っていませんが、料金を払ってまで公開したいというインセンティブが働いているということだと思われます。
「デファクトを取る」という意味ではモチベーションは生まれるかと推測されますが、
企業行動力学の視点では、”流通を利用させて貰う代わりにお金を払う”といったほうが単純明快な論理かなと思ったりもします。
研究者の活動とすれば雑誌投稿や学会発表参加と同等と思えばよいでしょうか?
あるいはもしかすると、こうした社会貢献性の高い活動に対する寄付視点もあるかもしれませんが、
横道にそれすぎるのでデータ公開側のインセンティブについての検討はここまでとして
あとは皆様のご想像にお任せします。DRYADでは、『AEOLUS』 だけでなく、多くの公開データを保持しています。
それらをアーカイブ化し、データの可用性もサポートし、リポジトリで保管するといった運営をしています。
いわゆるフリーなDBの”シェア”を多角的な情報を結びつけて行っているので、利用する側も安心できるというところでしょうか。
ただし、それぞれのデータの細かい運営保守については、開発者に委ねられている面もあります。AEOLUSデータについて
ダウンロードサイト上記サイトから「AEOLUS master file」というデータファイルをダウンロードできます。
「aeolous v1.jp」 をクリックするとダウンロードが始まります。このサイトはDRYADが運営をしており、研究者は自身が開発したデータをDRYADの運営するサイトにアップロードして、無料公開することができます。
AEOLUSは、Juan M. Banda氏らが開発し、研究発表を行ったものです。
このサイトにはDRYADの規約に則って公開しています。これを利用する側もまた、同規約を守る必要があります。
例えばこのデータを利用して研究発表を行う場合は、引用元として下記オリジナル論文の記載を求められています。
Banda JM, Evans L, Vanguri RS, Tatonetti NP, Ryan PB, Shah NH (2016) A curated and standardized adverse drug event resource to accelerate drug safety research. Scientific Data 3: 160026. https://doi.org/10.1038/sdata.2016.26その他にも運営団体であるDRYADの規約にも準じる必要があります。
AEOLUSとは
で、この論文を読み解くとこのデータの特性・特徴がわかります。
以下に簡単に報告したいと思います。タイトル:A curated and standardized adverse drug event resource to accelerate drug safety research. (リンクを貼っています)
題名は翻訳するまでもないと思います。研究目的は「薬物安全性研究の加速」ですね。
AEOLUSは、「Adverse Event Open Learning through Universal Standardization.」の頭文字をとっており、
FARESデータを解析に用いることができる(Universal基準で)きれいにしたデータを意味します。論文では、背景情報や細かいキュレーション方法を記載していますのでその内容を簡略化して下記します。
(ただし、解釈の責任については御自分でとってください)BackGround
・薬物有害事象は社会に大きなダメージを与えている
・ファーマコビジランス活動として自発有害事象報告データはシグナル検出活動の基礎に位置づけられ、
安全性評価活動に有用であると証明されている。
・FAERSを最大限活用するにはデータクリーニングと欠損値補完等キュレーションが必要
・ただ、キュレーションだけでも多大な時間をとられる上、再生不可能な結果が生じるリスクが潜在する
・各研究者がそれぞれでキュレーションをすると再現性がとりづらい
・標準化してクリーンアップされた形式でリソースを提供する。
FAERSデータ(SRSデータ)は有用でありファーマコビジランスとしても使っていきましょう。
クリーニングしたデータをフリーで公開するから、安全性評価活動・研究に使ってください という内容です。ただ、本当に全てがフリーかといえば、少し引っかかるところもあるので、それについては後述します。
Methods
・”LEARS”は2004年1月から2012年8月27日までをカバー、
”FARES”はそれ以降を対象範囲として公開されている。
(AEOLUSは両方を結合している)
・薬剤は”RxNorm”でマッピング(コーディング)
RxNorm標準コードの成分とフォーム名に変換、フォームはOHDSI用語のVer.5に合わせている。
併用薬を含めて93%をカバーしている。
・有害事象/アウトカムは”SNOMED-CT”でマッピング
・重複除外は以下で実施
ケース番号・イベント日付・年齢・性別・国・薬物名のアルファベットが同じである場合は削除
(ケースの最新を保持する、スペルミス等は考慮していない等)
ケース番号の重複がなくても、イベント日付・年齢・性別・国 が重複している場合も削除
・適応症と有害事象のマッピング
MedDRAからSNOMED-CTへの変換(OHDSI語彙テーブルを活用)
適応症の64%と有害事象(イベント)の80%をカバーしている。
・「薬ーアウトカム」のペアの作成
すべての「薬ー有害事象」のペアを構築(役割:PS・SS・C・ICを対象)
60,666,994件の対のデータが生成されている。
・スコア値 PRR、ROR(IC95 %)の数値情報も計算後に搭載している。
「”RxNorm””SNOMED-CT””OHDSI”とは?」と思われた方、それぞれについては下記に詳細を説明します。データベースを解析用にコーディングするためには各種辞書(ターミノロジー)が必要で、
独自にそれを構築するのは難しいため、薬剤は”RxNorm”、適応症・副作用は”SNOMED-CT”を用い、
マッピングプロセスで必要な手順・プログラム等をOHDSIを活用して進めているようです。”RxNorm”
RxNormと言われるいわゆる薬剤マスター
米国で販売されている処方箋や市販薬物の多くが対象となっており、ブランド品とジェネリック品が含まれる。
(医療機器・非治療用放射性医薬品・造影剤・食品・サプリメントは対象外)
UMLSの一つであり、NLMが運営しています。
UMLS:統合医学用語システム(Unified Medical Language System:UMLS)
NLM:米国国立医学図書館(United States National Library of Medicine)”SNOMED-CT”
SNOMED international が運営する
世界中で利用される包括的・多言語的臨床ヘルスケア専門用語である。
利用料金は所属国のメンバーシップ加入/非加入等条件によって変わる。著作物なので、利用については許可が必要。
必ずしもフリーであるものではない。”OHDSI”
Observational Health Data Sciences and Informatics
という組織をさします。
多くの研究者がOHDSI標準コンセプト(識別子)に合わせてDBのマッピングをしている。
OSCARやACHILLESといわれるツールを開発し、データの特徴を示したり、データの質を評価するフレームワーク、手順、プログラムを考案している。
元は米国の産官学共同PJからスタートしており、現在は複数の分野の多くのステークホルダーと共同研究などを手がける組織として運営されている。
ちなみにJMDCはOHDSIのフォーマットとして提供している。(診療請求データ)コーディングの可用性について
以下に公開しているので再現はとれるようになっている,とのこと。
・GitHubリポジトリで公開(https://github.com/ltscomputingllc/faersdbstats)
・マニュアルでの薬物マッピングはOHDSI Usagi (https://github.com/OHDSI/usagi)を採用
バージョンは以下を適用しています。
・OHDSI version v5.0 08-JUN-15
・RxNorm version 20150504
・SNOMED-CT release INT 20150131
・MedDRA version18.0.
・PostgreSQL 9.3情報の公開として上記があるのは解析者としてはありがたいのですが
各種ターミノロジーも常に最新版がアップデートされており、
それらについても同時に更新してもらわないと
上記のままでは適用できなくなるリスクがいつまでもつきまといます。(過剰な心配?)可用性があるようにみえつつも、保全性については疑問は残ります。(個人的に)
また、完全フリーとは言い難く、SNOMEDも利用者の所属によって有料となり、
配布しているデータベースと上記公開内容に沿ったプロセス再現には足かせになりかねません。
日本人なら日本語MedDRAを適用したいでしょうが、JMO会員しか利用できず、もちろん有償です。SRSデータを用いた研究の加速化を狙っているようですが、否定的に見てしまうと理想と現実のギャップがあるように思えます。
つまり再現がとれるように見えて、実はとれないのでは?と懐疑的になってしまいます。
海外の研究者で所属機関が権利を持っており、コーディング等頑張れば再現はできるかと楽観的な見方もできますが。
しかし、それでも「ただし」付きにはなります。そのただしを説明する前にデータの内容について記載します。配布されるデータ内容
公開しているデータは以下の11個のファイルです。・standard_case_drug.tsv
- Aggregated and mapped information found in theDRUGyyQq files from LAERS and FAERS.
・standard_case_outcome.tsv
- Aggregated and mapped all REACyyQq files fromLAERS and FAERS.
・standard_case_outcome_category.tsv
- Combined SNOMED-CT outcome conceptidentifier with the OUTyyQq files
from LAERS and FAERS.
・standard_case_indication.tsv
- Mapped indication preferred terms from theINDIyyQq files into OHDSI standard
vocabulary concept identifiers and SNOMEDCT concept identifiers.
・standard_drug_outcome_contingency_table.tsv
- Contains all calculated 2x2contingency tables for all drug-outcome combinations
found in the data.
・standard_drug_outcome_count.tsv
- Features the total counts for alldrug-outcomes are.
・standard_drug_outcome_drilldown.tsv
- Contains the mapped drug/outcomepairs found in all cases (LAERS/FAERS).
・standard_drug_outcome_statistics.tsv
- Features for all drug-outcome pairsthe PPR and
ROR with their 95% confidence interval (upper and lower values).
・concept
- OHDSI vocabulary version v5.0 08-JUN-15 concepts.
・vocabulary
- Source of OHDSI vocabularies for version v5.0 08-JUN-15.
・README.TXT解析対象はtsvファイルとなります。
ソース元であるFAERSとの違いは?と問われると、中身が違うということに尽きるかと思います。
まず、Demoデータと言われる症例基本情報がありません。
Drugデータとしてコーディングされたものはあるようですが、
被疑薬の役割ぐらいの記述しかなく、投与日・投与量などがありません。
他TherapyなどFAERSがもつテーブルのうち多くが欠けている、といったところでしょうか。本データは主に、薬剤と有害事象(適応症)の掛け合わせの情報のみを用いた解析向けに作られたもので、
患者基本情報・薬剤詳細情報については問わないような研究目的にしか適用できないような気もします。
不要であれば不要なのですが、投与日とイベント発生日がないと、時系列のような解析等は出来ません。気になる点
辛口評価ですが、下記がぱっと浮かびました。・著作権
すべてのターミノロジーが誰にとってもフリーとは限らない・データベースの保守
GitHubでコードを準備していてもそれを更新するインセンティブが不明
現状、適用されているMedDRAも古いまま。PostgreSQLも今や10の時代です。
管理運営保守についてはやはりビジネス的な力学がないと担保できないでは?(と思ってしまう)
余計なお世話だと言われれば黙って立ち去ります。・使いやすさに疑問
キュレーション時間の短縮を享受できるのはわかるが、
元のFARESのDBの中身がわからないまま解析する危険性を考慮するとお薦めしづらい(面もでてくる。)
解析者もデータの中身やその特性を理解したうえで進める必要がある、と考えると元から変わりすぎでは?
決まったフローがあり、実作業(手作業)の時間短縮に貢献できるなら凄くいい。
上記著作権と重複しますが、利用する辞書が入手できないと解析が進められない。・重複削除のしすぎな点も気になる。
(セカンドステップにある重複削除の必要性が本当にあるのか?)・網羅性
マッピングする辞書の精度とその辞書自身のavailabilityが気になる。・グルーピング
論文上では、薬剤を成分でまとめての解析ができるなど、
コーディングされた情報(TSV)をもとに、さらなる探索の可能性を示唆して柔軟性をアピールしている。
ただし、グルーピングについてはそれこそRDBをわかっていて、
薬剤・イベントそれぞれのターミノロジーでのまとまりかたや、
DBそのものの構造を理解しておくべきだと思われるので、このDBだけで階層を加味した探索をするのは
簡便性だけをもとめてこのDBを利用しようとする研究者には不向きなのではと、逆説的に思ってしまう。
単純に足し算すればいいというものでもないことはご理解いただけるかと思いますが、
手元の統計ソフトが自動的にやってくれるものでもないので解析者にある程度の知識は要求されるかと思います。
(一度理解すれば大丈夫なレベルですが。)まとめ
AELOUS は公的辞書による独自コーディング(マッピング)が施されたキュレーション後のデータベースである。
フリーでダウンロードできるが、薬剤ー有害事象(適応症)の対のデータがメインで、
詳細(患者情報)等は省かれていることから。解析目的に合わせて利用できるかどうかを精査する必要がある。
マッピングに利用した辞書の網羅性については解析者が責任を負うこと。
また、その辞書もフリーで利用できるかどうかを確認すること。PRRとRORの計算値もtsvファイルで配布しています。
そういえばドイツの研究者も独自サイトでスコア値を表示するシステムを公開していました。
一度連絡があってキュレーション方法について質問がありました。
やはりSRSの活用はトレンドの一つであるのだと思われます。いろんなキーワード・機関・情報が新しく調査できて個人的にも勉強になりました。
このデータの活用について、が重要だとは思いますが、そこはご自身で論文を読んでください。
(特に”Usage Notes”以降が参考になります)
やはり有害事象の探索や、未知の組み合わせに関する検知の重要性について記述があります。
個人的にはempirical calibration というところが腑に落ちたところです。 -
お問合わせ
メルマガ登録