医療データベース研究①(データベース)
-
弊社並びにグループ企業による共同体で
「医療データベースを対象とした自主研究」
”糖尿病治療薬と感染症の発現に関する研究”を実施しましたので
数回に渡って本ブログでも報告したいと思います。・リサーチクエスチョン
・研究スキーム
・解析手法もさることながら、
どんなことに時間をかけたか、苦労したか、なども踏まえて
できるだけ研究を進めた順番に沿って報告したいと思います。一つの目的は、来るべきMID-NET利活用スタート後に医療データベースの解析にスムーズに対応できるように
「医療データベースを入手のうえ、どんな解析ができるのか、Feasibility Studyをしたい」というものでした。
そしてその医療DBの実際の中身を(解析を通して)知ることや、研究・調査・解析の経験値を獲得することでした。ですので、「この解析の為にはこの医療DBがまさに相応しい、だからこのDBを選定した」という順番ではなく、
『このDBでどんな解析ができるのかを探索する』という面の方が大きかったかと思われます。
とはいえ、目的と手段を入れ違えて進めてしまうと本末転倒になり、意味がありませんので、
(当たり前ですが)まずは研究課題を設定しました。弊社は製薬企業ではないので「自社が販売している薬剤を対象」とするといったストレートで
シンプルな動機による薬剤選定が出来ませんでした。そこで、(共同体である)研究グループ内のメンバーでもあり、
薬学博士・医学博士といった臨床にも精通しているメンバーによる
「社会的にも興味深いであろう課題」を考慮したリサーチクエスチョンを策定しました。その際にはPMDA”MIHARI−PJ”の報告内容なども参考に、調査テーマとして適切であると考えられる条件
・予防的治療が行われる可能性の低い有害事象であること
・アウトカムが特定可能である
・使用するデータセット内に曝露医薬品を処方された者およびアウトカムを発現した者が、解析可能な程度に存在すると見込まれること
も考慮しました。研究タイトル:「糖尿病治療薬と感染症の発現に関する研究」
用語定義
DPP-4阻害薬:ジペプチジルペプチダーゼ-4阻害薬
SU剤:スルホニルウレア
SGLT2阻害薬:ナトリウム・グルコース共役輸送体2阻害薬研究メンバーが(過去に調査などで)担当したこともある薬剤で、
その効能、機序、種類などもよく理解しており、
更に、どのような意図で処方されているのか?などについても把握がしやすく
それがゆえに解析視点を見つけやすいのでは、という背景(目論見?)もあり、
糖尿病治療薬をターゲットとしました。
(プラス、患者数が多く、観察数も多くなるだろうという思惑もあります)その上で薬理作用から生じうる副作用について明確になっていないものを
疫学的にエビデンスを構築できるかという視点で進めました。具体的には
「DPP-4阻害薬及びSGLT2阻害薬の
それぞれの副作用(DPP-4阻害薬:上気道感染症、SGLT2阻害薬:尿路・性器感染)について、
SU剤とビグアナイド薬を対象薬として、その発現頻度等をデータベース研究により明らかにする。」
ということを研究の目的に設定しました。今回、医療データベース研究で対象とするデータソースは
株式会社日本医療データセンター(JMDC ジャムダックと読みます) から提供を受けた
健康保険組合のレセプトデータを使用することにしました。
(業界的には”ジャムダックのデータを使った”と言うと通じるようです。通ですね。)このデータは、複数の健康保険組合のレセプトデータを統合したもので、
2005年1月から現在までに発行された医科レセプト(入院・入院外)、DPCのデータが含まれます。
(総登録者数:約300万人)
JMDCにおいて予め名寄せ作業(同じ人をまとめる作業)が施されているため、
組合員が当該健康保険組合から離脱しない限り、
複数の医療機関にまたがる保険医療の情報を患者単位に追跡することが可能です。
また、組合員の扶養家族の情報も含まれています。
ただし、定年退職に伴い健康保険組合から離脱することにより、65歳以上のデータは減少しています。抽出条件は下図のように糖尿病薬の処方が一度でもある症例となります。
データ選択基準は極めてシンプルで、「糖尿病患者を対象としたい」というものです。
これら選択薬剤が処方されている場合は糖尿病患者であるという定義です。
薬剤はATC分類コードでの指定です。実は、別の自主研究において、
MDV(メディカル・データ・ビジョン社提供医療DB)を対象とした調査を同時に進めており、
あえて異なる種類の医療DBであるJMDCを対象とした研究を進めるという背景もあったのですが、
JMDC社の担当者とも相談のうえ、研究目的にかなうようなデータソースであろうという結論に至りました。相談時にはデータの項目・テーブル構造・レコード数など色々な質問をさせて頂きました。
[質問/確認したこと](一部)
・「加入者ID」の単位
被保険者ごとなのか、被保険者の家族は別IDになるのか?
・「診療開始日」の持ち方
医療機関ごとに持つので、ある患者のある疾患において、
別々の医療機関で受診すれば、複数の診療開始日が存在することになるがどうなっているか?
・「院外処方の場合のデータの結合」
レセプトの種類が異なるため、データ連結する際のキーが異なることに注意が必要
(例:入院外レセと調剤レセを結び付ける)[他、注意しておくべきこと](一部)
・「投薬情報の持ち方」「匿名化の観点から誕生日は年月まで」など特性がある。
・初心者なら、「レセプトは月単位、医療機関単位に存在する」等から
知っていく必要があると思います。事務発注に関する件や契約については割愛します。
他、よく質問されることなども資料をもらい大変助かりました。
今回の自主研究では利用しませんでしたが
「疑い病名」「死亡フラグ」「入院日と退院日」「医療費の計算」
「レセプト種別による情報有無の違い」「保険データの限界と注意点」
などが注意点として挙げられるかと思われます。[対象期間]
入手できる最大期間を対象とし、
JMDCの収集開始時期である2005年から最新版までのデータを提供してもらいました。
(提供可能なデータは4ヶ月前までなので、2017年4月までとなっています。)この段階でプロトコルやノウハウとは言えないまでも社内に残した注意事項を下記します。
●R.Q.に合わせた必要なデータ・セットは戦略的に策定すること
●データベンダーの担当者とも密な相談は必要であること
●解析にむけたコーディングや解析結果として欲しい情報(記述統計・Cox回帰等)を
頭にいれた上でデータ・セットの設計に臨むことコーディング対象カラムや、辞書関連の整備をイメージしながらデータ・セットの設計が
できたことは良かったかと思われます。また、
DB研究に限らず、RDBを扱う時の注意点と変わりませんが、
・どのIDがキーになるか
・どの項目が必須か
・どのデータがユニークで、どのデータが複数か
というあたりをチェックしました。他心配事は以下です。
・観察対象の数が少なくならないかの心配は常にありました。
・DBベンダーとの相談中には既に除外基準を考え始めました。
・アウトカム定義に関する日付(発現日等)はDBカラム確認中に検討を開始しました。
・発注するデータのボリュームが多いと価格に反映します。【入手したDBについて】
・媒体
頂いたデータはやはりボリュームが大きく、提供媒体はDVDでした。
ファイルはCSV形式で(圧縮されています)、医薬品、健診、傷病、診療行為など、
データの種類ごとに別ファイルになっています。・内容
大きく、マスタとデータに分かれます。
マスタは、医薬品マスタや傷病マスタなど、変わらないもの、
データは、医薬品データ、傷病データなど、随時増えるもの です。バラバラになっているファイルを、患者IDなどをキーにしてつなぎ合わせて使いました。
一般的なRDB(リレーショナルデータベース)風で、RDBに慣れていたら問題なく操作できると思います。・ファイルサイズ
(マスタは基本的に小サイズなので、除外します)
最小は、ファイルサイズ4.5M、行数7万
最大は、ファイルサイズ12G、行数9400万・ファイルの読み込み環境について
普通のcsvファイル(テキスト形式、Shift-JIS)なので、どんなOSでも読み込めます。
ただ、行数が多いので、エクセルでは全体を読み込めないデータもあります。
テキストエディタ(メモ帳など)で開くにしても、個人PCだときついでしょう。我々は、Linuxサーバー上で扱いました。
最初の数百レコードを確認しながら、RDB(PostgreSQL)に入れ、その後はずっとSQLでの操作です。今回はデータ量が多いので、処理時間に気を配っています。
DBにインデックスを張る、というのは基本ですが、処理時間とメモリはトレードオフの関係なので、
メモリに読み込むか、逐次SQLを発行するか、補助テーブルを作るか、併用処理ができる箇所があるか、など試行錯誤しました。次回は研究デザインなどの概要について報告します。
-
お問合わせ
メルマガ登録