近年では、データベースを用いた医学研究が盛んに行われるようになりました。
データベース研究のほとんどが、本来は別目的で収集されています。
そのため、それらのデータベースを二次利用して医学研究を実施されています。
リアルワールドデータも一部この種の研究に含まれます。
その火付け役となっているのは、現在のところ臨床系研究者(医師、看護師、薬剤師、理学療法士等)、
あるいは、大学で公衆衛生学系の学問を収められた疫学系研究者の方々だと思います。
それに次ぐのが、解析に携わっている生物統計系や情報学系の研究者ではないでしょうか。
現在のところ、データベース研究に取り組んでいるあまり多くはありません。
また、この分野でいくつか課題があります。
この記事では、このデータベース研究が抱えている課題について説明します。
課題は主に、下記の3つです。
- プログラミングスキルの課題
- ビッグデータのハンドリングに関する課題
- データの信頼性に関する課題
プログラミングスキルの課題
解析に用いるデータセットは各研究によって異なるため、研究ごとに作成しなければなりません。
これを効率化するために、「癌研究用」や「糖尿病用」などの各分野ごとにデータマートと呼ばれる専用の
データベースを作成しておくという方法がとられることが多いです。
しかし、本当に必要なのは各患者ごとの「医薬品投与日」や「医薬品を継続して3ヶ月以上投与されている」といったデータマートに格納された情報だけでは補えないケースが多くなります。
患者に関する情報は、複数のテーブル(ファイル)に分散していることがほとんどです。
なぜなら、これらのデータマートは、患者ごとにまとめられたものではなく、実質的には傷病ごとにまとめられているケースが多いからです。
データマートを基にした解析ソフトウェアも多く発表されています。
しかし、それらのソフトウェアでは研究者がすぐに論文化できるような精緻なデータセットを簡易に作り出すことができません。
定型的な情報しか得ることができないためです。
もちろん、これらの情報をあらかじめデータマートに含めることは原理的には可能ですが、手間を考えると現実的ではありません。
患者ごとに詳細な情報を得ようとすると、依然として「プログラミング」が必要になります。
そこで、このプログラミングのコードを共有して効率化するという動きも出てきています。
ただ、この分野で用いられるプログラミング言語はPython, R, SASなど多く存在しますし、研究は各々必要となる変数が異なるため、汎用化することは困難です。
まとめると、
- データマート戦略
- ソースコード共有化戦略
のいずれもこの課題解決の決定打にはならないということです。
ビッグデータのハンドリングに関する課題
この課題は、「データ量が多すぎてデータハンドリングに膨大な時間が必要になる」という課題です。
データ量の多寡について定義しておきたいと思います。
この記事では、10億件を超えるテーブル(ファイル)を複数同時に処理しなければならない状況をビッグデータ処理と呼びます。
しかし、現状ではあまり意識されていない課題です。
その理由としては、現状ではそれほど多くのデータをハンドリングしている研究者が少ないためです。
結論から言うと、10億件を超えるテーブルを複数同時に扱う処理をプログラミング言語でやろうとするならば、処理時間に数か月かかることになります。
「データ量が多いのだから処理時間がかかるのは当たり前じゃないか!」というラフな意見が、実は最も的を得た答えに近いということだけお伝えしておきます。
解決策に関しては、「なんらかの早いアルゴリズム」や「超高速なコンピュータ」が解決してくれるはずだと思うかもしれません。
情報工学を専門とする研究者であっても、そのように考える方は一定程度いるかもしれません。
しかし、結局のところ処理時間が膨大になる犯人は、「CPUでもメインメモリでもない」のです。
このような理由から、結局、データを分割せざるを得ない状況になることが多いでしょう。
この課題に対する策は、一択です。
それは、SQLですべての作業を完結させることです。
データの信頼性に関する課題
データベース研究で良く議論されている課題は、データ自身の信頼性です。
これは研究者の中で最も良く議論になります。
医療データベースは電子カルテ、レセプト等様々なタイプのデータがありますが、その収集方法によって
信頼性が必ずしも高いわけではないケースが存在します。
根本的に信頼性が低いデータの場合、根本的な改善は難しいですが、扱い方でカバーできることもあります。
例えば、レセプトデータを例に挙げると、レセプトに付与される傷病名は本当の傷病名ではない場合があります。
この時、「傷病名があてにならない!」ということで、その傷病名に特有の診療行為や医薬品を投与されている患者
を調べることでカバーできる場合があります。
このように、データベースの特徴を理解し、信頼性が低い項目を補えるようなアイデアがあれば研究が進展します。
コメント