リアルワールドデータという言葉が数年前から良く見聞きすると思います。
私はこの分野を専門として研究していますので、ある程度的を外さず議論できます。
リアルワールドデータの定義
リアルワールドデータの定義は、実ははっきりとしていません。
現状では、電子カルテやレセプト、DPCデータ、介護データ等の日々の診療や活動によって蓄積されているデータのことを指します。
つまり、医療系のデータを指す言葉として使われることが多くなっています。
一般の方にはあまりなじみがないと思いますが、これらのデータは「医療従事者にとってはなじみが深い」ものです。
医師や看護師等で電子カルテを使っていない人はほとんどいないはずです。
また、医療従事者ではなくても、例えばレセプト申請をする診療情報管理士等の職種の方であれば、レセプトやDPCは日々扱っています。
その他にも、製薬系の企業の市販後調査等にも既に使われています。
私見ですが、これらのリアルワールドデータは、医療従事者やその他の分析者にとって「わかりやすいデータ」だから、人気があると考えています。
要するに、電子カルテ等のデータは基本的に病名、医薬品、処置等のテーブルから成っており、分析するためにそこまで専門的な知識というものが必要とされないからです。
まったく専門的な知識が不要と言っているのではなく、比較的・・です。(特に医療従事者にとっては)
これが「ゲノムデータ」となれば話は変わってきます。
ゲノムデータも診療の一環として実施するようになれば、これも日々蓄積されるリアルワールドデータになります。
医療従事者の中でもゲノム解析の専門知識を持っている人は限られています。
むしろ、ゲノム情報学を研究している情報系の人の方が専門知識を持っているかもしれません。
こうなると、医療従事者にとっては、それほど興味のないデータとなってしまいます。
ただし、ゲノム情報に関して言えば、将来的には「糖尿病のなりやすさ」等の指標が、電子カルテ等に付与されて患者と
医療従事者のみが閲覧できるような未来になると私は思っています。
ただし、そのレベルになればもはや電子カルテのデータですよね。
しかし、ゲノム分析はもう既にノウハウがかなり蓄積されており、素人が簡単に手をだせない領域にあります。
ということで、ゲノムデータベースは当分の間専門家以外には使いづらいデータに変わりないという見解です。
結論として、リアルワールドデータの中心は電子カルテ系の分かりやすいデータが使われていくと思います。

リアルワールドデータは信頼性が低い?
リアルワールドデータは信頼性が低いと言われることがあります。
確かに当てはまるケースもあります。
今回は、レセプトデータベースを例に挙げて考えてみたいと思います。
例えば、レセプトでは、信頼できない病名が存在すると言われています。
病名というのは、医師がとりあえず処置・投薬等を実施するために、とりあえず病名を付与することもあるからです。
というのも、初見の患者さんでは病名を見抜くことは難しいこともあります。
そのため、レセプトで付与されている病名はそのすべてが実際の病名であると保証することはできません。
ただし、このような事実をもって、「病名の信頼性は低い」ということがすべてのケースに言えるでしょうか?
例えば、「細菌性肺炎」と付与しておいて、いくつか抗生物質を投与するケースがあるそうです。
治療している間に、喀痰の精密検査を行い、その検査結果は「結核」かもしれませんし、その他の肺炎かもしれません。
あるいは、「細菌性肺炎」でばっちりあっているかもしれません。
しかし、検査が出るまで何らかの治療を行いたい場合、多くの細菌性肺炎に効力のある抗生物質を投与しておくという方針です。
仮に本当に細菌性肺炎であった場合には、この治療方針は初期治療として奏功します。
このような治療方針が良いか悪いかは別として、実際にはそのようなことがあるそうです。
つまり、「細菌性肺炎」という病名は信頼性が高いとはいえないということになります。
さて、この段階で、レセプトデータベースにおけるすべての病名は当てにならないということが帰納的にいえるでしょうか?
あるいは、もっと大胆に上段から構えて、演繹的に言えるでしょうか?
私は、言えないと思います。
その理由について説明します。
例えば、「エタンブトール視神経症」という病名はどうでしょうか。
エタンブトールという抗菌薬は、結核や非結核性抗酸菌症の治療薬として投与されます。
ただし、副作用としてアジア人に対して高用量の長期投与で特に視神経障害を起こすと言われています。
つまり、この病名が付与されているということは、当該患者にはエタンブトールが継続投与されており、その間に視神経障害が起きた
ことが言えるのです。
(さすがに、エタンブトールを投与していないのにこの病名は付けませんから・・)
つまり、この病名はかなり信頼性が高いといえます。
その病名がどのようなバックグラウンドで使用されるのかによって、信頼性も変わってきます。
このように、レセプトデータベースにおいても、病名によって信頼度が違うのです。
さらに、病名に加えて医薬品や処置等も併せて考慮するとさらに信頼性が高まるケースもあるでしょう。
対策としては、病名ごとにバリデーションを行い、信頼度を根拠とともに示していくというのもひとつです。
現在のところ、研究者側が信頼性を担保して研究することが最も現実的です。
つまり、「リアルワールドデータは信頼できない」と言うのではなく、「信頼できるように工夫して研究する」ことをお勧めします。
リアルワールドデータの本当の課題
日本でもMID-NETやNDBをはじめとして様々なデータベースが既に整備されています。
リアルワールドデータの今後の課題は何でしょうか?
「データ標準化」でしょうか?それとも仮説構築でしょうか?
また、仮説構築はそれこそ人間が扱うケースよりも、機械学習に任せることが増えてくるでしょう。
残念ながら、その方が筋の良い結果が待ち受けていると思います。
一方で、解析作業が機械学習に任すことはあまり筋が良くないと思います。(特に臨床研究では)
というのも、臨床研究においては開発した医薬品や治療法が効果があるか否かというのが知りたい(実証したい)わけですから、その結果が精度という数字で示されても、研究者としては全くうれしくありません。
「効果があるか否か」という、これまでの生物統計の手法を用いてデータの標準化や連結は、いたるところでよく聞くようになりました。
しかし、この分野を専門としている立場から冷静に観察すると、
ひとつのデータベースでも効率的に解析できる力を持った人はほんのわずかしかいません。
私が素早く分析できますと言っているのではありません。その逆です。
私ものつこつと牛なみの速度でしか分析できません。このような時間は無駄ではないでしょうか?
何年かすると、この無駄に皆さんが気付き始めると思います。
つまり、数年後のリアルワールドデータの課題は、「データ前処理」になるでしょう。
コメント