リアルワールドデータは、電子カルテ内の画像やテキスト等の機械学習に頻用されるデータからゲノムデータまで様々な種類がある。
データ前処理は、解析対象とするデータの性質と解析手法によって実施目的や処理内容が大きく異なる。
例えば、機械学習目的の画像データ前処理はノイズ除去等でバイナリデータの処理が必要になる。
同様に自然言語処理(テキスト処理)では、アノテーション等の作業も前処理の部類に入れることが一般的である。
昨今では、上記で述べたものも含めてデータ解析の前に実施する面倒な処理はすべて前処理として議論される傾向がある。
しかし、これらを混合して議論するとデータ前処理の本質が捉えづらくなる。
そこで本稿では、リアルワールドデータを用いた臨床研究(疫学研究)の構造化データの前処理に限定する。
リアルワールドデータの前処理
リアルワールドデータを用いた臨床研究は、従来の臨床研究と比較してデータ前処理の負荷が極めて高くなる。
その要因は、主にリアルワールドデータ特有の2個の性質から生じる。
① 二次利用を想定して蓄積されたデータはない
➁(ほぼ必然的に)研究に不要なデータが含まれている
上記①に起因するデータ前処理
–欠損値補完、外れ値補完
–変数の分布分析
–文字列処理
–データ変換(コーディング)
一般に臨床研究では、仮説を構築した後にデータ収集を開始する。
しかし、リアルワールドデータを用いたデータベース研究はデータ駆動型の研究であることから、ある程度データを探索してから仮説を決めることも多い。
結果、解析に用いる変数や解析手法を決定する際に、データ前処理が必要になる。
例えば、「欠損値が多数存在する変数を解析項目に加えても良いか」、「分布の偏りが激しい変数を加えても大丈夫か」等、様々な検証が考えられる。
上記②に起因するデータ前処理
稀にデータベース上のすべてのデータを用いる研究も存在するかもしれない。
しかし一般には、利用者が提供されたリアルワールドデータには、研究には用いない余分なデータが含まれている。
そのため、利用者は、「余分なデータを削除する」必要がある。
研究で用いる病名のみで構成された患者を抽出すれば良いと考える向きもあるが、それだけでは不十分である。
例えば、患者ごとに検査回数や医薬品やその処方回数はまちまちであり、処置のタイミングも異なる。
また、これらの前処理は研究デザインを深く理解していなければデータを絞ることができない。
これらすべてのデータは必要ないため、研究デザインに応じてデータを絞る必要がある。
病名ごとに整理されたデータウェアハウスは有用か?
①で述べた前処理は、リアルワールドデータでは増える傾向にあるものの、すべてのケースで必須の処理ではない。
ある程度整理されたデータベースやデータウェアハウスを用いることでこれらの前処理作業を避けられるケースがあるためだ。
一方で、「傷病名」に関しては比較的簡単に絞ることができる。
同じ患者に何度も病名が付与されることは比較的少ない(もちろんゼロではない)ため、効率的にデータ容量を絞ることができるためだ。
その結果、特定病名のデータウェアハウス等が構築されてることが多い。
癌などの病名ごとに構築されたデータベース(データウェアハウス)は、良く知られている。
最も大きな利点は、データ量が削減できることだ。
利用者はすべて当該病名にしか関心がないため、研究に不要な病名は含まれていない。
しかしながら、研究に不要な「医薬品」、「処置」、「検査」は十中八九含まれているだろう。
それらの変数に関しては利用者が必要なデータを絞る必要がある。
結果、データ前処理はデータ量という観点からは改善されるものの、大幅に削減することはできない。
という結論になる。
RWDのデータ前処理の定義
以上述べたように、ほぼすべての研究で必要となる「研究に余分なデータを排除する前処理」が
リアルワールドデータの前処理の根幹であるといえる。
さらに事務的かつ端的に表すと、「統計解析ソフトにインプットするデータ」をデータセットと定義するならば、
「統計解析に必要のない余計なデータを排除する処理」がRWDのデータ前処理であると提案したい。
やっかいなことにリアルワールドデータを用いた研究ではこの処理が質量ともに大幅に増える傾向が強いことから、利用者の負荷を高めている。
以上述べたとおり、ほとんどの集計・解析において必要となる「余分なデータを削除するための前処理」に限定すると、
「選択」という概念で説明することができる。
その詳細については、下記の記事で述べているので参考にしてください。
コメント