リアルワールドデータのデータ前処理が難しいたった１つの理由【誰でも分かるように解説】

2023 5/27

リアルワールドデータを用いた医学研究では、データ前処理に関して必ず認識しておかなければならないことがある。

従来までの臨床研究と比較すると、リアルワールドデータを用いた研究ではデータ前処理の負荷が極めて大きくなる。

その理由について、専門知識を持たない人でも分かるように簡単に解説します。

データ前処理の定義として、欠損値処理や統計解析の一部を含める向きもあるが、これらの処理はすべてのケースで必要とされるものではない。

そこで、ほとんどの集計・解析において必要となる普遍的な処理に限定すると、データ前処理は

下記に示す「選択」という概念で説明することができる。

選択

医療系リアルワールドデータは一般に、病名、診療行為、検体検査、医薬品等の複数テーブルに分散してデータベースに格納されている。

例として、「病名テーブルのⅡ型糖尿病」と「検体検査テーブルの収縮期血圧」の相関を求めるケースを考える。

「Ⅱ型糖尿病」は、当該病名が付与されているか否かの2値であり、各患者についていずれか1つが自動的に確定する。

一方で、「検体検査テーブルの血圧」は、患者ごとに複数存在することが多い。多くの患者は外来受診や入院生活で複数回血圧測定を実施しているためである。

この場合、相関を求めるためには、多数ある血圧計測結果からひとつを「選択」する必要がある。

(血圧の選択基準は様々あるが、初回の計測値かもしれないし、入院時の初回の計測値かもしれない。)

データ前処理を端的に言語化すると、「患者ごとに、解析する変数について1つ（の行あるいは値）を選択する」という作業である。

本稿では、先に述べた「選択」する作業の頻度を、「選択頻度」と呼ぶ。

リアルワールドデータは、特に医薬品や検体検査など治療に関連するものは一人の患者に関して複数回実施されることが多い。

このため、変数ごとにその都度「選択作業」が発生する頻度が高くなる。

単一ファイルから選択する処理であれば、テーブルの行数をNとすると、計算科学の計算負荷はO(N)となり、それほど負担とはならない。

しかしながら、リアルワールドデータを用いる場合には複数ファイルの情報検索が必要になるケースがある。

例として、「Ⅱ型糖尿病の診断日から30日以内にインスリンが投与されている患者」を集計する場合を考える。

診断日は患者ごとに異なるため、患者ごとに医薬品テーブル全体を検索する必要がある。

仮に病名テーブルと医薬品テーブルが双方ともN行だとすると、最小でもO(N*N)の計算負荷となる。

集計、統計解析においても上記の選択処理を実施している。

臨床研究ではデータ収集の段階で変数を確定させるため、変数ごとの「選択作業」の頻度が少なく、「選択負荷」はほとんど存在しない。

このような理由から、リアルワールドデータの集計や統計解析は、煩雑さを伴い相応の手間がかかる。

よかったらシェアしてね！