A review of statistical and machine learning methods for 
modeling cancer risk using structured clinical data

Paper Information.

  • YEAR : 2018
  • AUTHOR : Aaron N. Richter 외 1명
  • JOURNAL : Artificial Intelligence In Medicine



Abstract

  시간이 지남에 따라 종양학에서 발전이 진행됨에 따라 암의 예방과 치료 여건이 점차 개선되고 있습니다. 암은 치명적인 질병으로 위험을 줄이기 위해서는 조기에 발견해야 합니다. 또한, 치료를 했더라도 재발할 위험성이 존재합니다. 예측 모델은 과거 데이터를 사용하여 암이 발견되거나 재발한 환자의 특징을 모델링 할 수 있습니다. 이러한 모델은 새로운 환자가 암 발병 또는 재발 위험 여부를 결정하기 위해 임상에서 활용할 수 있습니다. 대규모 예측 모델 구축을 위해 많은 환자에게 정형 데이터를 추출해야 합니다. 본 연구는 정형 데이터로 구성된 환자 데이터를 사용하여 암 위험 모델을 구축하는 최신 동향을 연구합니다. 통계 및 기계 학습 사용 추세와 향후 연구를 위해 간격을 측정합니다. 암 위험 예측 분야는 영향력이 큰 분야이고, 임상의와 환자 모두의 증진을 위해 지속적으로 연구되어야 할 필요성이 있습니다.



Method

  본 연구에서는 암 이외의 다른 질병에 초점을 둔 연구와 비임상 데이터, 비정형 데이터를 사용하는 연구는 제외하였습니다. Pubmed와 Google Scholar를 사용하여 '암 위험', '암 재발', '암 예측', '기계 학습', '데이터 마이닝' 등의 키워드를 활용하여 논문을 검색하였습니다. 이후, 각 논문의 관련성을 검토 한 후 최종적으로 22개의 논문을 선별하였습니다. 



Cancer Risk Model

1. Data Selection

  환자 데이터는 다양한 환경에서 추출될 수 있습니다. 본 연구에서는 정형 데이터 임상 정보를 활용하는 연구에 중점을 두고 진행되었습니다. 분자 데이터는 암 연구에서 매우 가치 있는 것으로 나타났으나, 비용 및 가용성 문제에서 대다수 환자에게 포함되지 않는 정보이기에 제외하였습니다. EHR 데이터는 환자 정보와 관련된 대규모 데이터를 수집할 수 있다는 잠재력을 가지고 있지만, 단편적인 의사 시점에서 판단된 정형 데이터가 기록될 수 있다는 점, 비정형 데이터로 기록된다는 점에서 영양가 있는 정보를 추출하기 어려워 제외하였습니다. 사회 & 라이프 스타일 데이터는 특정 암의 위험성을 모델링 하는데 중요하게 작용할 수 있습니다. 따라서 한국 국립 암 센터에서 수집한 데이터 일부를 활용하였습니다.


2. Feature

  암 위험 및 재발 예측을 위해 본 연구에서 다루고 있는 특징은 아래와 같습니다. 아래 5가지 범주를 모두 포함하는 논문은 없었으며, 대부분 2~3가지를 사용하였습니다.

  • Demographic : 환자의 데모그라픽 정보입니다. 대부분의 연구에서는 Age, Sex를 사용하였습니다.
  • Labs : 백혈구 수, 헤모글로빈, 포도당 등 채혈 시 측정할 수 있는 정보를 포함합니다.
  • Histopathologic : 종양 크기, 전이 여부, 단계 등을 포함합니다.
  • Clinical : 치료, 가족력 등 일상적으로 얻을 수 있는 임상 정보를 포함합니다.
  • Lifestyle : 흡연 상태 및 음주와 같은 소셜 정보를 포함합니다.


Statistical & ML Method

1. Statistical & ML Models

  본 연구에서 다루고 있는 모든 논문은 환자의 암 발병 및 재발 여부를 예측하는 예측 모델을 구축하지만, 사용된 기술은 연구마다 달랐습니다. 일반적으로 회귀 분석 및 생존 분석과 같은 고전적인 통계 방법이나 ANN, SVM, Decision Tree와 같은 기계 학습 바법을 사용하는 연구가 몇 있었습니다. 몇 가지 연구는 하이브리드 접근법을 사용하여 각 모델의 성능을 비교하였습니다. 

  질병의 위험이나 재발에서의 모델링은 생존 분석 문제로 프레임화 되어 있으며, 많은 연구에서 생존 분석 기술을 활용하여 예측 모델을 구성하였습니다. 이러한 방법 중 하나인 Cox Proportional Hazards는 전형적으로 시간의 흐름과 다변량 분석을 가능하게 하기 때문에 많이 선택됩니다. 이는 미래의 어떤 시점에서 일어날 사건의 확률을 모델링하는 회귀 모델입니다. 발병 위험 예측 연구에서 사건은 암의 진단이며, 시간적 요소는 연구 등록 또는 관찰 기간입니다. 재발 예측에서의 사건은 암의 재발이고, 시간적 요소는 치료 날짜입니다. 

  생존 모델의 결과를 시각화하고 해석하기 위해 Kaplan-Meier 곡선을 활용합니다. Kaplan-Meier 곡선은 여러 집단 환자의 생존 기능을 평가하고 생존 확률을 표시합니다. 이러한 방법은 새로운 환자에 대해 선택할 치료법을 결정하기 위해 치료법의 특징에 따라 환자 코호트를 비교할 수 있습니다. Kaplan-Meier 분석은 예측 모델에 국한되지 않으며 기계 학습 알고리즘으로 환자의 생존 여부 또한 알 수 있습니다. Fig. 1은 Kaplan-Meier Curve의 예시를 나타냅니다. Fig. 1은 기계 학습 모델에 따른 고위험군과 저위험군의 생존률입니다.

< Fig. 1. Example Kaplan-Meier Curve >

  로지스틱 회귀분석(LR, Logistic Regression)은 널리 사용되는 통계 모델 중 하나입니다. 이 방법을 사용하면 다 변수 종속 변수에 대한 다 변수 분석 및 모델링이 가능합니다. 하지만 이러한 회귀 모델은 선형 모델에 적합하지 않은 경우에 사용되기 어렵습니다.

  기계 학습 분야에서 인기있는 모델은 인공 신경망(ANN)입니다. ANN의 변형인 CNN은 이미지 인식과 같은 비지도학습에서 매우 효과적으로 사용될 수 있습니다. ANN은 질병 예측과 같은 지도학습에서 매우 유용하게 사용될 수 있습니다.  본 연구에서 조사한 여러 논문에서 ANN 혹은 ANN을 개량한 모델을 구축하여 사용하였습니다. 


2. Feature Reduction

  예측 모델을 학습하는 첫 번째 단계는 모델에 입력될 인풋 값을 결정하는 것입니다. 이는 대부분 임상 데이터 데이터베이스에 저장되어 있는 변수의 종류에 의해 제한되는 경우가 많습니다. 또한, 계산 및 추정의 복잡성은 모델에서 사용할 수 있는 특징의 수를 제한할 수 있는 요소입니다. 특징 축소는 임상 설정에서 사용하기 위해 모델을 배포하는 맥락에서 중요하게 작용할 수 있습니다. 예측 모델의 사용자가 예측을 진행하기 전에 변수를 수동으로 입력해야 하는 경우에는 되도록이면 적은 수의 변수가 포함되어야 합니다. 

  대부분의 연구에서는 단변수 분석을 수행하여 공변량이 출력값과 통계적으로 유의한 상관관계가 있는지 확인합니다. 이후 유의한 상관관계가 있는 변수만 후속 모델에 인풋값으로 사용됩니다. 상관관계를 파악하는 방법으로 Pearson-Correlation, Mutual-Information, Distance Correlation 등을 사용합니다. 일반적으로 회귀 모델의 해석을 위해 10개 이내의 특징을 입력하는 결과를 나타냅니다.


3. Feature Selection

  Feature Selection 방법으로 표준 상관 분석(Canonical Correlation Analysis), GA(Genetic Algorithm), SA(Simulated Annealing) 등이 있습니다. 표준 상관 분석 방법은 출력값과 가장 관련이 있는 Feature Set을 찾는 기법 중 하나입니다. Decision Tree도 Feature Selection을 위해 효과적으로 사용될 수 있습니다. 중요한 p값을 갖는 피쳐를 선택하는 것만으로도 통계 모델의 Feature Selection의 한 형태로 사용될 수 있습니다. Fig. 2는 각종 통계 및 기계학습 알고리즘과 Feature Selection 사이의 관계를 나타냅니다.

< Fig. 2. Feature Selection and Model Algorithm Methods >


4. Hybrid Model

  복잡한 모델링 문제에서는 정답이 없기 때문에 다양한 모델 옵션을 탐색하고, 어떤 모델이 가장 효과적인지를 결정해야 합니다. 또한, 하나의 기술이 아닌 다른 기술과 융합하여 사용하면 향상된 성능을 기대할 수 있습니다. 본 연구에서 프로파일링한 여러 연구는 서로 다른 ML 모델을 서로 비교하여 가장 우수한 성능을 보이는 모델을 제안하였습니다.


5. Model Evaluation

 모델의 성능 평가는 구축한 모델이 얼마나 정확하게 분류할 수 있는지를 입증하는 과정입니다. 성능 평가의 가장 기본적인 형태는 예측 정확도이며, 이는 모델이 전체 테스트 데이터를 평가합니다. 정확도 이외에도 혼동 행렬, ROC Curve, AUC Value, Sensitivity, Specificity 등 여러가지 평가 방법이 존재합니다.



Summary

  1. 본 연구에서는 암 위험과 재발 예측 모델을 구축한 문헌에 대한 포괄적인 리뷰를 제공하였습니다.

  2. 모델 구축을 위해 중요한 요소는 'Feature'와 'Model'가 있으며, 이 두 가지 요소를 어떻게 가공하여 사용하냐에 따라 전체 모델의 성능이 크게 좌우됩니다.

  3. 모델을 구축하는 데 있어서 정해진 정답은 없으며, 여러 모델들의 성능을 비교하거나 Hybrid Model을 적용하여 성능을 향상시킬 수 있습니다.

  4. 구축한 모델이 정확하게 작동하는지 확인하기 위해서는 성능 평가를 해야 합니다. 성능 평가의 종류는 Accuracy, Confusion Matrix 등 많은 방법이 존재합니다.



+ Recent posts