Risk Prediction Model for Colorectal Cancer : National Health Insurance Corporation Study, Korea




Paper Information.

  • YEAR : 2014
  • AUTHOR : Aesun Shin 외 7명
  • JOURNAL : PLOS


Abstract

  지난 수십년 간 한국에서의 대장암 발병률과 사망률이 급속히 증가하고 있습니다. 한국인 남녀의 직결장암 예방 및 조기 발견을 위한 대장암 위험 예측 모델의 개발이 절실히 필요한 상황입니다. 본 연구에서는 대장암, 근위 결장암, 원위 대장암, 결장암 및 직장암에 대한 성별별 5년 위험 예측 모델을 구축하였습니다. 해당 모델은 국민 건강 보험 공단 건강 검진에 참여한 남성 84만 5천여명, 여성 47만 9천여명을 대상으로 구축되었습니다. 수집 대상은 30-80세 사이에 위치하며, 1996년-1997년 사이에 암에 걸리지 않은 상태여야 했습니다. 모델 검증은 C-Statistic 및 Hosmer-Lemeshow-type 카이 제곱 통계를 사용하여 구별 및 측정 능력에서 성능을 평가하였습니다.

  결과적으로 연령, 체질량, 혈청 콜레스테롤, 암의 가족력, 음주량이 남성의 모든 모델에, 여자는 연령, 신장, 고기 섭취 빈도가 모든 모델에 Feature로서 포함되었습니다. 모델은 0.69와 0.78 사이의 C-통계로 적당히 우수한 측정 능력을 나타내었습니다. C-통계는 남성 모델의 경우 일반적으로 높았지만 보정 능력은 여자 모델에서 더 좋았습니다. 



Study Population

  본 연구는 국립 암 센터의 IRB 승인을 받아 진행되었습니다. 윤리위원회는 참가자들의 동의가 필요하지 않았기 때문에 데이터 클리닝 및 분석을 포함한 모든 단계에서 익명으로 관리되는 의료 데이터를 정기적으로 수집했습니다. 크게 2개의 독립적 집단이 연구에 포함되었습니다. 첫 번째 데이터 세트는 1996년과 1997년 사이에 국민 건강 보험 공단이 제공한 건강 검진에 참여한 남성과 여성으로 구성하여 모델을 구축하였습니다. 참가자들은 알코올 섭취, 흡연 습관, 규칙적인 운동, 암의 가족력, 식이 선호도 및 육식 소비 빈도에 대한 자가 관리 설문지를 작성하도록 요청받았습니다. 여성의 경우 생식 요인을 추가적으로 작성하도록 하였습니다. 신장과 체중을 직접 측정하였고, BMI는 체중을 신장으로 나눈 값으로 계산하였습니다.

  두 번째 데이터 세트는 1998년과 1999년에 건강 검진에 참여한 참여자가 모델 검증에 사용 되었습니다. 최종 분석에 포함된 사람들은 암의 과거력이 없는 30세에서 80세 사이의 사람으로, 누락된 사람은 없었습니다. 모델 구축에 132만명, 검증에 96만명의 데이터가 사용 되었습니다.



Statistical Analysis

  남성과 여성을 위해 총 5가지 모델이 개발되었습니다. Coxph 모델은 개발 세트에서 예측 방정식을 개발하는데 사용하였습니다. 대장암 발생은 암 등록 데이터에 기록된 입원 날짜로 간주하였습니다. 각 위험 인자에 대해 연령에 따른 분석이 수행되었습니다. 나이와 이차적인 연령은 연구 참여자의 평균 연령을 빼서 중앙 집중화 하도록 하였습니다. 해당 모델에서 고려된 위험 인자는 나이, 신장, BMI, 가족력, 공복 혈당, 혈청 콜레스테롤, 흡연, 알코올 섭취량, 육류 섭취 빈도였습니다. 

  Discrimination은 생존 모델에 대한 C-통계를 계산함으로써 수량화 되었습니다. C-통계는 로지스틱 모델의 ROC 곡선 영역과 유사한 일치 측정 값입니다. 이 값은 대장암이 발생하지 않는 여성에 비해 모델이 5년간 관찰한 이후 유방암에 걸릴 위험이 높은 확률을 나타냅니다. H-L 유형 통계는 보정을 위해 사용 되었습니다. 이후 예상 확률을 Kaplan-Meier 방식으로 추정한 실제 사건 비율과 비교하였습니다. 



Result

모델의 식별 능력은 개발 및 검증 세트에서 C-통계 기법을 사용하여 측정되었습니다. 남성 모델은 0.762 ~ 0.786 범위 였고, 여성 모델은 0.678 ~ 0.763의 범위를 나타내었습니다. 왼쪽 대장 및 직장이 가장 높은 C-통계 값을 보였습니다. 위와 같은 결과는 Fig. 1에서 확인할 수 있습니다. 직장 모델에서 가장 높은 C-통계 값을 확인할 수 있었다. 우측 대장 모델은 여성에서 가장 높은 C-통계값을 나타냈습니다.

< Fig. 1. C-Statistics and H-L type Chi-square test for Colorectal Cancer >



Summary

  1. 본 연구에서는 대량의 한국인 남녀 건강 검진 데이터를 기반으로 직결장암 예방 및 조기 발견을 위한 5년 위험 모델을 구축하였습니다.

  2. 모델을 검증하기 위해 C-Statistics 방법과 H-L Chi-Square 방법을 활용하였습니다.

  3. 구축한 모델은 남성의 경우 Left Colon 지역에서 가장 높은 성능을 보였습니다. 여성은 Right Colon 지역에서 가장 높은 성능을 보였습니다.

 





A review of statistical and machine learning methods for 
modeling cancer risk using structured clinical data

Paper Information.

  • YEAR : 2018
  • AUTHOR : Aaron N. Richter 외 1명
  • JOURNAL : Artificial Intelligence In Medicine



Abstract

  시간이 지남에 따라 종양학에서 발전이 진행됨에 따라 암의 예방과 치료 여건이 점차 개선되고 있습니다. 암은 치명적인 질병으로 위험을 줄이기 위해서는 조기에 발견해야 합니다. 또한, 치료를 했더라도 재발할 위험성이 존재합니다. 예측 모델은 과거 데이터를 사용하여 암이 발견되거나 재발한 환자의 특징을 모델링 할 수 있습니다. 이러한 모델은 새로운 환자가 암 발병 또는 재발 위험 여부를 결정하기 위해 임상에서 활용할 수 있습니다. 대규모 예측 모델 구축을 위해 많은 환자에게 정형 데이터를 추출해야 합니다. 본 연구는 정형 데이터로 구성된 환자 데이터를 사용하여 암 위험 모델을 구축하는 최신 동향을 연구합니다. 통계 및 기계 학습 사용 추세와 향후 연구를 위해 간격을 측정합니다. 암 위험 예측 분야는 영향력이 큰 분야이고, 임상의와 환자 모두의 증진을 위해 지속적으로 연구되어야 할 필요성이 있습니다.



Method

  본 연구에서는 암 이외의 다른 질병에 초점을 둔 연구와 비임상 데이터, 비정형 데이터를 사용하는 연구는 제외하였습니다. Pubmed와 Google Scholar를 사용하여 '암 위험', '암 재발', '암 예측', '기계 학습', '데이터 마이닝' 등의 키워드를 활용하여 논문을 검색하였습니다. 이후, 각 논문의 관련성을 검토 한 후 최종적으로 22개의 논문을 선별하였습니다. 



Cancer Risk Model

1. Data Selection

  환자 데이터는 다양한 환경에서 추출될 수 있습니다. 본 연구에서는 정형 데이터 임상 정보를 활용하는 연구에 중점을 두고 진행되었습니다. 분자 데이터는 암 연구에서 매우 가치 있는 것으로 나타났으나, 비용 및 가용성 문제에서 대다수 환자에게 포함되지 않는 정보이기에 제외하였습니다. EHR 데이터는 환자 정보와 관련된 대규모 데이터를 수집할 수 있다는 잠재력을 가지고 있지만, 단편적인 의사 시점에서 판단된 정형 데이터가 기록될 수 있다는 점, 비정형 데이터로 기록된다는 점에서 영양가 있는 정보를 추출하기 어려워 제외하였습니다. 사회 & 라이프 스타일 데이터는 특정 암의 위험성을 모델링 하는데 중요하게 작용할 수 있습니다. 따라서 한국 국립 암 센터에서 수집한 데이터 일부를 활용하였습니다.


2. Feature

  암 위험 및 재발 예측을 위해 본 연구에서 다루고 있는 특징은 아래와 같습니다. 아래 5가지 범주를 모두 포함하는 논문은 없었으며, 대부분 2~3가지를 사용하였습니다.

  • Demographic : 환자의 데모그라픽 정보입니다. 대부분의 연구에서는 Age, Sex를 사용하였습니다.
  • Labs : 백혈구 수, 헤모글로빈, 포도당 등 채혈 시 측정할 수 있는 정보를 포함합니다.
  • Histopathologic : 종양 크기, 전이 여부, 단계 등을 포함합니다.
  • Clinical : 치료, 가족력 등 일상적으로 얻을 수 있는 임상 정보를 포함합니다.
  • Lifestyle : 흡연 상태 및 음주와 같은 소셜 정보를 포함합니다.


Statistical & ML Method

1. Statistical & ML Models

  본 연구에서 다루고 있는 모든 논문은 환자의 암 발병 및 재발 여부를 예측하는 예측 모델을 구축하지만, 사용된 기술은 연구마다 달랐습니다. 일반적으로 회귀 분석 및 생존 분석과 같은 고전적인 통계 방법이나 ANN, SVM, Decision Tree와 같은 기계 학습 바법을 사용하는 연구가 몇 있었습니다. 몇 가지 연구는 하이브리드 접근법을 사용하여 각 모델의 성능을 비교하였습니다. 

  질병의 위험이나 재발에서의 모델링은 생존 분석 문제로 프레임화 되어 있으며, 많은 연구에서 생존 분석 기술을 활용하여 예측 모델을 구성하였습니다. 이러한 방법 중 하나인 Cox Proportional Hazards는 전형적으로 시간의 흐름과 다변량 분석을 가능하게 하기 때문에 많이 선택됩니다. 이는 미래의 어떤 시점에서 일어날 사건의 확률을 모델링하는 회귀 모델입니다. 발병 위험 예측 연구에서 사건은 암의 진단이며, 시간적 요소는 연구 등록 또는 관찰 기간입니다. 재발 예측에서의 사건은 암의 재발이고, 시간적 요소는 치료 날짜입니다. 

  생존 모델의 결과를 시각화하고 해석하기 위해 Kaplan-Meier 곡선을 활용합니다. Kaplan-Meier 곡선은 여러 집단 환자의 생존 기능을 평가하고 생존 확률을 표시합니다. 이러한 방법은 새로운 환자에 대해 선택할 치료법을 결정하기 위해 치료법의 특징에 따라 환자 코호트를 비교할 수 있습니다. Kaplan-Meier 분석은 예측 모델에 국한되지 않으며 기계 학습 알고리즘으로 환자의 생존 여부 또한 알 수 있습니다. Fig. 1은 Kaplan-Meier Curve의 예시를 나타냅니다. Fig. 1은 기계 학습 모델에 따른 고위험군과 저위험군의 생존률입니다.

< Fig. 1. Example Kaplan-Meier Curve >

  로지스틱 회귀분석(LR, Logistic Regression)은 널리 사용되는 통계 모델 중 하나입니다. 이 방법을 사용하면 다 변수 종속 변수에 대한 다 변수 분석 및 모델링이 가능합니다. 하지만 이러한 회귀 모델은 선형 모델에 적합하지 않은 경우에 사용되기 어렵습니다.

  기계 학습 분야에서 인기있는 모델은 인공 신경망(ANN)입니다. ANN의 변형인 CNN은 이미지 인식과 같은 비지도학습에서 매우 효과적으로 사용될 수 있습니다. ANN은 질병 예측과 같은 지도학습에서 매우 유용하게 사용될 수 있습니다.  본 연구에서 조사한 여러 논문에서 ANN 혹은 ANN을 개량한 모델을 구축하여 사용하였습니다. 


2. Feature Reduction

  예측 모델을 학습하는 첫 번째 단계는 모델에 입력될 인풋 값을 결정하는 것입니다. 이는 대부분 임상 데이터 데이터베이스에 저장되어 있는 변수의 종류에 의해 제한되는 경우가 많습니다. 또한, 계산 및 추정의 복잡성은 모델에서 사용할 수 있는 특징의 수를 제한할 수 있는 요소입니다. 특징 축소는 임상 설정에서 사용하기 위해 모델을 배포하는 맥락에서 중요하게 작용할 수 있습니다. 예측 모델의 사용자가 예측을 진행하기 전에 변수를 수동으로 입력해야 하는 경우에는 되도록이면 적은 수의 변수가 포함되어야 합니다. 

  대부분의 연구에서는 단변수 분석을 수행하여 공변량이 출력값과 통계적으로 유의한 상관관계가 있는지 확인합니다. 이후 유의한 상관관계가 있는 변수만 후속 모델에 인풋값으로 사용됩니다. 상관관계를 파악하는 방법으로 Pearson-Correlation, Mutual-Information, Distance Correlation 등을 사용합니다. 일반적으로 회귀 모델의 해석을 위해 10개 이내의 특징을 입력하는 결과를 나타냅니다.


3. Feature Selection

  Feature Selection 방법으로 표준 상관 분석(Canonical Correlation Analysis), GA(Genetic Algorithm), SA(Simulated Annealing) 등이 있습니다. 표준 상관 분석 방법은 출력값과 가장 관련이 있는 Feature Set을 찾는 기법 중 하나입니다. Decision Tree도 Feature Selection을 위해 효과적으로 사용될 수 있습니다. 중요한 p값을 갖는 피쳐를 선택하는 것만으로도 통계 모델의 Feature Selection의 한 형태로 사용될 수 있습니다. Fig. 2는 각종 통계 및 기계학습 알고리즘과 Feature Selection 사이의 관계를 나타냅니다.

< Fig. 2. Feature Selection and Model Algorithm Methods >


4. Hybrid Model

  복잡한 모델링 문제에서는 정답이 없기 때문에 다양한 모델 옵션을 탐색하고, 어떤 모델이 가장 효과적인지를 결정해야 합니다. 또한, 하나의 기술이 아닌 다른 기술과 융합하여 사용하면 향상된 성능을 기대할 수 있습니다. 본 연구에서 프로파일링한 여러 연구는 서로 다른 ML 모델을 서로 비교하여 가장 우수한 성능을 보이는 모델을 제안하였습니다.


5. Model Evaluation

 모델의 성능 평가는 구축한 모델이 얼마나 정확하게 분류할 수 있는지를 입증하는 과정입니다. 성능 평가의 가장 기본적인 형태는 예측 정확도이며, 이는 모델이 전체 테스트 데이터를 평가합니다. 정확도 이외에도 혼동 행렬, ROC Curve, AUC Value, Sensitivity, Specificity 등 여러가지 평가 방법이 존재합니다.



Summary

  1. 본 연구에서는 암 위험과 재발 예측 모델을 구축한 문헌에 대한 포괄적인 리뷰를 제공하였습니다.

  2. 모델 구축을 위해 중요한 요소는 'Feature'와 'Model'가 있으며, 이 두 가지 요소를 어떻게 가공하여 사용하냐에 따라 전체 모델의 성능이 크게 좌우됩니다.

  3. 모델을 구축하는 데 있어서 정해진 정답은 없으며, 여러 모델들의 성능을 비교하거나 Hybrid Model을 적용하여 성능을 향상시킬 수 있습니다.

  4. 구축한 모델이 정확하게 작동하는지 확인하기 위해서는 성능 평가를 해야 합니다. 성능 평가의 종류는 Accuracy, Confusion Matrix 등 많은 방법이 존재합니다.



Predicting Clinical Outcomes in Colorectal Cancer Using Machine Learning

Paper Information.

  • YEAR : 2018
  • AUTHOR : Julian GRUNDNER 외 6명
  • JOURNAL : Studies in Health Technology and Informatics


Abstract

  유전자 마커 및 각종 환자들의 특징을 사용하면 임상 의사 결정 능력을 향상시키고 예후 정확도를 높일 수 있습니다. 본 연구에서는 정상, 생존, 화학 항암 요법, 재발을 비롯한 임상 관련 결과에 대해 대량의 대장암 환자 데이터셋을 기반으로 랜덤 포레스트, 선형 모델, 신경망과 같은 기계 학습 방법들을 사용하여 예측 모델을 훈련시킵니다. 가장 성공적인 예측 모델은 재발과 radio-chemotherapy response에서 였고, 정확도는 각각 0.71과 0.70이였습니다. 생존 및 정상에 관한 가장 좋은 예측 모델은 C-Index 점수로 각각 0.86과 0.76이었습니다. 


Method / Result

  데이터는 Erlangen 대학 병원에서 종양 절제술을 받은 564명의 대장암 환자들을 대상으로 하였습니다. 환자들 중 254명은 직장암 환자이고 나머지는 대장암 환자입니다. 나이는 24세에서 97세 사이로 평균 나이는 67세였습니다.

  모든 모델은 동일한 프로세스가 적용되었습니다. 1. 데이터 준비부터 각 에측 모델에 대해 가장 유용한 특징을 선별하였습니다. 2. 특징 선택 후 생존 결과는 일반 선형 모델, coxph, rfsrc 방법을 사용하여 예측하였습니다. 3. non-survival model 혹은 고전 분류 모형은 k-NN, 신경망, 의사 결정 나무, 랜덤 포레스트, DNN을 사용하여 훈련되었습니다. 최상의 모델은 아래에 설명된 성능 측정에 따라 추출되었습니다. 4. 오버 피팅을 방지하기 위해 모델 구축 프로세스 이전에 별도로 분리된 테스트 데이터를 사용하여 모델을 평가했습니다. 5. 특징 추출을 위해 임상 전문가의 의견을 통해 예측에 영향을 줄 수 있는 특징 그룹을 선별하였습니다. 6. 유전자 발현 데이터를 사용하여 모든 예측 모델을 생성하고 이러한 단계를 반복하여 추가 특징 그룹을 계속적으로 추가했습니다. 


1. ML Model Performance all Stages

  일반적인 선형 모델은 테스트 데이터에서 C-Index 점수가 0.76, 0.87인 DFS와 생존율을 예측하는 데 가장 좋은 성능을 보였습니다. DFS 모델은 특징으로 Gene, Localization, Epidemiology, Cancer Type, Tumor Stage을 사용하였고, Survival 모델은 Gene과 Localization을 사용하였습니다. RCT-TR 모델을 가장 잘 예측한 모델은 Gene을 이용한 의사 결정 트리로 Specificity는 0.85, Accuracy는 0.70의 정확도를 달성했습니다. 재발 결과는 일반 선형 모델에서 Gene, Localization, Epidemiology, Cancer Type, Tumor Stage의 특징을 사용하여 0.71의 정확도로 예측할 수 있었습니다. 


2. ML Model Performance Cancer Stage II and III

  대장암 2기와 3기 환자는 임상의가 가장 많이 개입할 수 있는 환자군입니다. 본 연구에서는 Gene, Localization 특징을 기반으로 DFS SII를 coxph 를 통해 예측했습니다. 모델의 C-Index는 1회 훈련 했을 때 0.83이였습니다. Gene, Localization, Epidemiology, Cancer Type 특징을 사용하는 일반 선형 기법은 Youden Index가 0.7인 Relapse SII를 예측했습니다. 

  


+ Recent posts