Predicting Clinical Outcomes in Colorectal Cancer Using Machine Learning

Paper Information.

  • YEAR : 2018
  • AUTHOR : Julian GRUNDNER 외 6명
  • JOURNAL : Studies in Health Technology and Informatics


Abstract

  유전자 마커 및 각종 환자들의 특징을 사용하면 임상 의사 결정 능력을 향상시키고 예후 정확도를 높일 수 있습니다. 본 연구에서는 정상, 생존, 화학 항암 요법, 재발을 비롯한 임상 관련 결과에 대해 대량의 대장암 환자 데이터셋을 기반으로 랜덤 포레스트, 선형 모델, 신경망과 같은 기계 학습 방법들을 사용하여 예측 모델을 훈련시킵니다. 가장 성공적인 예측 모델은 재발과 radio-chemotherapy response에서 였고, 정확도는 각각 0.71과 0.70이였습니다. 생존 및 정상에 관한 가장 좋은 예측 모델은 C-Index 점수로 각각 0.86과 0.76이었습니다. 


Method / Result

  데이터는 Erlangen 대학 병원에서 종양 절제술을 받은 564명의 대장암 환자들을 대상으로 하였습니다. 환자들 중 254명은 직장암 환자이고 나머지는 대장암 환자입니다. 나이는 24세에서 97세 사이로 평균 나이는 67세였습니다.

  모든 모델은 동일한 프로세스가 적용되었습니다. 1. 데이터 준비부터 각 에측 모델에 대해 가장 유용한 특징을 선별하였습니다. 2. 특징 선택 후 생존 결과는 일반 선형 모델, coxph, rfsrc 방법을 사용하여 예측하였습니다. 3. non-survival model 혹은 고전 분류 모형은 k-NN, 신경망, 의사 결정 나무, 랜덤 포레스트, DNN을 사용하여 훈련되었습니다. 최상의 모델은 아래에 설명된 성능 측정에 따라 추출되었습니다. 4. 오버 피팅을 방지하기 위해 모델 구축 프로세스 이전에 별도로 분리된 테스트 데이터를 사용하여 모델을 평가했습니다. 5. 특징 추출을 위해 임상 전문가의 의견을 통해 예측에 영향을 줄 수 있는 특징 그룹을 선별하였습니다. 6. 유전자 발현 데이터를 사용하여 모든 예측 모델을 생성하고 이러한 단계를 반복하여 추가 특징 그룹을 계속적으로 추가했습니다. 


1. ML Model Performance all Stages

  일반적인 선형 모델은 테스트 데이터에서 C-Index 점수가 0.76, 0.87인 DFS와 생존율을 예측하는 데 가장 좋은 성능을 보였습니다. DFS 모델은 특징으로 Gene, Localization, Epidemiology, Cancer Type, Tumor Stage을 사용하였고, Survival 모델은 Gene과 Localization을 사용하였습니다. RCT-TR 모델을 가장 잘 예측한 모델은 Gene을 이용한 의사 결정 트리로 Specificity는 0.85, Accuracy는 0.70의 정확도를 달성했습니다. 재발 결과는 일반 선형 모델에서 Gene, Localization, Epidemiology, Cancer Type, Tumor Stage의 특징을 사용하여 0.71의 정확도로 예측할 수 있었습니다. 


2. ML Model Performance Cancer Stage II and III

  대장암 2기와 3기 환자는 임상의가 가장 많이 개입할 수 있는 환자군입니다. 본 연구에서는 Gene, Localization 특징을 기반으로 DFS SII를 coxph 를 통해 예측했습니다. 모델의 C-Index는 1회 훈련 했을 때 0.83이였습니다. Gene, Localization, Epidemiology, Cancer Type 특징을 사용하는 일반 선형 기법은 Youden Index가 0.7인 Relapse SII를 예측했습니다. 

  


+ Recent posts