Predicting Clinical Outcomes in Colorectal
Cancer Using Machine Learning
Predicting Clinical Outcomes in Colorectal Cancer Using Machine Learning
Paper Information.
- YEAR : 2018
- AUTHOR : Julian GRUNDNER 외 6명
- JOURNAL : Studies in Health Technology and Informatics
Abstract
유전자 마커 및 각종 환자들의 특징을 사용하면 임상 의사 결정 능력을 향상시키고 예후 정확도를 높일 수 있습니다. 본 연구에서는 정상, 생존, 화학 항암 요법, 재발을 비롯한 임상 관련 결과에 대해 대량의 대장암 환자 데이터셋을 기반으로 랜덤 포레스트, 선형 모델, 신경망과 같은 기계 학습 방법들을 사용하여 예측 모델을 훈련시킵니다. 가장 성공적인 예측 모델은 재발과 radio-chemotherapy response에서 였고, 정확도는 각각 0.71과 0.70이였습니다. 생존 및 정상에 관한 가장 좋은 예측 모델은 C-Index 점수로 각각 0.86과 0.76이었습니다.
Method / Result
데이터는 Erlangen 대학 병원에서 종양 절제술을 받은 564명의 대장암 환자들을 대상으로 하였습니다. 환자들 중 254명은 직장암 환자이고 나머지는 대장암 환자입니다. 나이는 24세에서 97세 사이로 평균 나이는 67세였습니다.
모든 모델은 동일한 프로세스가 적용되었습니다. 1. 데이터 준비부터 각 에측 모델에 대해 가장 유용한 특징을 선별하였습니다. 2. 특징 선택 후 생존 결과는 일반 선형 모델, coxph, rfsrc 방법을 사용하여 예측하였습니다. 3. non-survival model 혹은 고전 분류 모형은 k-NN, 신경망, 의사 결정 나무, 랜덤 포레스트, DNN을 사용하여 훈련되었습니다. 최상의 모델은 아래에 설명된 성능 측정에 따라 추출되었습니다. 4. 오버 피팅을 방지하기 위해 모델 구축 프로세스 이전에 별도로 분리된 테스트 데이터를 사용하여 모델을 평가했습니다. 5. 특징 추출을 위해 임상 전문가의 의견을 통해 예측에 영향을 줄 수 있는 특징 그룹을 선별하였습니다. 6. 유전자 발현 데이터를 사용하여 모든 예측 모델을 생성하고 이러한 단계를 반복하여 추가 특징 그룹을 계속적으로 추가했습니다.
1. ML Model Performance all Stages
2. ML Model Performance Cancer Stage II and III
대장암 2기와 3기 환자는 임상의가 가장 많이 개입할 수 있는 환자군입니다. 본 연구에서는 Gene, Localization 특징을 기반으로 DFS SII를 coxph 를 통해 예측했습니다. 모델의 C-Index는 1회 훈련 했을 때 0.83이였습니다. Gene, Localization, Epidemiology, Cancer Type 특징을 사용하는 일반 선형 기법은 Youden Index가 0.7인 Relapse SII를 예측했습니다.