Machine learning applications in cancer prognosis and prediction
Paper Information.
- YEAR : 2014
- AUTHOR : Konstantina Kourou 외 4명
- JOURNAL : Computational and Sturctural Biotechnology
Abstract
암 연구에서 암 유형의 조기 진단 및 환자의 예후 파악은 환자들의 임상 관리를 용이하게 할 수 있다는 점에서 필요성이 증대되고 있습니다. 암 환자를 고위험, 저위험군으로 분류하기 위해 ANN, BN, SVM, DT와 같은 다양한 머신러닝 방법을 사용하였습니다. 머신러닝의 사용이 암 진행도에 대한 이해를 향상시키는 것은 분명하지만 분명한 검증이 필요합니다. 따라서 본 연구에서는 암 진행률을 예측하기 위해 사용되는 다양한 머신러닝 접근법에 대해 분석하였습니다.
ML and Cancer Prediction / Prognosis
과거에는 의사가 사용하는 정보만이 암 예측을 위한 중요한 요소로 인식되었습니다. 가족력, 나이, 식이, 체중 등은 암 발병 예측에 중요한 역할을 하지만 이러한 유형은 거시적인 정보들은 보다 크리티컬하고 구체적인 결정을 내리기에는 부족합니다. 따라서 엄청난 양의 데이터를 기반으로 머신러닝 기법을 적용하여 암 예후, 예측에 연관되는 많은 요소들을 찾는 것이 중요해졌습니다.
Prediction of Cancer Susceptibility
최근 5년 간의 Scopus와 PubMed 검색을 통해 최근 머신러닝 기법이 암 예측/예후에 어떻게 적용되는지 찾아보았습니다. 아래의 Fig. 1은 다양한 결과들 중 하나의 카테고리로서 '다양한 암 유형에서의 감수성 예측을 위한 머신러닝 기법'과 관련된 문헌들입니다. 첫번째 문헌은 유방암 환자의 위험도를 평가하기 위해 ANN 기법을 활용했습니다. ANN은 종양의 양성, 음성 여부를 판단하기 위해 사용되었습니다. 그 과정에서 성능 평가를 위해 10-fold cross validation을 사용했습니다. 해당 모델의 AUC는 0.965으로 우수한 성능을 보였습니다.
< Fig. 1. Publications relevant to ML methods used for cancer susceptibility prediction >
Prediction of Cancer Recurrence
머신러닝 기반의 암 재발 예측과 관련된 문헌들을 조사하였습니다. 관련 문헌 중 하나로 구경 편평 세포암(OSCC)의 재발 예측을 연구하는 연구가 제안되었습니다. 해당 연구에서는 이기종 데이터 소스(임상, 영상 및 유전체)를 활용하였습니다. 데이터의 특징 추출을 위해 CFS와 Wrapper 방법을 사용하였습니다. 특징 추출 이후 가장 중요한 특징들은 종양 확장 여부, 림프절 수, 유전자로는 SOD2, TCAM, OXCT2 였습니다. 이후 분류를 위해 BN, ANN, SVM, DT, RF 알고리즘을 사용하였고, BN이 가장 우수한 성능을 보였습니다.
< Fig. 2. Publications relevant to ML methods used for cancer recurrence prediction >
Prediction of Cancer Survival
유방암 진단을 받은 여성의 생존율을 평가하기 위한 예측 모델이 개발되었지만 파라미터의 변화에 따라 결과가 크게 달라짐을 확인하였습니다. 가장 유익한 특징들로는 종양 크기, 노드 수 및 나이가 있었습니다. ANN, SVM, SSL의 3가지 머신러닝 모델을 적용했을 때 SSL 알고리즘이 가장 높은 성능을 나타냈습니다.
Summary
- 해당 논문에서는 크게 3가지 카테고리로 최근 논문의 동향을 분석하였습니다. (암 감수성, 재발 가능성, 생존율 예측)
- 암 예측/예후와 관련된 최근 연구 동향을 개괄적으로 설명하였고, 최근 제안된 대부분의 연구들은 지도학습 기반의 머신러닝 방법과 질병 결과를 예측하기 위한 분류 알고리즘을 사용하였습니다.
- 또한, 특징 선택 방법에 따라 정확도가 달라지는 것을 다양한 논문들을 통해 확인할 수 있었습니다.