A principled machine learning framework improves accuracy of
stage II colorectal cancer prognosis 


Paper Information.

  • YEAR : 2018
  • AUTHOR : Neofytos Dimitriou 외 3명
  • JOURNAL : Nature (Digital Medicine)



Abstract

  정확한 예후는 암 환자를 위한 적절한 치료 계획을 세우기 위한 기본 요소입니다. 질병의 이질성, 병리학자 간의 다양성, 현재 병리학적 보고 시스템의 고질적인 한계로 인하여 환자 결과는 유사하게 발병된 환자 코호트 내에서 상당히 다양합니다. 이는 TNM 가이드 라인을 사용하여 2기 직결장암 환자를 분류할 때 특히 부각됩니다. 본 연구의 목적은 기계 학습을 활용하여 이러한 문제를 해결하는 것입니다. 특히, 우리는 면역 형광 이미지에서 쉽게 수집 된 다양한 유형의 특징들을 사용하는 데이터 기반 프레임워크를 도입하였습니다. 본 연구에서 개발한 모델은 173명의 직결장암 2기 환자의 사망률을 예측하는 데 탁월한 성능을 자랑합니다. 이는 기존의 임상 지침의 성능을 능가합니다.



Result

1. Full Feature set based Analysis

  각 기준 분류기의 하이퍼파라미터 값은 검증된 데이터 자료에 대해 AUROC 평균 영역을 최대화하여 학습되었습니다. Fig. 1은 결과를 요약한 것입니다. 

< Fig. 1. Average AUROC and SD of trained classifiers on the training set using 20-times repeated tenfold CV >


모든 분류기에 걸친 평균 AUROC는 5년 및 10년 예후 모두 0.89인 것으로 나타났습니다. ANOVA(One-way analysis of variance)와 THSD(Tukey's Honest Significance Difference Test)는 10년 예후에 대한 분류기들 사이에서 통계적 유의성을 나타내지 않았습니다. 통계적으로 유의한 차이는 5년 예후에 대한 나이브 베이즈(NB)와 로지스틱 회귀(LR) 기반 접근법 사이에서 발견되었습니다. 모델 선택의 중요성을 입증하기 위해 우리는 이전 섹션에서 설명한대로 학습된 하이퍼파라미터 값과 기존 문헌에서와 같이 사전 설정된 하이퍼파라미터 값을 사용하여 모든 분류기들의 성능을 비교하였습니다. 예상대로, 후자의 접근법을 사용했을 때 평균 AUROC의 감소는 각각 0.82, 0.85로 5년 및 10년 예후 모두 감소하는 것을 확인할 수 있었습니다.


2. Feature Selection

  특징의 각 하위 집합에 대한 평가는 학습 데이터에 대한 10-fold CV를 통해 수행되었습니다. 확률론적 효과로 인한 결과의 변동성을 줄이기 위해서 Dune이 제안한 방법을 적용하였습니다. 특히, 최고의 성능을 달성한 특징 서브 세트를 유지할 때마다 서로 다른 무작위 파티션을 사용하여 SFFS 및 SFBS를 40번 수행하였습니다. 이후, 발생 빈도에 기초하여 특징들을 순서화 했습니다. 빈 세트로 시작해 특징들은 평균 AUROC 순서위에 따라 추가되었으며 20회 반복된 10-fold CV를 통해 검증되었습니다. 가장 높은 평균 AUROC를 달성한 특징들의 서브 세트는 각각의 예후적 용어에 대해 선택되었습니다.

< Fig. 2. Frequency of occurrence of each feature form the 20 runs of SFFS an SFBS each for 5-year prognosis >


< Fig. 3. Frequency of occurrence of each feature from the 20 runs of SFFS and SFBS each for 10-year prognosis >


3. Experiment

  이전 섹션과 같이 분류기를 훈련시키고, 모델 선택 및 평가에 대한 동일한 접근을 수행하였습니다. 유일한 차이점은 전체 특징 세트 대신에 축소된 특징 세트가 사용된다는 것입니다. 예상대로, 가장 조밀한 수준의 분석에서 이미 상당한 성능 향상을 보였으며, 5년 및 10년 예후 모두에 대해 분류자의 평균 AUROC는 0.94에 달했습니다. 이전 연구 결과와 비교하여 10년 예후에 대한 Random Forest에서의 열등함을 제외하고는 다른 분류기에서 통계적으로 유의한 차이가 발견되지 않았습니다.

4. Final Testing

  20번 반복된 10-fold CV를 사용하여 여러 분류자의 훈련 세트 성능을 검사했습니다. SFFS와 SFBS에 의해 선택된 특징의 하위 집합에 대해 훈련된 분류기가 더 잘 분류하는 것을 확인할 수 있었습니다. 5년 및 10년 예후에서 단순하지만 최고의 성능을 발휘하는 분류기는 k-NN 기반 분류기였습니다. 예측된 예후 그룹 사이의 생존률 차이를 객관화하기 위해 Kaplan-Meier 생존 곡선을 사용하였습니다. 5년 예후에서 k-NN 기반 분류기는 AUROC 0.77을 다성하여 환자를 고위험군과 저위험군으로 분류하는데 효과적이였습니다. 10년 예후에서, 분류기는 AUROC 0.94를 달성하여 임상 표준인 0.65를 훨씬 능가하며, 10년 예후에 대해서도 88.9%의 정확도를 보였습니다.



Summary

  1. 본 연구에서는 TNM 가이드라인을 활용하여 2기 직결장암 환자를 분류하는 모델을 구축하였습니다.

  2. Feature Selection에서 차원 축소를 위해 SFFS, SFBS를 사용하여 특징의 수를 감소시켰습니다.

  3. 모델은 LSVM, RSVM, LR, RF, KNN, NB을 사용하여 각 모델의 성능을 비교하였습니다.

  4. 5년 및 10년 예후 예측에서 KNN 모델이 가장 우수한 성능을 보였습니다.

  5. 생존률 차이를 분석하기 위한 Kaplan-Meier 분석 방법에서도 AUROC 값이 임상 표준인 0.65보다 약 0.29 높은 0.94를 달성하였습니다.


A hierarchical classifier based on human blood plasma fluorescence
for non-invasive colorectal cancer screening

Paper Information.

  • YEAR : 2017
  • AUTHOR : Felipe Soares 외 2명
  • JOURNAL : Artificial Intelligence In Medicine



Abstract

  대장암의 조기 발견을 위한 분류 모델은 대장암 환자의 생존율을 증가시킵니다. 혈액 형광 분광법은 암 확인에 사용될 수 있는 많은 데이터를 제공합니다. CRC 분류를 위한 혈액 형광 데이터를 분석할 때의 주요 문제점은 적은 수의 샘플을 분석 할 때 높은 차원성을 가지는 것과 고유한 가변성입니다. 본 연구에서는 혈장 형광을 이용한 계층적 분류법을 사용하여 CRC 뿐만 아니라 선종 및 추가적인 의학적 검사가 필요할 수 있는 기타 악성 직결장의 소견을 확인할 수 있도록 하였습니다. Feature 선택 알고리즘은 높은 차원을 다루고 판별 가능한 형광 파장을 선택하기 위해 제안되었습니다. 이들은 CRC 샘플을 식별하기 위해 1차적으로 SVM 학습을 진행합니다. 나머지 표본은 건강한 피험자에 대해 훈련된 2차 SVM에 제공되어 특수한 표본을 검출하여 악성 소견을 검출하도록 하였습니다. 이 계층 설계는 SVM이라는 하나의 클래스와 함께 작은 샘플 및 높은 가변성의 영향을 줄이는 것을 목표로 하였습니다.

  결과적으로, 12,341개의 파장으로 구성된 이전 연구에서 분석된 데이터 세트를 사용하여 우수한 결과를 나타내었습니다. Sensitivity와 Specifictiy는 각각 0.87과 0.95를, 비악성소견의 경우 0.60, 0,79였습니다. 관련 연구와 비교하여 제안된 방법은 정확도가 더 높고 Feature가 적게 필요하며, CRC 검출을 비악성 연구결과로 확장하는 접근법을 제공합니다.



Dataset

  덴마크의 한 병원에서 대장 내시경 검사를 받고 있는 CRC와 관련된 증상을 보이는 환자들과 함께 실시한 연구에서 4개의 표본 그룹을 추출하였습니다. 데이터셋은 하나의 CRC 그룹과 나머지 대조군 그룹으로 구성되었습니다. 대조군 그룹은 건강한 사람, 비악성 소견을 가진 피험자, 병리학적으로 확인된 선종을 가진 피험자로 구성되었습니다.

< Fig. 1. Samples distribution according subgroups for the EEM undiluted plasma dataset >




Method

  본 연구에서 제안하는 Hierarchical Classifier(계층적 분류)는 다음과 같은 프로세스를 포함하고 있습니다. 일반적으로 다중 클래스 문제는 이진 선택 문제보다 훨씬 어렵습니다. 또한 적은 수의 샘플, 높은 차원성과 높은 변동성으로 인해 앞서 언급한 문제가 더욱 두드러집니다. 따라서, 다중 클래스 분류 문제를 해결하기 위해 2단계 계층적 설계를 사용할 것을  제안하였습니다. Fig. 1에 제안된 것과 같이 1 레벨의 이진 SVM 분류기와 2레벨의 1클래스 SVM으로 구성됩니다. 1레벨의 SVM은 잘 특징 지어진 CRC 샘플을 나머지에서 분리하는 역할을 수행합니다. 2레벨 SVM은 건강한 환자와 비교하여 비악성 발견 샘플을 이상치로 처리하는 것을 목표로 하였습니다.

< Fig. 2 Hierarchical Classifier >


  본 연구에서 SVM 모델을 채택한 이유는 스펙트럼 데이터를 사용하는 조직 분류를 위한 효과적인 접근 방법으로 판명되었기 때문입니다. SVM 알고리즘은 고차원 데이터를 처리하는 능력, 오버 피팅 위험성 감소 및 보장된 글로벌 집중 능력입니다. SVM은 여러 의료 진단 분야에 성공적으로 적용되어 형광 분광기를 기반으로 한 암 확인에서 좋은 결과를 도출하였습니다.

  또한, 본 연구에서 제안한 또 하나의 기법은 차수 감소를 위한 프로세스입니다. 기존의 연구와 달리 SVM-RFE 알고리즘은 적절한 피처를 랭크하고 선택하기 위해 사용되며, 피처 수를 줄이면서 단순하지만 정확한 모델을 구축할 수 있도록 하였습니다. SVM-RFE 알고리즘은 SVM 솔루션의 가중치 벡터 w의 계수를 사용하여 가장 돋보이는 Feature들을 랭크화 합니다. w의 큰 계수는 해당 Feature가 분류 결정에 상당한 영향을 미치므로 더 작은 기여도를 가지는 Feature를 삭제할 수 있습니다. SVM-RFE는 선형 SVM에 재귀적으로 학습되며 사전 정의된 수의 Feature가 될 때까지 반복적으로 수행됩니다. 


1. Hierarchical Classifier(SVM)

  먼저 앞서 언급한 것과 같이 2개의 SVM 분류기를 활용합니다. 먼저, 암과 암이 아닌 것의 2가지 클래스를 가지는 2진 모델을 고려하고 Feature를 하나씩 삭제하는 것을 고려하여 훈련 세트에서 SVM-RFE 알고리즘을 사용하여 파장을 순위화 합니다. 1레벨 SVM 분류기는 CRC 샘플에서 비CRC 샘플을 분리하는 역할을 수행합니다. 비 CRC로 표시된 샘플은 다음 분류 기준의 입력으로 사용됩니다. 2레벨 SVM은 암을 발견하지 못한 클래스에서 학습되어 샘플을 식별합니다. 자세한 모델은 Fig. 3에서 확인할 수 있습니다.


< Fig. 3. Overview of the proposed Method >



Result

  훈련세트에서 SVM-RFE 알고리즘을 통해 높은 부하를 보이는 44개의 Feature들과 상대적으로 낮은 부하를 보이는 21개의 특징 총 65개의 특징을 선별하였습니다. (44개의 특징이 나머지 21개의 특징보다 분류에 관련성이 높다는 것은 보장하지 못하였습니다. 또한, 낮은 부하를 보이는 특징을 추가하는 것은 분류 성능을 향상 시킨다는 연구 결과가 있었습니다.) 

  'Similarly to the binary SVM, the one-class SVM was optimized using 10-fold CV over training data, according to step 2.b of the proposed approach. The same ranking generated by SVM-RFE in the step 1 was also used to guide model optimization for the second-level classifier. A total of 65 wavelengths were included in this final model, which correspond to the same top 65 ranked features of the binary SVM. The remaining five excitation/emission pairs that were not present in the one-class are all in the same region of PARAFAC loadings previously mentioned, also suggesting that these features provide relevant information towards CRC identification.' << 정리 필요

  두 개의 분류기를 통해 훈련 된 후 계층적 분류기의 성능은 Confusion Matrix로 평가되었습니다. 84가지의 예측 중 6가지 샘플에 대해 잘못된 결과를 예측했습니다. AUC값은 0.933이였습니다.

< Fig. 4. ROC Curve for the first SVM >


  이후, 전체 계층 분류기의 성능을 평가하였습니다. 첫 번째 SVM에 의해 암으로 분류되지 않은 샘플은 다음 One-Class SVM에 입력되었습니다. CRC 샘플을 확인하는 첫 번째 단계는 0.9516의 Specificity와 0.8636의 Sensitivity를 가졌습니다. 두 번째 수준의 One-Class SVM은 각 각 0.600과 0.7955의 Specificity와 Sensitivity를 나타내었습니다.

  다른 연구와 본 연구에서 제시한 모델을 비교해 보았습니다. 본 연구에서 제시한 모델이 타 연구와 비교하여 모두 우월한 성능을 보이는 것을 확인할 수 있었습니다.


Summary

  1. 본 연구에서는 'SVM을 활용한 계층적 모델'과 'SVM-RFE'의 Feature Selection 방법을 활용하여 분류 모델을 구축했습니다.

  2. SVM 모델은 크게 이진 분류 모델과 하나의 클래스를 가지는 모델로 구분되었습니다.
     
  3. 타 연구와 비교하여 모든 부분에서의 성능이 크게 향상 되었습니다. 




Risk Prediction Model for Colorectal Cancer : National Health Insurance Corporation Study, Korea




Paper Information.

  • YEAR : 2014
  • AUTHOR : Aesun Shin 외 7명
  • JOURNAL : PLOS


Abstract

  지난 수십년 간 한국에서의 대장암 발병률과 사망률이 급속히 증가하고 있습니다. 한국인 남녀의 직결장암 예방 및 조기 발견을 위한 대장암 위험 예측 모델의 개발이 절실히 필요한 상황입니다. 본 연구에서는 대장암, 근위 결장암, 원위 대장암, 결장암 및 직장암에 대한 성별별 5년 위험 예측 모델을 구축하였습니다. 해당 모델은 국민 건강 보험 공단 건강 검진에 참여한 남성 84만 5천여명, 여성 47만 9천여명을 대상으로 구축되었습니다. 수집 대상은 30-80세 사이에 위치하며, 1996년-1997년 사이에 암에 걸리지 않은 상태여야 했습니다. 모델 검증은 C-Statistic 및 Hosmer-Lemeshow-type 카이 제곱 통계를 사용하여 구별 및 측정 능력에서 성능을 평가하였습니다.

  결과적으로 연령, 체질량, 혈청 콜레스테롤, 암의 가족력, 음주량이 남성의 모든 모델에, 여자는 연령, 신장, 고기 섭취 빈도가 모든 모델에 Feature로서 포함되었습니다. 모델은 0.69와 0.78 사이의 C-통계로 적당히 우수한 측정 능력을 나타내었습니다. C-통계는 남성 모델의 경우 일반적으로 높았지만 보정 능력은 여자 모델에서 더 좋았습니다. 



Study Population

  본 연구는 국립 암 센터의 IRB 승인을 받아 진행되었습니다. 윤리위원회는 참가자들의 동의가 필요하지 않았기 때문에 데이터 클리닝 및 분석을 포함한 모든 단계에서 익명으로 관리되는 의료 데이터를 정기적으로 수집했습니다. 크게 2개의 독립적 집단이 연구에 포함되었습니다. 첫 번째 데이터 세트는 1996년과 1997년 사이에 국민 건강 보험 공단이 제공한 건강 검진에 참여한 남성과 여성으로 구성하여 모델을 구축하였습니다. 참가자들은 알코올 섭취, 흡연 습관, 규칙적인 운동, 암의 가족력, 식이 선호도 및 육식 소비 빈도에 대한 자가 관리 설문지를 작성하도록 요청받았습니다. 여성의 경우 생식 요인을 추가적으로 작성하도록 하였습니다. 신장과 체중을 직접 측정하였고, BMI는 체중을 신장으로 나눈 값으로 계산하였습니다.

  두 번째 데이터 세트는 1998년과 1999년에 건강 검진에 참여한 참여자가 모델 검증에 사용 되었습니다. 최종 분석에 포함된 사람들은 암의 과거력이 없는 30세에서 80세 사이의 사람으로, 누락된 사람은 없었습니다. 모델 구축에 132만명, 검증에 96만명의 데이터가 사용 되었습니다.



Statistical Analysis

  남성과 여성을 위해 총 5가지 모델이 개발되었습니다. Coxph 모델은 개발 세트에서 예측 방정식을 개발하는데 사용하였습니다. 대장암 발생은 암 등록 데이터에 기록된 입원 날짜로 간주하였습니다. 각 위험 인자에 대해 연령에 따른 분석이 수행되었습니다. 나이와 이차적인 연령은 연구 참여자의 평균 연령을 빼서 중앙 집중화 하도록 하였습니다. 해당 모델에서 고려된 위험 인자는 나이, 신장, BMI, 가족력, 공복 혈당, 혈청 콜레스테롤, 흡연, 알코올 섭취량, 육류 섭취 빈도였습니다. 

  Discrimination은 생존 모델에 대한 C-통계를 계산함으로써 수량화 되었습니다. C-통계는 로지스틱 모델의 ROC 곡선 영역과 유사한 일치 측정 값입니다. 이 값은 대장암이 발생하지 않는 여성에 비해 모델이 5년간 관찰한 이후 유방암에 걸릴 위험이 높은 확률을 나타냅니다. H-L 유형 통계는 보정을 위해 사용 되었습니다. 이후 예상 확률을 Kaplan-Meier 방식으로 추정한 실제 사건 비율과 비교하였습니다. 



Result

모델의 식별 능력은 개발 및 검증 세트에서 C-통계 기법을 사용하여 측정되었습니다. 남성 모델은 0.762 ~ 0.786 범위 였고, 여성 모델은 0.678 ~ 0.763의 범위를 나타내었습니다. 왼쪽 대장 및 직장이 가장 높은 C-통계 값을 보였습니다. 위와 같은 결과는 Fig. 1에서 확인할 수 있습니다. 직장 모델에서 가장 높은 C-통계 값을 확인할 수 있었다. 우측 대장 모델은 여성에서 가장 높은 C-통계값을 나타냈습니다.

< Fig. 1. C-Statistics and H-L type Chi-square test for Colorectal Cancer >



Summary

  1. 본 연구에서는 대량의 한국인 남녀 건강 검진 데이터를 기반으로 직결장암 예방 및 조기 발견을 위한 5년 위험 모델을 구축하였습니다.

  2. 모델을 검증하기 위해 C-Statistics 방법과 H-L Chi-Square 방법을 활용하였습니다.

  3. 구축한 모델은 남성의 경우 Left Colon 지역에서 가장 높은 성능을 보였습니다. 여성은 Right Colon 지역에서 가장 높은 성능을 보였습니다.

 





A review of statistical and machine learning methods for 
modeling cancer risk using structured clinical data

Paper Information.

  • YEAR : 2018
  • AUTHOR : Aaron N. Richter 외 1명
  • JOURNAL : Artificial Intelligence In Medicine



Abstract

  시간이 지남에 따라 종양학에서 발전이 진행됨에 따라 암의 예방과 치료 여건이 점차 개선되고 있습니다. 암은 치명적인 질병으로 위험을 줄이기 위해서는 조기에 발견해야 합니다. 또한, 치료를 했더라도 재발할 위험성이 존재합니다. 예측 모델은 과거 데이터를 사용하여 암이 발견되거나 재발한 환자의 특징을 모델링 할 수 있습니다. 이러한 모델은 새로운 환자가 암 발병 또는 재발 위험 여부를 결정하기 위해 임상에서 활용할 수 있습니다. 대규모 예측 모델 구축을 위해 많은 환자에게 정형 데이터를 추출해야 합니다. 본 연구는 정형 데이터로 구성된 환자 데이터를 사용하여 암 위험 모델을 구축하는 최신 동향을 연구합니다. 통계 및 기계 학습 사용 추세와 향후 연구를 위해 간격을 측정합니다. 암 위험 예측 분야는 영향력이 큰 분야이고, 임상의와 환자 모두의 증진을 위해 지속적으로 연구되어야 할 필요성이 있습니다.



Method

  본 연구에서는 암 이외의 다른 질병에 초점을 둔 연구와 비임상 데이터, 비정형 데이터를 사용하는 연구는 제외하였습니다. Pubmed와 Google Scholar를 사용하여 '암 위험', '암 재발', '암 예측', '기계 학습', '데이터 마이닝' 등의 키워드를 활용하여 논문을 검색하였습니다. 이후, 각 논문의 관련성을 검토 한 후 최종적으로 22개의 논문을 선별하였습니다. 



Cancer Risk Model

1. Data Selection

  환자 데이터는 다양한 환경에서 추출될 수 있습니다. 본 연구에서는 정형 데이터 임상 정보를 활용하는 연구에 중점을 두고 진행되었습니다. 분자 데이터는 암 연구에서 매우 가치 있는 것으로 나타났으나, 비용 및 가용성 문제에서 대다수 환자에게 포함되지 않는 정보이기에 제외하였습니다. EHR 데이터는 환자 정보와 관련된 대규모 데이터를 수집할 수 있다는 잠재력을 가지고 있지만, 단편적인 의사 시점에서 판단된 정형 데이터가 기록될 수 있다는 점, 비정형 데이터로 기록된다는 점에서 영양가 있는 정보를 추출하기 어려워 제외하였습니다. 사회 & 라이프 스타일 데이터는 특정 암의 위험성을 모델링 하는데 중요하게 작용할 수 있습니다. 따라서 한국 국립 암 센터에서 수집한 데이터 일부를 활용하였습니다.


2. Feature

  암 위험 및 재발 예측을 위해 본 연구에서 다루고 있는 특징은 아래와 같습니다. 아래 5가지 범주를 모두 포함하는 논문은 없었으며, 대부분 2~3가지를 사용하였습니다.

  • Demographic : 환자의 데모그라픽 정보입니다. 대부분의 연구에서는 Age, Sex를 사용하였습니다.
  • Labs : 백혈구 수, 헤모글로빈, 포도당 등 채혈 시 측정할 수 있는 정보를 포함합니다.
  • Histopathologic : 종양 크기, 전이 여부, 단계 등을 포함합니다.
  • Clinical : 치료, 가족력 등 일상적으로 얻을 수 있는 임상 정보를 포함합니다.
  • Lifestyle : 흡연 상태 및 음주와 같은 소셜 정보를 포함합니다.


Statistical & ML Method

1. Statistical & ML Models

  본 연구에서 다루고 있는 모든 논문은 환자의 암 발병 및 재발 여부를 예측하는 예측 모델을 구축하지만, 사용된 기술은 연구마다 달랐습니다. 일반적으로 회귀 분석 및 생존 분석과 같은 고전적인 통계 방법이나 ANN, SVM, Decision Tree와 같은 기계 학습 바법을 사용하는 연구가 몇 있었습니다. 몇 가지 연구는 하이브리드 접근법을 사용하여 각 모델의 성능을 비교하였습니다. 

  질병의 위험이나 재발에서의 모델링은 생존 분석 문제로 프레임화 되어 있으며, 많은 연구에서 생존 분석 기술을 활용하여 예측 모델을 구성하였습니다. 이러한 방법 중 하나인 Cox Proportional Hazards는 전형적으로 시간의 흐름과 다변량 분석을 가능하게 하기 때문에 많이 선택됩니다. 이는 미래의 어떤 시점에서 일어날 사건의 확률을 모델링하는 회귀 모델입니다. 발병 위험 예측 연구에서 사건은 암의 진단이며, 시간적 요소는 연구 등록 또는 관찰 기간입니다. 재발 예측에서의 사건은 암의 재발이고, 시간적 요소는 치료 날짜입니다. 

  생존 모델의 결과를 시각화하고 해석하기 위해 Kaplan-Meier 곡선을 활용합니다. Kaplan-Meier 곡선은 여러 집단 환자의 생존 기능을 평가하고 생존 확률을 표시합니다. 이러한 방법은 새로운 환자에 대해 선택할 치료법을 결정하기 위해 치료법의 특징에 따라 환자 코호트를 비교할 수 있습니다. Kaplan-Meier 분석은 예측 모델에 국한되지 않으며 기계 학습 알고리즘으로 환자의 생존 여부 또한 알 수 있습니다. Fig. 1은 Kaplan-Meier Curve의 예시를 나타냅니다. Fig. 1은 기계 학습 모델에 따른 고위험군과 저위험군의 생존률입니다.

< Fig. 1. Example Kaplan-Meier Curve >

  로지스틱 회귀분석(LR, Logistic Regression)은 널리 사용되는 통계 모델 중 하나입니다. 이 방법을 사용하면 다 변수 종속 변수에 대한 다 변수 분석 및 모델링이 가능합니다. 하지만 이러한 회귀 모델은 선형 모델에 적합하지 않은 경우에 사용되기 어렵습니다.

  기계 학습 분야에서 인기있는 모델은 인공 신경망(ANN)입니다. ANN의 변형인 CNN은 이미지 인식과 같은 비지도학습에서 매우 효과적으로 사용될 수 있습니다. ANN은 질병 예측과 같은 지도학습에서 매우 유용하게 사용될 수 있습니다.  본 연구에서 조사한 여러 논문에서 ANN 혹은 ANN을 개량한 모델을 구축하여 사용하였습니다. 


2. Feature Reduction

  예측 모델을 학습하는 첫 번째 단계는 모델에 입력될 인풋 값을 결정하는 것입니다. 이는 대부분 임상 데이터 데이터베이스에 저장되어 있는 변수의 종류에 의해 제한되는 경우가 많습니다. 또한, 계산 및 추정의 복잡성은 모델에서 사용할 수 있는 특징의 수를 제한할 수 있는 요소입니다. 특징 축소는 임상 설정에서 사용하기 위해 모델을 배포하는 맥락에서 중요하게 작용할 수 있습니다. 예측 모델의 사용자가 예측을 진행하기 전에 변수를 수동으로 입력해야 하는 경우에는 되도록이면 적은 수의 변수가 포함되어야 합니다. 

  대부분의 연구에서는 단변수 분석을 수행하여 공변량이 출력값과 통계적으로 유의한 상관관계가 있는지 확인합니다. 이후 유의한 상관관계가 있는 변수만 후속 모델에 인풋값으로 사용됩니다. 상관관계를 파악하는 방법으로 Pearson-Correlation, Mutual-Information, Distance Correlation 등을 사용합니다. 일반적으로 회귀 모델의 해석을 위해 10개 이내의 특징을 입력하는 결과를 나타냅니다.


3. Feature Selection

  Feature Selection 방법으로 표준 상관 분석(Canonical Correlation Analysis), GA(Genetic Algorithm), SA(Simulated Annealing) 등이 있습니다. 표준 상관 분석 방법은 출력값과 가장 관련이 있는 Feature Set을 찾는 기법 중 하나입니다. Decision Tree도 Feature Selection을 위해 효과적으로 사용될 수 있습니다. 중요한 p값을 갖는 피쳐를 선택하는 것만으로도 통계 모델의 Feature Selection의 한 형태로 사용될 수 있습니다. Fig. 2는 각종 통계 및 기계학습 알고리즘과 Feature Selection 사이의 관계를 나타냅니다.

< Fig. 2. Feature Selection and Model Algorithm Methods >


4. Hybrid Model

  복잡한 모델링 문제에서는 정답이 없기 때문에 다양한 모델 옵션을 탐색하고, 어떤 모델이 가장 효과적인지를 결정해야 합니다. 또한, 하나의 기술이 아닌 다른 기술과 융합하여 사용하면 향상된 성능을 기대할 수 있습니다. 본 연구에서 프로파일링한 여러 연구는 서로 다른 ML 모델을 서로 비교하여 가장 우수한 성능을 보이는 모델을 제안하였습니다.


5. Model Evaluation

 모델의 성능 평가는 구축한 모델이 얼마나 정확하게 분류할 수 있는지를 입증하는 과정입니다. 성능 평가의 가장 기본적인 형태는 예측 정확도이며, 이는 모델이 전체 테스트 데이터를 평가합니다. 정확도 이외에도 혼동 행렬, ROC Curve, AUC Value, Sensitivity, Specificity 등 여러가지 평가 방법이 존재합니다.



Summary

  1. 본 연구에서는 암 위험과 재발 예측 모델을 구축한 문헌에 대한 포괄적인 리뷰를 제공하였습니다.

  2. 모델 구축을 위해 중요한 요소는 'Feature'와 'Model'가 있으며, 이 두 가지 요소를 어떻게 가공하여 사용하냐에 따라 전체 모델의 성능이 크게 좌우됩니다.

  3. 모델을 구축하는 데 있어서 정해진 정답은 없으며, 여러 모델들의 성능을 비교하거나 Hybrid Model을 적용하여 성능을 향상시킬 수 있습니다.

  4. 구축한 모델이 정확하게 작동하는지 확인하기 위해서는 성능 평가를 해야 합니다. 성능 평가의 종류는 Accuracy, Confusion Matrix 등 많은 방법이 존재합니다.



Predicting Clinical Outcomes in Colorectal Cancer Using Machine Learning

Paper Information.

  • YEAR : 2018
  • AUTHOR : Julian GRUNDNER 외 6명
  • JOURNAL : Studies in Health Technology and Informatics


Abstract

  유전자 마커 및 각종 환자들의 특징을 사용하면 임상 의사 결정 능력을 향상시키고 예후 정확도를 높일 수 있습니다. 본 연구에서는 정상, 생존, 화학 항암 요법, 재발을 비롯한 임상 관련 결과에 대해 대량의 대장암 환자 데이터셋을 기반으로 랜덤 포레스트, 선형 모델, 신경망과 같은 기계 학습 방법들을 사용하여 예측 모델을 훈련시킵니다. 가장 성공적인 예측 모델은 재발과 radio-chemotherapy response에서 였고, 정확도는 각각 0.71과 0.70이였습니다. 생존 및 정상에 관한 가장 좋은 예측 모델은 C-Index 점수로 각각 0.86과 0.76이었습니다. 


Method / Result

  데이터는 Erlangen 대학 병원에서 종양 절제술을 받은 564명의 대장암 환자들을 대상으로 하였습니다. 환자들 중 254명은 직장암 환자이고 나머지는 대장암 환자입니다. 나이는 24세에서 97세 사이로 평균 나이는 67세였습니다.

  모든 모델은 동일한 프로세스가 적용되었습니다. 1. 데이터 준비부터 각 에측 모델에 대해 가장 유용한 특징을 선별하였습니다. 2. 특징 선택 후 생존 결과는 일반 선형 모델, coxph, rfsrc 방법을 사용하여 예측하였습니다. 3. non-survival model 혹은 고전 분류 모형은 k-NN, 신경망, 의사 결정 나무, 랜덤 포레스트, DNN을 사용하여 훈련되었습니다. 최상의 모델은 아래에 설명된 성능 측정에 따라 추출되었습니다. 4. 오버 피팅을 방지하기 위해 모델 구축 프로세스 이전에 별도로 분리된 테스트 데이터를 사용하여 모델을 평가했습니다. 5. 특징 추출을 위해 임상 전문가의 의견을 통해 예측에 영향을 줄 수 있는 특징 그룹을 선별하였습니다. 6. 유전자 발현 데이터를 사용하여 모든 예측 모델을 생성하고 이러한 단계를 반복하여 추가 특징 그룹을 계속적으로 추가했습니다. 


1. ML Model Performance all Stages

  일반적인 선형 모델은 테스트 데이터에서 C-Index 점수가 0.76, 0.87인 DFS와 생존율을 예측하는 데 가장 좋은 성능을 보였습니다. DFS 모델은 특징으로 Gene, Localization, Epidemiology, Cancer Type, Tumor Stage을 사용하였고, Survival 모델은 Gene과 Localization을 사용하였습니다. RCT-TR 모델을 가장 잘 예측한 모델은 Gene을 이용한 의사 결정 트리로 Specificity는 0.85, Accuracy는 0.70의 정확도를 달성했습니다. 재발 결과는 일반 선형 모델에서 Gene, Localization, Epidemiology, Cancer Type, Tumor Stage의 특징을 사용하여 0.71의 정확도로 예측할 수 있었습니다. 


2. ML Model Performance Cancer Stage II and III

  대장암 2기와 3기 환자는 임상의가 가장 많이 개입할 수 있는 환자군입니다. 본 연구에서는 Gene, Localization 특징을 기반으로 DFS SII를 coxph 를 통해 예측했습니다. 모델의 C-Index는 1회 훈련 했을 때 0.83이였습니다. Gene, Localization, Epidemiology, Cancer Type 특징을 사용하는 일반 선형 기법은 Youden Index가 0.7인 Relapse SII를 예측했습니다. 

  



Application of Support Vector Machine in cancer diagnosis



Paper Information.

  • YEAR : 2010
  • AUTHOR : Hui Wang 외 1명
  • JOURNAL : Medical Oncology / SCIE


Abstract

  본 연구에서는 암 진단을 위해 SVM 모델을 사용한 종양 마커 검출의 임상적 적용과 관련된 내용을 기술합니다. 대장암, 위암, 폐암에 대한 종양 표지 검사(TM) 결과 데이터를 수집하였습니다. 해당 데이터를 사용하여 최상의 커널 기능을 가진 SVM 모델을 만들고 교차 검증을 통해 검증하였습니다. SVM의 매개변수를 최적화하기 위해 그리드 탐색 및 교차 검증 방법을 사용하였습니다. 분류를 위해 병합 진단 테스트, 로지스틱 회귀 분석, 의사 결정 트리와 같은 분류기를 사용했습니다. 성능 평가를 위해 Sensitivity, Specialty, Youden Index[각주:1], Accuracy 지표를 사용하였습니다. Leave-one-out CV(LOOCV) 방법을 사용하여 테스트를 진행했습니다. 결과적으로 4개의 분류기의 정확도는 75.8, 76.6, 83.1, 96.0% 였고, 위암으로 분류된 4개의 분류기의 정확도는 45.7, 64.5, 63.7, 91.7% 였습니다. 폐암의 경우 71.9, 68.6, 75.2, 97.5%였습니다. 3개의 암 데이터에서 SVM이 모두 좋은 성능을 나타냈습니다. 


Method / Result

  중국 상하이에 위치한 'Rengi Hospital'에서 데이터를 확보하였습니다. 데이터는 2005년 1월부터 6월까지의 종양 표지 검사 데이터를 활용하였습니다. Fig. 1과 같이 대장암 데이터는 총 159명, 위암은 567명, 폐암은 214명의 데이터를 활용하여 진행하였습니다. SVM 모델은 LIBSVM 소프트웨어를 활용하여 제작했습니다. 모든 실험에서 3가지 종류의 커널 함수(선형, RBF, 시그모이드)를 사용하였습니다. 이후, 5-fold Cross Validation을 통해 테스트를 진행했습니다. 

  분석은 SPSS 16.0 Version을 사용하여 진행하였고, Kolmogorov-Sminov(K-S) 방법으로 종양 마커의 농도 분포를 테스트했습니다. 로지스틱 회귀 분석은 SPSS를 기반으로 테스트 되었습니다.

< Fig. 1. Distribution of Samples >



  3종류의 SVM 커널 함수의 성능을 비교하였습니다. 커널 기능을 가진 SVM은 6개의 데이터 세트로 테스트 되었고, 데이터 세트에서 RBF 커널 기반의 SVM 모델이 가장 성능이 높게 측정되었습니다. 
 

< Fig. 2. The Accuracy Comparison of SVM with Different Kernel function in six datasets >


  의사 결정 나무, 로지스틱 회귀 분석과 같은 분류기의 성능은 Fig. 3에 제시되어 있습니다. 모든 데이터 세트에서 SVM이 우수한 성능을 나타냈습니다.

< Fig. 3. Comparison of Classification Performance of the Classifiers >


Summary

  1. 암 진단을 위해 SVM 모델을 사용하였고, 데이터는 대장암, 위암, 폐암 환자 데이터를 사용하였습니다.

  2. SVM 모델에서 선형, RBF, 시그모이드 커널을 사용하였고, RBF 커널이 가장 좋은 성능을 나타냈습니다.

  3. 기존의 전형적인 분류 모델들과 비교하여 SVM이 가장 우수한 성능을 나타냈습니다. 


  1. Youden Index : ROC 커브의 각 점에서 기울기가 1인 직선을 그렸을 때 y절편이 가장 큰 값 [본문으로]


Machine learning applications in cancer prognosis and prediction




Paper Information.

  • YEAR : 2014
  • AUTHOR : Konstantina Kourou 외 4명
  • JOURNAL : Computational and Sturctural Biotechnology


Abstract

  암 연구에서 암 유형의 조기 진단 및 환자의 예후 파악은 환자들의 임상 관리를 용이하게 할 수 있다는 점에서 필요성이 증대되고 있습니다. 암 환자를 고위험, 저위험군으로 분류하기 위해 ANN, BN, SVM, DT와 같은 다양한 머신러닝 방법을 사용하였습니다. 머신러닝의 사용이 암 진행도에 대한 이해를 향상시키는 것은 분명하지만 분명한 검증이 필요합니다. 따라서 본 연구에서는 암 진행률을 예측하기 위해 사용되는 다양한 머신러닝 접근법에 대해 분석하였습니다. 


ML and Cancer Prediction / Prognosis

  과거에는 의사가 사용하는 정보만이 암 예측을 위한 중요한 요소로 인식되었습니다. 가족력, 나이, 식이, 체중 등은 암 발병 예측에 중요한 역할을 하지만 이러한 유형은 거시적인 정보들은 보다 크리티컬하고 구체적인 결정을 내리기에는 부족합니다. 따라서 엄청난 양의 데이터를 기반으로 머신러닝 기법을 적용하여 암 예후, 예측에 연관되는 많은 요소들을 찾는 것이 중요해졌습니다.


Prediction of Cancer Susceptibility

  최근 5년 간의 Scopus와 PubMed 검색을 통해 최근 머신러닝 기법이 암 예측/예후에 어떻게 적용되는지 찾아보았습니다. 아래의 Fig. 1은 다양한 결과들 중 하나의 카테고리로서 '다양한 암 유형에서의 감수성 예측을 위한 머신러닝 기법'과 관련된 문헌들입니다. 첫번째 문헌은 유방암 환자의 위험도를 평가하기 위해 ANN 기법을 활용했습니다. ANN은 종양의 양성, 음성 여부를 판단하기 위해 사용되었습니다. 그 과정에서 성능 평가를 위해 10-fold cross validation을 사용했습니다. 해당 모델의 AUC는 0.965으로 우수한 성능을 보였습니다.

< Fig. 1. Publications relevant to ML methods used for cancer susceptibility prediction >


Prediction of Cancer Recurrence

  머신러닝 기반의 암 재발 예측과 관련된 문헌들을 조사하였습니다. 관련 문헌 중 하나로 구경 편평 세포암(OSCC)의 재발 예측을 연구하는 연구가 제안되었습니다. 해당 연구에서는 이기종 데이터 소스(임상, 영상 및 유전체)를 활용하였습니다. 데이터의 특징 추출을 위해 CFS와 Wrapper 방법을 사용하였습니다. 특징 추출 이후 가장 중요한 특징들은 종양 확장 여부, 림프절 수, 유전자로는 SOD2, TCAM, OXCT2 였습니다. 이후 분류를 위해 BN, ANN, SVM, DT, RF 알고리즘을 사용하였고, BN이 가장 우수한 성능을 보였습니다.

< Fig. 2. Publications relevant to ML methods used for cancer recurrence prediction >


Prediction of Cancer Survival 

  유방암 진단을 받은 여성의 생존율을 평가하기 위한 예측 모델이 개발되었지만 파라미터의 변화에 따라 결과가 크게 달라짐을 확인하였습니다. 가장 유익한 특징들로는 종양 크기, 노드 수 및 나이가 있었습니다. ANN, SVM, SSL의 3가지 머신러닝 모델을 적용했을 때 SSL 알고리즘이 가장 높은 성능을 나타냈습니다.   


Summary

  본 연구는 암 예후/예측에서 머신러닝 기법이 어떤식으로 적용되는지, 어떠한 알고리즘들이 사용되는지를 메타 분석한 논문이라고 할 수 있습니다.

  1. 해당 논문에서는 크게 3가지 카테고리로 최근 논문의 동향을 분석하였습니다. (암 감수성, 재발 가능성, 생존율 예측)

  2. 암 예측/예후와 관련된 최근 연구 동향을 개괄적으로 설명하였고, 최근 제안된 대부분의 연구들은 지도학습 기반의 머신러닝 방법과 질병 결과를 예측하기 위한 분류 알고리즘을 사용하였습니다.

  3. 또한, 특징 선택 방법에 따라 정확도가 달라지는 것을 다양한 논문들을 통해 확인할 수 있었습니다.



Deep learning based tissue analysis predicts outcome in colorectal cancer



Paper Information.

  • YEAR : 2018
  • AUTHOR : Dmitrii BychKov 외 9명
  • JOURNAL : Nature (Scientific Reports) / SCI


Abstract

  이미지 기반의 머신러닝 & 딥러닝은 최근 의학 이미지 분류 분야에서  전문가 수준의 정확도를 보여주었습니다. 본 연구에서는 CNN과 반복적인 아키텍쳐의 결합으로 종양 조직 샘플 이미지의 대장암 결과를 예측합니다. 이를 통해 알려진, 알려지지 않은 예후 정보를 추출할 수 있습니다. 
 
  본 연구에서는 대장암 환자 420명의 종양 조직(TMA) 샘플 데이터를 사용하였습니다. 결과적으로, 작은 조직 영역 만을 사용하는 딥러닝 학습 기반 예측이 저위험군, 고위험군에 대해 TMA지점과 전체 이미지 분류에서 사람이 수행한 결과보다 더 우수하다는 것을 나타내었습니다. 이는 최신 딥러닝 기법이 경험이 풍부한 인간보다 직∙결장암의 조직으로부터 더 많은 예후 정보를 추출할 수 있음을 시사하고 있습니다. 결과 예측은 효과적인 치료법을 제시하기 위한 보조 요법의 선택과 같은 임상 의사 결정을 돕는데 결정적으로 사용될 수 있습니다.


Method / Results

  본 연구에서는 직∙결장암 샘플의 디지털화 된 현미경 이미지의 자동 분석을 위해 대장암 환자 420명에 대한 H&E로 염색된 TMA 이미지 데이터를 사용하였습니다. TMA의 RGB 이미지를 1mm 크기의 타일로 분류한 것을 입력으로 사용하였고, CNN을 통해 고차원의 특징 벡터를 추출하였습니다. 여기에서 CNN은 ImageNet 데이터셋에 의해 사전 교육된 VGG-1634을 사용하였습니다. 이후, LSTM 알고리즘을 반복적으로 사용하여 통해 향후 5년 동안의 생존률을 예측하였습니다. LSTM 모델의 성능은 기존의 머신 러닝 분류기인 SVM, 로지스틱 회귀분석, 나이브 베이지안 알고리즘과 비교하였습니다. (*LSTM을 반복적으로 사용한 이유는 임의의 수의 이미지 타일을 처리할 수 있으며, 특정 이미지 타일을 처리할 수 있기 때문입니다.)

< Fig. 1. Overview of the Image Analysis Model >


환자들은 LSTM 모델, histologic grade, Visual Risk Score와 같은 큰 카테고리 안에서 저위험군고위험군으로 분류되었습니다. 

  • Histological Grade (Clinical) : 285 / 135

  • Visual Risk Score (Pathologic) : 185 / 191

  • New one (CNN + LSTM) : 210 / 210


< Fig. 2. Clinicopathological Variables >


 본 연구에서 제안하는 모델의 정확도와 기존 임상 예측자의 시각적 평가 결과를 비교하기 위해 Kaplan-Meier 방법을 사용하여 생존 곡선을 계산하였습니다. 결과적으로 LSTM 모델이 histologic grade와 Visual Risk Score 보다 더 좋은 정확도를 나타내는 것을 확인할 수 있었습니다. 

 

< Fig. 3. Comparison of the Survival Ratio >


 또한, 다른 이미지 해상도에서의 분류 성능을 비교하기 위해 SVM, Logistic, Navie Bayes, LSTM 네 가지 알고리즘을 사용하였습니다. 이미지 해상도는 높음, 중간, 낮음과 같이 분류되었습니다. 본 연구에서 개발한 CNN + LSTM 모델은 고해상도 이미지에서 최상의 성능을 제공하는 것을 확인할 수 있었습니다.

< Fig. 4. Predictive Performance of Four Classifiers on images of TMA image resolutions >


Summary

  본 연구는 아래와 같은 순서로 다음과 같은 결과를 나타내었습니다.

  1. 420명의 대장암 환자의 TMA 이미지를 CNN으로 훈련하기 위해 작은 타일 형태로 변환하였습니다.

  2. 변환된 이미지는 CNN의 VGG-1634 모델을 통해 훈련되었으며, 이를 통해 특징 벡터를 추출합니다.

  3. Kaplan - Meier 방법을 통해 CNN + LSTM 모델, Histological Grade, Visual Risk Score의 생존 곡선을 계산하여 비교하였습니다. 
    >> CNN + LSTM 모델이 가장 높은 정확도를 나타내었습니다.

  4. 해상도별 CNN + LSTM, SVM, Logistic, Naive Bayes의 4가지 머신 러닝 알고리즘을 통해 성능 평가를 진행합니다.
    >> CNN + LSTM은 고해상도 이미지에서 높은 성능을 나타내었습니다.


EEG-based worker's stress recognition at Construction Sites


Paper Information.

  • YEAR : 2018
  • AUTHOR : Houtan Jebelli 외 2명
  • JOURNAL : Automation in Construction / SCIE


Abstract

  과도한 스트레스에 시달리는 많은 건설 노동자가 안전과 건강에 악영향을 미치기 때문에 스트레스를 미리 인지하는 것은 중요하다고 할 수 있습니다. 본 연구에서는 뇌파 신호를 이용하여 건설 현장에서 작업자의 스트레스를 자동으로 인식하는 모델을 개발하였습니다. 


Method / Results

Procedure 

  14개의 다른 채널을 통해 EEG 신호를 측정하였습니다. EEG 신호는 1초에 128개의 데이터 포인트를 가지고 있습니다. EEG 신호의 눈 움직임, 숨쉬기 등과 같은 노이즈는 저자의 이전 연구에서 제안한 EEG 신호 전처리 방법으로 제거하였습니다. 이후 시간 및 주파수 영역의 뇌파 특징을 추출하였습니다. 이후, 스트레스를 가장 잘 나타내는 클래스를 선택하기 위해, 여러 가지 지도 학습 알고리즘의 성능을 비교하였습니다.

< Fig. 1. Overview of stress recognition procedure >


Feature Selection

본 연구에서 사용한 특징 추출법은 Correlation-based Method(상관 관계 기반)과 Wrapper Method입니다. 540개의 특징들 중 Correlation-based Method를 사용하여 예측 정확도와의 연관성이 가장 적은 특징들을 필터링하고 Wrapper Method를 사용하여 분류 정확도를 최대화하는 특징들의 하위 집합을 조사하여 80개의 최종 특징을 추출하였습니다. 

< Fig. 2. Time and Frequency domains features, extracted from EEG signals >


EEG Classification 

본 연구에서는 k-NN, GDA, SVM, HMM, DT, Logistic 머신 러닝 기법을 통해 성능 평가를 진행하였습니다. 훈련 데이터와 테스트 데이터는 9:1의 비율로 나누었습니다. 고정 윈도우 방식과 슬라이딩 윈도우 방식에서 모두 GDA가 80.32%의 정확도로 가장 우수한 성능을 나타내었습니다.

< Fig. 3. Classification accuracies of each tested algorithm >

Summary

  본 연구는 아래와 같은 순서로 다음과 같은 결과를 나타내었습니다.

  1. 14채널 EEG 장비를 통해 EEG 신호를 측정하였습니다.

  2. EEG 신호의 노이즈는 ICA를 적용하여 제거하였습니다.

  3. EEG 신호를 시간 및 주파수 영역으로 구분하여 뇌파 특징을 추출하였습니다.

  4. 특징 추출에는 Correlation-based Method와 Wrapper-Based Method가 사용되었습니다.
    >> 최초 540개의 특징을 위의 2가지 방법을 사용하여 80개로 축소하였습니다.

  5. 추출된 특징을 5개의 머신 러닝 알고리즘에 적용하였습니다.
    >> GDA 알고리즘이 고정 윈도우, 슬라이딩 윈도우에서 모두 우수한 성능을 나타냈습니다.


+ Recent posts