Deep learning based tissue analysis predicts outcome in colorectal cancer



Paper Information.

  • YEAR : 2018
  • AUTHOR : Dmitrii BychKov 외 9명
  • JOURNAL : Nature (Scientific Reports) / SCI


Abstract

  이미지 기반의 머신러닝 & 딥러닝은 최근 의학 이미지 분류 분야에서  전문가 수준의 정확도를 보여주었습니다. 본 연구에서는 CNN과 반복적인 아키텍쳐의 결합으로 종양 조직 샘플 이미지의 대장암 결과를 예측합니다. 이를 통해 알려진, 알려지지 않은 예후 정보를 추출할 수 있습니다. 
 
  본 연구에서는 대장암 환자 420명의 종양 조직(TMA) 샘플 데이터를 사용하였습니다. 결과적으로, 작은 조직 영역 만을 사용하는 딥러닝 학습 기반 예측이 저위험군, 고위험군에 대해 TMA지점과 전체 이미지 분류에서 사람이 수행한 결과보다 더 우수하다는 것을 나타내었습니다. 이는 최신 딥러닝 기법이 경험이 풍부한 인간보다 직∙결장암의 조직으로부터 더 많은 예후 정보를 추출할 수 있음을 시사하고 있습니다. 결과 예측은 효과적인 치료법을 제시하기 위한 보조 요법의 선택과 같은 임상 의사 결정을 돕는데 결정적으로 사용될 수 있습니다.


Method / Results

  본 연구에서는 직∙결장암 샘플의 디지털화 된 현미경 이미지의 자동 분석을 위해 대장암 환자 420명에 대한 H&E로 염색된 TMA 이미지 데이터를 사용하였습니다. TMA의 RGB 이미지를 1mm 크기의 타일로 분류한 것을 입력으로 사용하였고, CNN을 통해 고차원의 특징 벡터를 추출하였습니다. 여기에서 CNN은 ImageNet 데이터셋에 의해 사전 교육된 VGG-1634을 사용하였습니다. 이후, LSTM 알고리즘을 반복적으로 사용하여 통해 향후 5년 동안의 생존률을 예측하였습니다. LSTM 모델의 성능은 기존의 머신 러닝 분류기인 SVM, 로지스틱 회귀분석, 나이브 베이지안 알고리즘과 비교하였습니다. (*LSTM을 반복적으로 사용한 이유는 임의의 수의 이미지 타일을 처리할 수 있으며, 특정 이미지 타일을 처리할 수 있기 때문입니다.)

< Fig. 1. Overview of the Image Analysis Model >


환자들은 LSTM 모델, histologic grade, Visual Risk Score와 같은 큰 카테고리 안에서 저위험군고위험군으로 분류되었습니다. 

  • Histological Grade (Clinical) : 285 / 135

  • Visual Risk Score (Pathologic) : 185 / 191

  • New one (CNN + LSTM) : 210 / 210


< Fig. 2. Clinicopathological Variables >


 본 연구에서 제안하는 모델의 정확도와 기존 임상 예측자의 시각적 평가 결과를 비교하기 위해 Kaplan-Meier 방법을 사용하여 생존 곡선을 계산하였습니다. 결과적으로 LSTM 모델이 histologic grade와 Visual Risk Score 보다 더 좋은 정확도를 나타내는 것을 확인할 수 있었습니다. 

 

< Fig. 3. Comparison of the Survival Ratio >


 또한, 다른 이미지 해상도에서의 분류 성능을 비교하기 위해 SVM, Logistic, Navie Bayes, LSTM 네 가지 알고리즘을 사용하였습니다. 이미지 해상도는 높음, 중간, 낮음과 같이 분류되었습니다. 본 연구에서 개발한 CNN + LSTM 모델은 고해상도 이미지에서 최상의 성능을 제공하는 것을 확인할 수 있었습니다.

< Fig. 4. Predictive Performance of Four Classifiers on images of TMA image resolutions >


Summary

  본 연구는 아래와 같은 순서로 다음과 같은 결과를 나타내었습니다.

  1. 420명의 대장암 환자의 TMA 이미지를 CNN으로 훈련하기 위해 작은 타일 형태로 변환하였습니다.

  2. 변환된 이미지는 CNN의 VGG-1634 모델을 통해 훈련되었으며, 이를 통해 특징 벡터를 추출합니다.

  3. Kaplan - Meier 방법을 통해 CNN + LSTM 모델, Histological Grade, Visual Risk Score의 생존 곡선을 계산하여 비교하였습니다. 
    >> CNN + LSTM 모델이 가장 높은 정확도를 나타내었습니다.

  4. 해상도별 CNN + LSTM, SVM, Logistic, Naive Bayes의 4가지 머신 러닝 알고리즘을 통해 성능 평가를 진행합니다.
    >> CNN + LSTM은 고해상도 이미지에서 높은 성능을 나타내었습니다.


+ Recent posts