A hierarchical classifier based on human blood plasma fluorescence
for non-invasive colorectal cancer screening

Paper Information.

  • YEAR : 2017
  • AUTHOR : Felipe Soares 외 2명
  • JOURNAL : Artificial Intelligence In Medicine



Abstract

  대장암의 조기 발견을 위한 분류 모델은 대장암 환자의 생존율을 증가시킵니다. 혈액 형광 분광법은 암 확인에 사용될 수 있는 많은 데이터를 제공합니다. CRC 분류를 위한 혈액 형광 데이터를 분석할 때의 주요 문제점은 적은 수의 샘플을 분석 할 때 높은 차원성을 가지는 것과 고유한 가변성입니다. 본 연구에서는 혈장 형광을 이용한 계층적 분류법을 사용하여 CRC 뿐만 아니라 선종 및 추가적인 의학적 검사가 필요할 수 있는 기타 악성 직결장의 소견을 확인할 수 있도록 하였습니다. Feature 선택 알고리즘은 높은 차원을 다루고 판별 가능한 형광 파장을 선택하기 위해 제안되었습니다. 이들은 CRC 샘플을 식별하기 위해 1차적으로 SVM 학습을 진행합니다. 나머지 표본은 건강한 피험자에 대해 훈련된 2차 SVM에 제공되어 특수한 표본을 검출하여 악성 소견을 검출하도록 하였습니다. 이 계층 설계는 SVM이라는 하나의 클래스와 함께 작은 샘플 및 높은 가변성의 영향을 줄이는 것을 목표로 하였습니다.

  결과적으로, 12,341개의 파장으로 구성된 이전 연구에서 분석된 데이터 세트를 사용하여 우수한 결과를 나타내었습니다. Sensitivity와 Specifictiy는 각각 0.87과 0.95를, 비악성소견의 경우 0.60, 0,79였습니다. 관련 연구와 비교하여 제안된 방법은 정확도가 더 높고 Feature가 적게 필요하며, CRC 검출을 비악성 연구결과로 확장하는 접근법을 제공합니다.



Dataset

  덴마크의 한 병원에서 대장 내시경 검사를 받고 있는 CRC와 관련된 증상을 보이는 환자들과 함께 실시한 연구에서 4개의 표본 그룹을 추출하였습니다. 데이터셋은 하나의 CRC 그룹과 나머지 대조군 그룹으로 구성되었습니다. 대조군 그룹은 건강한 사람, 비악성 소견을 가진 피험자, 병리학적으로 확인된 선종을 가진 피험자로 구성되었습니다.

< Fig. 1. Samples distribution according subgroups for the EEM undiluted plasma dataset >




Method

  본 연구에서 제안하는 Hierarchical Classifier(계층적 분류)는 다음과 같은 프로세스를 포함하고 있습니다. 일반적으로 다중 클래스 문제는 이진 선택 문제보다 훨씬 어렵습니다. 또한 적은 수의 샘플, 높은 차원성과 높은 변동성으로 인해 앞서 언급한 문제가 더욱 두드러집니다. 따라서, 다중 클래스 분류 문제를 해결하기 위해 2단계 계층적 설계를 사용할 것을  제안하였습니다. Fig. 1에 제안된 것과 같이 1 레벨의 이진 SVM 분류기와 2레벨의 1클래스 SVM으로 구성됩니다. 1레벨의 SVM은 잘 특징 지어진 CRC 샘플을 나머지에서 분리하는 역할을 수행합니다. 2레벨 SVM은 건강한 환자와 비교하여 비악성 발견 샘플을 이상치로 처리하는 것을 목표로 하였습니다.

< Fig. 2 Hierarchical Classifier >


  본 연구에서 SVM 모델을 채택한 이유는 스펙트럼 데이터를 사용하는 조직 분류를 위한 효과적인 접근 방법으로 판명되었기 때문입니다. SVM 알고리즘은 고차원 데이터를 처리하는 능력, 오버 피팅 위험성 감소 및 보장된 글로벌 집중 능력입니다. SVM은 여러 의료 진단 분야에 성공적으로 적용되어 형광 분광기를 기반으로 한 암 확인에서 좋은 결과를 도출하였습니다.

  또한, 본 연구에서 제안한 또 하나의 기법은 차수 감소를 위한 프로세스입니다. 기존의 연구와 달리 SVM-RFE 알고리즘은 적절한 피처를 랭크하고 선택하기 위해 사용되며, 피처 수를 줄이면서 단순하지만 정확한 모델을 구축할 수 있도록 하였습니다. SVM-RFE 알고리즘은 SVM 솔루션의 가중치 벡터 w의 계수를 사용하여 가장 돋보이는 Feature들을 랭크화 합니다. w의 큰 계수는 해당 Feature가 분류 결정에 상당한 영향을 미치므로 더 작은 기여도를 가지는 Feature를 삭제할 수 있습니다. SVM-RFE는 선형 SVM에 재귀적으로 학습되며 사전 정의된 수의 Feature가 될 때까지 반복적으로 수행됩니다. 


1. Hierarchical Classifier(SVM)

  먼저 앞서 언급한 것과 같이 2개의 SVM 분류기를 활용합니다. 먼저, 암과 암이 아닌 것의 2가지 클래스를 가지는 2진 모델을 고려하고 Feature를 하나씩 삭제하는 것을 고려하여 훈련 세트에서 SVM-RFE 알고리즘을 사용하여 파장을 순위화 합니다. 1레벨 SVM 분류기는 CRC 샘플에서 비CRC 샘플을 분리하는 역할을 수행합니다. 비 CRC로 표시된 샘플은 다음 분류 기준의 입력으로 사용됩니다. 2레벨 SVM은 암을 발견하지 못한 클래스에서 학습되어 샘플을 식별합니다. 자세한 모델은 Fig. 3에서 확인할 수 있습니다.


< Fig. 3. Overview of the proposed Method >



Result

  훈련세트에서 SVM-RFE 알고리즘을 통해 높은 부하를 보이는 44개의 Feature들과 상대적으로 낮은 부하를 보이는 21개의 특징 총 65개의 특징을 선별하였습니다. (44개의 특징이 나머지 21개의 특징보다 분류에 관련성이 높다는 것은 보장하지 못하였습니다. 또한, 낮은 부하를 보이는 특징을 추가하는 것은 분류 성능을 향상 시킨다는 연구 결과가 있었습니다.) 

  'Similarly to the binary SVM, the one-class SVM was optimized using 10-fold CV over training data, according to step 2.b of the proposed approach. The same ranking generated by SVM-RFE in the step 1 was also used to guide model optimization for the second-level classifier. A total of 65 wavelengths were included in this final model, which correspond to the same top 65 ranked features of the binary SVM. The remaining five excitation/emission pairs that were not present in the one-class are all in the same region of PARAFAC loadings previously mentioned, also suggesting that these features provide relevant information towards CRC identification.' << 정리 필요

  두 개의 분류기를 통해 훈련 된 후 계층적 분류기의 성능은 Confusion Matrix로 평가되었습니다. 84가지의 예측 중 6가지 샘플에 대해 잘못된 결과를 예측했습니다. AUC값은 0.933이였습니다.

< Fig. 4. ROC Curve for the first SVM >


  이후, 전체 계층 분류기의 성능을 평가하였습니다. 첫 번째 SVM에 의해 암으로 분류되지 않은 샘플은 다음 One-Class SVM에 입력되었습니다. CRC 샘플을 확인하는 첫 번째 단계는 0.9516의 Specificity와 0.8636의 Sensitivity를 가졌습니다. 두 번째 수준의 One-Class SVM은 각 각 0.600과 0.7955의 Specificity와 Sensitivity를 나타내었습니다.

  다른 연구와 본 연구에서 제시한 모델을 비교해 보았습니다. 본 연구에서 제시한 모델이 타 연구와 비교하여 모두 우월한 성능을 보이는 것을 확인할 수 있었습니다.


Summary

  1. 본 연구에서는 'SVM을 활용한 계층적 모델'과 'SVM-RFE'의 Feature Selection 방법을 활용하여 분류 모델을 구축했습니다.

  2. SVM 모델은 크게 이진 분류 모델과 하나의 클래스를 가지는 모델로 구분되었습니다.
     
  3. 타 연구와 비교하여 모든 부분에서의 성능이 크게 향상 되었습니다. 




+ Recent posts