Risk Prediction Model for Colorectal Cancer : National Health Insurance Corporation Study, Korea
Paper Information.
- YEAR : 2014
- AUTHOR : Aesun Shin 외 7명
- JOURNAL : PLOS
Abstract
지난 수십년 간 한국에서의 대장암 발병률과 사망률이 급속히 증가하고 있습니다. 한국인 남녀의 직결장암 예방 및 조기 발견을 위한 대장암 위험 예측 모델의 개발이 절실히 필요한 상황입니다. 본 연구에서는 대장암, 근위 결장암, 원위 대장암, 결장암 및 직장암에 대한 성별별 5년 위험 예측 모델을 구축하였습니다. 해당 모델은 국민 건강 보험 공단 건강 검진에 참여한 남성 84만 5천여명, 여성 47만 9천여명을 대상으로 구축되었습니다. 수집 대상은 30-80세 사이에 위치하며, 1996년-1997년 사이에 암에 걸리지 않은 상태여야 했습니다. 모델 검증은 C-Statistic 및 Hosmer-Lemeshow-type 카이 제곱 통계를 사용하여 구별 및 측정 능력에서 성능을 평가하였습니다.
결과적으로 연령, 체질량, 혈청 콜레스테롤, 암의 가족력, 음주량이 남성의 모든 모델에, 여자는 연령, 신장, 고기 섭취 빈도가 모든 모델에 Feature로서 포함되었습니다. 모델은 0.69와 0.78 사이의 C-통계로 적당히 우수한 측정 능력을 나타내었습니다. C-통계는 남성 모델의 경우 일반적으로 높았지만 보정 능력은 여자 모델에서 더 좋았습니다.
Study Population
본 연구는 국립 암 센터의 IRB 승인을 받아 진행되었습니다. 윤리위원회는 참가자들의 동의가 필요하지 않았기 때문에 데이터 클리닝 및 분석을 포함한 모든 단계에서 익명으로 관리되는 의료 데이터를 정기적으로 수집했습니다. 크게 2개의 독립적 집단이 연구에 포함되었습니다. 첫 번째 데이터 세트는 1996년과 1997년 사이에 국민 건강 보험 공단이 제공한 건강 검진에 참여한 남성과 여성으로 구성하여 모델을 구축하였습니다. 참가자들은 알코올 섭취, 흡연 습관, 규칙적인 운동, 암의 가족력, 식이 선호도 및 육식 소비 빈도에 대한 자가 관리 설문지를 작성하도록 요청받았습니다. 여성의 경우 생식 요인을 추가적으로 작성하도록 하였습니다. 신장과 체중을 직접 측정하였고, BMI는 체중을 신장으로 나눈 값으로 계산하였습니다.
두 번째 데이터 세트는 1998년과 1999년에 건강 검진에 참여한 참여자가 모델 검증에 사용 되었습니다. 최종 분석에 포함된 사람들은 암의 과거력이 없는 30세에서 80세 사이의 사람으로, 누락된 사람은 없었습니다. 모델 구축에 132만명, 검증에 96만명의 데이터가 사용 되었습니다.
Statistical Analysis
남성과 여성을 위해 총 5가지 모델이 개발되었습니다. Coxph 모델은 개발 세트에서 예측 방정식을 개발하는데 사용하였습니다. 대장암 발생은 암 등록 데이터에 기록된 입원 날짜로 간주하였습니다. 각 위험 인자에 대해 연령에 따른 분석이 수행되었습니다. 나이와 이차적인 연령은 연구 참여자의 평균 연령을 빼서 중앙 집중화 하도록 하였습니다. 해당 모델에서 고려된 위험 인자는 나이, 신장, BMI, 가족력, 공복 혈당, 혈청 콜레스테롤, 흡연, 알코올 섭취량, 육류 섭취 빈도였습니다.
Discrimination은 생존 모델에 대한 C-통계를 계산함으로써 수량화 되었습니다. C-통계는 로지스틱 모델의 ROC 곡선 영역과 유사한 일치 측정 값입니다. 이 값은 대장암이 발생하지 않는 여성에 비해 모델이 5년간 관찰한 이후 유방암에 걸릴 위험이 높은 확률을 나타냅니다. H-L 유형 통계는 보정을 위해 사용 되었습니다. 이후 예상 확률을 Kaplan-Meier 방식으로 추정한 실제 사건 비율과 비교하였습니다.
Result
모델의 식별 능력은 개발 및 검증 세트에서 C-통계 기법을 사용하여 측정되었습니다. 남성 모델은 0.762 ~ 0.786 범위 였고, 여성 모델은 0.678 ~ 0.763의 범위를 나타내었습니다. 왼쪽 대장 및 직장이 가장 높은 C-통계 값을 보였습니다. 위와 같은 결과는 Fig. 1에서 확인할 수 있습니다. 직장 모델에서 가장 높은 C-통계 값을 확인할 수 있었다. 우측 대장 모델은 여성에서 가장 높은 C-통계값을 나타냈습니다.
< Fig. 1. C-Statistics and H-L type Chi-square test for Colorectal Cancer >
Summary
- 본 연구에서는 대량의 한국인 남녀 건강 검진 데이터를 기반으로 직결장암 예방 및 조기 발견을 위한 5년 위험 모델을 구축하였습니다.
- 모델을 검증하기 위해 C-Statistics 방법과 H-L Chi-Square 방법을 활용하였습니다.
- 구축한 모델은 남성의 경우 Left Colon 지역에서 가장 높은 성능을 보였습니다. 여성은 Right Colon 지역에서 가장 높은 성능을 보였습니다.