인공지능/논문 리뷰 or 진행

데이터 기반 질환 예측 논문 정리 - 3

이게될까 2025. 5. 29. 16:32
728x90
728x90

https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412775

여기서도 Transformer 기반으로 멀티 오믹스(Multi-omics) 데이터를 활용하여 만성 질환을 조기 예측합니다.

 

혈액 검사 데이터는 클러스터링하고, Multi-omics 데이터는 Transformer 기반으로 모델 학습하네요 

연구 목적 혈액검사와 multi-omics 데이터를 통합하여 저비용 고정밀 만성질환 조기 예측 시스템 개발
대상 데이터 - 고산 거주자 160명: 혈액·소변 → 전사체, 단백질체, 대사체 수집
- 일반 임상 환자 314만 명의 20년 혈액 검사 및 진단 정보
모델명 Omicsformer – Transformer 기반 multi-omics 통합 딥러닝 모델
방법론 핵심 ① 혈액 지표 deep clustering으로 위험군(3단계) 분류
② 각 omics 별로 Transformer 통해 embedding
③ attention 기반 통합 후 예측
④ 주요 feature 도출 및 biological pathway 분석
⑤ 대규모 임상 데이터로 검증
⑥ 웹 예측 시스템 구축
예측 대상 질환 총 9종: 고혈압, 당뇨, 간암, 위암, 파킨슨병, 심부전, 정신질환 등
결과 - 기존 모델 대비 Omicsformer 성능 향상: ACC +8.3%, F1 +6.0%, Purity +8.3%
- 진단 5~10년 전부터 위험도 감지 가능
- 주요 생물 지표: FOXO3, HEXIM1, TG, TRIM29 등
실제 응용 riskprediction.xyz 웹 서비스로 혈액 수치 입력 시 질병 위험도 예측 가능
기여 - Multi-omics + Routine blood 융합의 임상적 가치 제시
- 대규모 실임상 데이터로 모델 성능 검증
- 단순한 혈액 검사로 고도 예측 가능하게 함
- 핵심 feature 기반 생물학적 해석 가능성 제공
한계점 - 고산 지역 기반 데이터 → 일반화 이슈
- 다양한 인종, 유전적 다양성 반영 부족
- Transformer 모델의 해석력 한계
- 지역 병원 기반 validation (편향 가능성)
의의 생물정보학 + 딥러닝 + 임상데이터 융합을 통한 실제 사용 가능한 조기 경고 시스템 구현 사례로, 개인 맞춤 건강관리 및 공중보건에 기여 가능

 

https://www.nature.com/articles/s41588-024-01898-1

임상 정보만으론 질병 위험 예측이 제한적이다!

다양한 생체 지표를 통해 머신 러닝 기반의 질병 예측 모델로 기존의 한계를 극복해보자 

 

67개 임상 바이오마커

구분 항목 수 예시
혈액 생화학 검사 30개 이상 혈당, HbA1c, 콜레스테롤, LDL, HDL, 중성지방, 알부민, 크레아티닌, 감마GT 등
혈액 세포 수치 20개 백혈구수, 적혈구수, 헤모글로빈, 헤마토크릿, 혈소판 수 등
소변 검사 4개 소변 내 알부민, 크레아티닌, 마이크로알부민 등
신체 측정 10개 BMI, 허리둘레, 키, 체중, 폐활량(FEV1), 혈압(수축기/이완기) 등
기타 공변량 3개 성별, 나이, 공복 시간

 

🧠 연구 목적 다중 바이오마커(임상 + 프로테오믹스)를 활용한 질병 예측 모델(MILTON) 구축 및 이를 통한 유전자-질병 연관성 탐색
🧪 데이터 출처 UK Biobank (n=484,230 WGS + 46,327 proteomics) + ICD-10 질병 진단 코드
🧬 사용된 지표 67개 임상 바이오마커 (혈액, 소변, 체성지표 등) + 2,923개 단백질 표현형 (Olink)
🧩 모델 프레임워크 (MILTON) ① 케이스/컨트롤 분리 (ICD-10 기준)
② XGBoost 기반 예측
③ 시간 모델 적용 (Prognostic, Diagnostic, Time-agnostic)
④ PheWAS 성능 향상 위해 예측된 "Putative case" 포함
🧠 주요 결과 (예측 성능) AUC ≥ 0.7: 1,091개 질환
AUC ≥ 0.8: 384개
AUC ≥ 0.9: 121개 (특히 당뇨병, 신장질환 등)
🧠 주요 결과 (유전자 발견) 🔸 기존 PheWAS 대비 신규 182개 gene–disease association 발견
🔸 MILTON 예측을 통해 기존 신호의 감도 향상오탐 줄임
🔬 비교 분석 ✔ MILTON > PRS (대부분 질환에서 더 높은 예측력)
✔ MILTON + proteomics → 일부 질병에서 AUC +0.1 이상 향상
✅ 검증 - FinnGen 외부 GWAS에서 novel hit의 55% 이상 유의성 재현
- Mantis-ML / AMELIE AI 툴 기반 gene ranking과 높은 일치
🧩 대표적 질병 예시 E10 (제1형 당뇨): HbA1c, 혈당 → AUC 0.93
N18 (신부전): Cystatin C, Creatinine 등 → AUC 0.87
C90 (다발성 골수종): TNFRSF13B, TNFRSF17 → AUC 0.85
⚠️ 한계 - 일부 질환(피부, 암 등)은 바이오마커 기반 예측 한계 존재
- PRS가 더 잘 작동하는 질환도 있음 (ex. 유방암, 흑색종 등)
- 연속값 활용시 false positive 증가로 dichotomized MILTON 사용
🌐 기여 & 활용 - PheWAS 정밀도 향상
- biomarker 기반 조기 예측 모델 구축 가능
- MILTON Portal (https://milton.public.cgr.astrazeneca.com) 통해 전수 공개
🔓 오픈소스 📦 GitHub + Zenodo: MILTON code 및 데이터

 

 

 

 

 

728x90