728x90
728x90
https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412775
여기서도 Transformer 기반으로 멀티 오믹스(Multi-omics) 데이터를 활용하여 만성 질환을 조기 예측합니다.

혈액 검사 데이터는 클러스터링하고, Multi-omics 데이터는 Transformer 기반으로 모델 학습하네요
| 연구 목적 | 혈액검사와 multi-omics 데이터를 통합하여 저비용 고정밀 만성질환 조기 예측 시스템 개발 |
| 대상 데이터 | - 고산 거주자 160명: 혈액·소변 → 전사체, 단백질체, 대사체 수집 - 일반 임상 환자 314만 명의 20년 혈액 검사 및 진단 정보 |
| 모델명 | Omicsformer – Transformer 기반 multi-omics 통합 딥러닝 모델 |
| 방법론 핵심 | ① 혈액 지표 deep clustering으로 위험군(3단계) 분류 ② 각 omics 별로 Transformer 통해 embedding ③ attention 기반 통합 후 예측 ④ 주요 feature 도출 및 biological pathway 분석 ⑤ 대규모 임상 데이터로 검증 ⑥ 웹 예측 시스템 구축 |
| 예측 대상 질환 | 총 9종: 고혈압, 당뇨, 간암, 위암, 파킨슨병, 심부전, 정신질환 등 |
| 결과 | - 기존 모델 대비 Omicsformer 성능 향상: ACC +8.3%, F1 +6.0%, Purity +8.3% - 진단 5~10년 전부터 위험도 감지 가능 - 주요 생물 지표: FOXO3, HEXIM1, TG, TRIM29 등 |
| 실제 응용 | riskprediction.xyz 웹 서비스로 혈액 수치 입력 시 질병 위험도 예측 가능 |
| 기여 | - Multi-omics + Routine blood 융합의 임상적 가치 제시 - 대규모 실임상 데이터로 모델 성능 검증 - 단순한 혈액 검사로 고도 예측 가능하게 함 - 핵심 feature 기반 생물학적 해석 가능성 제공 |
| 한계점 | - 고산 지역 기반 데이터 → 일반화 이슈 - 다양한 인종, 유전적 다양성 반영 부족 - Transformer 모델의 해석력 한계 - 지역 병원 기반 validation (편향 가능성) |
| 의의 | 생물정보학 + 딥러닝 + 임상데이터 융합을 통한 실제 사용 가능한 조기 경고 시스템 구현 사례로, 개인 맞춤 건강관리 및 공중보건에 기여 가능 |
https://www.nature.com/articles/s41588-024-01898-1
임상 정보만으론 질병 위험 예측이 제한적이다!
다양한 생체 지표를 통해 머신 러닝 기반의 질병 예측 모델로 기존의 한계를 극복해보자

67개 임상 바이오마커
| 구분 | 항목 수 | 예시 |
| 혈액 생화학 검사 | 30개 이상 | 혈당, HbA1c, 콜레스테롤, LDL, HDL, 중성지방, 알부민, 크레아티닌, 감마GT 등 |
| 혈액 세포 수치 | 20개 | 백혈구수, 적혈구수, 헤모글로빈, 헤마토크릿, 혈소판 수 등 |
| 소변 검사 | 4개 | 소변 내 알부민, 크레아티닌, 마이크로알부민 등 |
| 신체 측정 | 10개 | BMI, 허리둘레, 키, 체중, 폐활량(FEV1), 혈압(수축기/이완기) 등 |
| 기타 공변량 | 3개 | 성별, 나이, 공복 시간 |
| 🧠 연구 목적 | 다중 바이오마커(임상 + 프로테오믹스)를 활용한 질병 예측 모델(MILTON) 구축 및 이를 통한 유전자-질병 연관성 탐색 |
| 🧪 데이터 출처 | UK Biobank (n=484,230 WGS + 46,327 proteomics) + ICD-10 질병 진단 코드 |
| 🧬 사용된 지표 | 67개 임상 바이오마커 (혈액, 소변, 체성지표 등) + 2,923개 단백질 표현형 (Olink) |
| 🧩 모델 프레임워크 (MILTON) | ① 케이스/컨트롤 분리 (ICD-10 기준) ② XGBoost 기반 예측 ③ 시간 모델 적용 (Prognostic, Diagnostic, Time-agnostic) ④ PheWAS 성능 향상 위해 예측된 "Putative case" 포함 |
| 🧠 주요 결과 (예측 성능) | AUC ≥ 0.7: 1,091개 질환 AUC ≥ 0.8: 384개 AUC ≥ 0.9: 121개 (특히 당뇨병, 신장질환 등) |
| 🧠 주요 결과 (유전자 발견) | 🔸 기존 PheWAS 대비 신규 182개 gene–disease association 발견 🔸 MILTON 예측을 통해 기존 신호의 감도 향상 및 오탐 줄임 |
| 🔬 비교 분석 | ✔ MILTON > PRS (대부분 질환에서 더 높은 예측력) ✔ MILTON + proteomics → 일부 질병에서 AUC +0.1 이상 향상 |
| ✅ 검증 | - FinnGen 외부 GWAS에서 novel hit의 55% 이상 유의성 재현 - Mantis-ML / AMELIE AI 툴 기반 gene ranking과 높은 일치 |
| 🧩 대표적 질병 예시 | E10 (제1형 당뇨): HbA1c, 혈당 → AUC 0.93 N18 (신부전): Cystatin C, Creatinine 등 → AUC 0.87 C90 (다발성 골수종): TNFRSF13B, TNFRSF17 → AUC 0.85 |
| ⚠️ 한계 | - 일부 질환(피부, 암 등)은 바이오마커 기반 예측 한계 존재 - PRS가 더 잘 작동하는 질환도 있음 (ex. 유방암, 흑색종 등) - 연속값 활용시 false positive 증가로 dichotomized MILTON 사용 |
| 🌐 기여 & 활용 | - PheWAS 정밀도 향상 - biomarker 기반 조기 예측 모델 구축 가능 - MILTON Portal (https://milton.public.cgr.astrazeneca.com) 통해 전수 공개 |
| 🔓 오픈소스 | 📦 GitHub + Zenodo: MILTON code 및 데이터 |
728x90
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| UltraTool, Open Grounded Planning 정리 (0) | 2025.06.09 |
|---|---|
| Few-shot 관련 논문 (0) | 2025.05.31 |
| 데이터 기반 질환 예측 논문 정리 - 2 (1) | 2025.05.26 |
| 데이터 기반 질환 예측 논문 정리 - 1 (3) | 2025.05.22 |
| MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty (4) | 2025.05.22 |