인공지능/논문 리뷰 or 진행

데이터 기반 질환 예측 논문 정리 - 1

이게될까 2025. 5. 22. 21:45
728x90
728x90

어 음

갑자기 하게 되어서...

일단...

 

https://mhealth.jmir.org/2021/5/e22591

 

Acute Exacerbation of a Chronic Obstructive Pulmonary Disease Prediction System Using Wearable Device Data, Machine Learning, an

With rapid progress of medicine, many treatments and medications have been developed, and relationships between lifestyle and disease have been elucidated. Precision medicine involves determining the best treatment plan for individual patients. Currently,

mhealth.jmir.org

 

 

데이터 수집을 그림으로 보여주고, 어떻게 사용되는지 보여주네요 

데이터 통신은 결국 앱으로 하는 것이니 뭐...

 

입력 파라미터로 사용된 데이터 들 

설문조사는 일주일에 한번 하니 저렇게 표시되고 패딩을 통해 동일한 값으로 복사합니다. (q1은 q2 전까지 쭉 사용) 

이건 데이터가 많지 않으니 Validation set을 나눠서 쓴다!

 

이 논문의 기여점입니다!

항목 내용
1. 기술적 기여 최초로 웨어러블 + 환경 센서 + 설문 데이터를 통합한 AECOPD 예측 시스템 구축
2. 성능 향상 기존 설문 기반 시스템 대비 AUROC 약 20% 향상
3. 실용 시스템 구현 실제 사용자 앱 및 의료진 플랫폼 구성 → 현장 적용 가능성 매우 높음
4. 새로운 인사이트 평균 심박수, 활동량 등 비전통적 생체 데이터가 중요한 예측 지표임을 밝힘
5. 건강 관리 패러다임 제시 병원 방문 중심 → 일상 생활 기반의 사전 예방 중심 관리 모델로 전환 가능성 제시

 

 

 

연구 목적 웨어러블 및 환경센서를 활용하여 COPD 환자의 급성 악화(AECOPD)향후 7일 내 예측하는 모델 개발
배경 및 필요성 - 기존 설문 기반 예측은 주관성/실시간성 부족
- 퇴원 후 환자의 건강상태 추적 어려움
- 환경·생활 습관의 영향은 기존 연구에서 충분히 반영되지 않음
데이터 수집 방식 - 대상자: 67명 COPD 환자 (평균 4개월 추적)
- 기기: Fitbit (생활), EDIMAX Airbox (환경), 전용 앱 (설문)
- 수집 주기: 15분 간격 실시간 동기화
입력 피처 총 45개
① 환경 (온도, 습도, PM2.5 및 변화율)
② 생체신호 (심박수, 걸음 수, 수면 등 및 변화율)
③ 임상 설문 (CAT, mMRC, QoL)
모델 종류 - ML: Random Forest, Decision Tree, KNN, LDA, AdaBoost
- DL: DNN (2-layer, PReLU 활성화)
성능 평가 (DNN 기준) 정확도: 92.1% / AUROC: 0.964 / F1: 0.923 / 민감도: 90.4% / 특이도: 94.0%
피처 중요도 1) 평균 심박수
2) 걸음 수
3) 칼로리 소비량
결과 요약 - DNN이 최고의 예측 성능을 보였으며
환경 + 생활 데이터 조합이 가장 강력한 예측력을 가짐
- 임상 설문 단독은 성능이 낮음 (AUROC ~0.68)
시스템 구현 - 위험 예측 확률이 0.7 이상이면 앱에 경고 아이콘 표시
- 의료진 전용 시각화 대시보드 제공
- 피처 누락 시에도 동작 가능한 다중 모델 구성
한계점 - 환경 데이터는 실내(침실)에 국한
- AECOPD 환자 중 일부가 활동량 증가 → 기존 임상 상식과 불일치
- 소규모 단일 병원 기반 데이터
기여 ✅ 웨어러블 + 환경 + 설문 다채널 실시간 예측 시스템 구현
모델 성능과 해석력 모두 확보 (DNN + RF 병행)
예측 가능성 → 개입 가능성으로 연결된 실제 적용 시스템 제시

 

https://pmc.ncbi.nlm.nih.gov/articles/PMC8891385/

 

Detection of COVID-19 using multimodal data from a wearable device: results from the first TemPredict Study - PMC

Author contributions Conception or design of the work: A.E.M., A.A.R., B.A.T., A.C., P.P.C., K.Y.P., B.L.S., S.M.F., J.L.N., M.P.B., F.M.H., E.S.E. Acquisition of data: A.E.M., A.A.R., A.C., B.L.S., S.M.F., M.P.B., F.M.H., B.J.C., J.M.R., S.D., J.S., J.D.R

pmc.ncbi.nlm.nih.gov

여기선 신체 데이터를 통해 COVID 조기 진단을 이뤄 내니다.

데이터 수집은 웨어러블 기기인 Oura Ring을 사용했네요 

 

여기선 핵심 날짜를 중요하게 봅니다

  • SX: 증상 시작일
  • DX: 진단일
  • PX: 생리적 이상 발생일 

 

데이터 수집

  • HR: 분당 심박수
  • HRV: 심박 간 간격의 변화, RMSSD 기준
  • RR: 분당 호흡 수
  • Dernal Temperature: 손가락 피부 온도
  • MET: 활동량 

 

근데 이렇게 성능 괜찮고, 잘 잡았는데 연구로 끝나고, 적용되지 않은 것이 살짝 아쉽네요...

더보기

좋은 질문이에요. TemPredict 논문이 성능도 우수하고 실용성도 높아 보이는데 왜 상용화되지 않았는가?, 이건 많은 웨어러블 기반 헬스케어 연구들이 겪는 공통된 문제이기도 해요. 아래에 그 이유를 정확하고 체계적으로 정리해드릴게요.


❓ 왜 TemPredict는 연구에서 끝났을까?

🔒 1. 실시간 시스템이 아님 (Retrospective Design)

연구 방식 이미 수집된 데이터를 기반으로 PX를 "나중에" 정의하고 학습시킴
한계 실시간 감지 시스템으로 작동하지 않음→ 앱에서 즉시 경고를 주는 구조가 없음
실제 적용 필요 실시간 스트리밍 감지, 누락 대처, 연산 비용 관리, 사용자 알림 시스템 구축 필요

🛑 2. 의료기기 규제 및 승인 이슈

FDA 승인 미국에서는 웨어러블이 의료 진단에 사용되려면 FDA 등 규제기관 승인이 필요
문제점 이 알고리즘은 아직 정식 의료기기로 분류되지 않음. 단지 “건강 관련 참고” 용도 수준
결과 의료현장이나 공항, 직장에서 공식 스크리닝 도구로 쓰기 어려움

🧬 3. 백신, 변이 등장 이후 환경 변화

연구 시점 2020년 초~중반 (D614G 변이 중심, 백신 미접종자 대상)
지금은? 다양한 변이(오미크론 등), 백신 접종자 증가, 무증상 감염 많음
문제 이 알고리즘이 백신 접종자/다른 변이에도 유효한지 검증되지 않음→ 일반화 부족

👥 4. 인구 다양성과 공정성 이슈

성능 차이 여성 vs 남성, 연령대 별 성능 차이 존재 (예: 20대 AUC 0.730, 40대 0.900)
실제 적용 성능이 균일하지 않으면 사용자 불신과 법적 이슈 초래 가능
연구 제한 인종, 피부색, 손가락 두께 등 하드웨어 민감도 차이도 있음

🔍 5. 개인정보 및 윤리적 문제

생리 데이터 수면, 체온, 심박수 등의 민감한 데이터 지속 수집
문제 실시간 감지 모델을 적용하면 감시 및 프라이버시 침해 우려 발생 가능
해결 필요 강력한 보안 체계, 사용자 동의, 법적 보호장치 필수

✅ 그럼 이 연구의 활용 가능성은?

기업 적용 Oura, WHOOP, Fitbit 등에서 건강 상태 감지용 기능에 응용 가능 (단, "의학적 진단"은 못함)
공공보건 연구 기반 미래 전염병 대응 시 비대면 스크리닝 시스템 설계 기반으로 사용 가능
병원 외래 모니터링 수술 전후 회복 경로 추적 등 연속 모니터링 용도로 확장 가능

✨ 요약


질문  답변 요약
왜 상용화 안됐나? 실시간 시스템 미구현, 의료기기 인증 없음, 시대 변화(백신/변이), 공정성 및 개인정보 이슈 때문
향후 가능성은? 기술적 잠재력은 높음. 실시간화, 다변이 대응, 윤리적 검증 거치면 충분히 상용화 가능

 

 

연구 목적 웨어러블 기기에서 수집한 연속 생리 데이터를 기반으로 COVID-19 감염을 증상 전 단계에서 조기 탐지할 수 있는 기계학습 알고리즘 개발
사용 장비 Oura Ring (피부 온도, 심박수, 심박 변이도, 호흡률, 활동량 측정)
대상 인원 총 63,153명 참여자 중 PCR로 확진된 306명 → 73명으로 최종 학습 / 항체 기반 독립 검증 10명
핵심 개념 PX (Physiological eXpression date): 심박수 및 호흡수에서 최대 변화가 발생한 시점을 기준으로 데이터 정렬 및 모델 훈련
학습 피처 HR, HRV, RR, 체온, MET의 30분 윈도우 통계 + 수면/기상 구분 + 1~3일 이동 평균/분산 등
모델 구성 PX 기준으로 서로 다른 시점을 반영한 5개의 Random Forest 모델을 앙상블 학습
Trigger 방식 5개 모델의 예측값을 통합하여 하루 단위 누적 감염 의심 점수 계산 (임계값 기반 trigger detection)
성능 요약 (PX 기준) AUC: 0.819, 민감도: 82%, 특이도: 63%
항체기반 독립 검증: AUC 0.819, 민감도 90%, 특이도 80%
정렬 기준 비교 PX가 SX 대비 AUC +4.2%, DX 대비 +8.7% 성능 향상
중요 피처 영향도 체온 포함 시 AUC +4.9%p 향상 (0.770 → 0.819), HRV 제거 시 성능 가장 크게 하락
인구집단 차이 여성 성능이 남성보다 6.7% 낮음, 40대 성능(AUC 0.900) > 30세 미만(AUC 0.730)
핵심 기여 ① PX라는 객관적 생리 기준 도입
② 웨어러블로 수집한 고해상도 멀티모달 생체 정보 융합
항체 검사 기반 외부 검증 수행
실용적인 트리거 탐지 구조 제안
한계점 자가보고 오류, 드라이 블러드 항체검사의 민감도 한계, 인구 다양성 부족, 백신/변이 고려 미비, 실시간 시스템은 아직 미구현

 

https://arxiv.org/abs/1907.12175

 

Multi-modal Predictive Models of Diabetes Progression

With the increasing availability of wearable devices, continuous monitoring of individuals' physiological and behavioral patterns has become significantly more accessible. Access to these continuous patterns about individuals' statuses offers an unpreceden

arxiv.org

이 논문은 엄청 오래된 논문이네요....

대충 보고 넘어갈게요

연구 목적 제2형 당뇨병(T2D)의 진행 예측을 위해 다양한 데이터 소스를 통합한 예측 모델 개발
데이터 유형 CGM 시계열: 5분 간격 혈당
ActiGraph 시계열: 30초 간격 신체 활동
Demographics + Lab Tests: 나이, 키, TG, LDL 등 총 8개
참여 환자 수 63명 중 유효 데이터 가진 50명 사용 (1년 추적 연구)
모델 아키텍처 Wide and Deep Learning
Deep: LSTM 기반 RNN (시계열 처리)
Wide: 로지스틱 회귀 (정적 변수)
• Tensorflow LinearCombinedClassifier로 결합
시계열 전처리 CGM/ActiGraph 시간차 보정 → moving average 윈도우 병합 (동기화 후 1445×9 시계열 생성)
예측 대상 HbA1c, HDL, LDL, Triglyceride 변화량 (1년 후) 및 개선/악화 여부 이진 분류
핵심 결과 HbA1c 예측 RMSE: 1.668 (전체 모델)
분류 정확도 (HbA1c): 86.04%
Triglyceride 분류 정확도: 89.21%
모델별 성능 비교 Demographic+Lab만 사용: RMSE 2.444, 정확도 74.87%
CGM only (LSTM): RMSE 1.772, 정확도 81.23%
CGM+ActiGraph: RMSE 1.673, 정확도 86.04%
Wide+Deep (Full Model): RMSE 1.668, 정확도 86.04%
기여 및 차별점 Wearable + 정적 데이터 결합 최초 적용
멀티모달 데이터 동기화 및 처리 방법 제안
다양한 바이오마커 예측에 성공
한계점 샘플 수 적음 (50명)
7일간의 센서 데이터만 사용
일반화 가능성 제한
임상적 활용 가능성 고정된 정적 검진 외에 환자 활동 기반 예측 가능 → 조기 개입 및 맞춤형 치료에 기여 가능

 

https://pmc.ncbi.nlm.nih.gov/articles/PMC10932030/

 

MOGAT: A Multi-Omics Integration Framework Using Graph Attention Networks for Cancer Subtype Prediction - PMC

Abstract Accurate cancer subtype prediction is crucial for personalized medicine. Integrating multi-omics data represents a viable approach to comprehending the intricate pathophysiology of complex diseases like cancer. Conventional machine learning techni

pmc.ncbi.nlm.nih.gov

 

여기선 오믹스 데이터를 활용합니다.

 

GCN을 잘 몰라서 GCN에 대한 공부가 필요하네요...

 

 

연구 목적 기존 GCN 기반 모델이 간과하는 이웃 노드 중요도(weight)를 반영하기 위해 GAT 기반 멀티오믹스 통합 모델을 제안하여 암 아형 분류 정확도를 향상
주요 기여 - GAT를 최초로 multi-omics subtype prediction에 적용
- 기존 대비 최대 +46% 성능 향상
- lncRNA 포함한 8종 오믹스 통합
- 환자 간 유사도 그래프 + attention-based embedding
- 생존 분석에서 기존보다 높은 구분력 확보
사용 데이터 - TCGA-BRCA (8 omics): mRNA, miRNA, lncRNA, MET, CNA, MUT, COE, Clinical
- METABRIC (6 omics): mRNA, MET, CNA, MUT, COE, Clinical
모델 구조 ① omics별 유사도 기반 환자 그래프 생성
② 각 노드에 모든 omics feature를 concat
③ 각 그래프에 GAT 적용 → embedding 생성
④ embedding을 concat하여 MLP로 subtype 분류
⑤ 시각화(tSNE/PCA), 생존 분석(Cox-PH, KM curve) 수행
핵심 기법 - Graph Attention Network (GAT)
- Multi-head attention
- Omics-specific 환자 그래프 (Pearson, Jaccard, Gower)
- Feature selection: Boruta + DESeq2
- 생존 분석: LASSO + Cox-PH + Kaplan–Meier
주요 성능 결과 (macro-F1) - TCGA-3 omics: MOGAT 0.804 > SUPREME 0.732 > MOGONET 0.550
- TCGA-8 omics: MOGAT 0.797 > SUPREME 0.686
- METABRIC-6 omics: MOGAT 0.745 > SUPREME 0.733 > MOGONET 0.566
오믹스별 기여도 - EXP(mRNA): 가장 큰 기여
- MIR(miRNA): 가장 적은 기여
- 모든 오믹스 타입이 subtype 분류에 유의미하게 기여함
시각화 및 해석력 - tSNE, PCA에서 GAT 임베딩이 subtype 간 분리도 높음
- 시각적으로도 raw feature보다 군집이 뚜렷
생존 분석 성능 (Log-rank p-value) - TCGA: Raw 7.85×10⁻³ → GAT 2.10×10⁻³⁰
- METABRIC: Raw 2.46×10⁻¹⁶ → GAT 2.03×10⁻²⁷
한계점 - 유방암 데이터(TCGA, METABRIC)만 사용 → 범용성 검증 필요
- 지도학습 기반 (비지도 확장 필요)
- GAT 계산량 ↑ → 대규모 그래프엔 비효율
- Gene 노드 기반 설계 시 일부 omics (lncRNA, miRNA 등) 포함 어려움
후속 과제 - Pan-cancer 확장
- Alzheimer’s, Parkinson’s 등 다른 질병 적용
- Unsupervised GAT + clustering 확장
- Gene-node 기반 GAT 재설계
코드 공개 GitHub 링크 - 전처리부터 분석 전체 reproducible 제공
요약 인사이트 MOGAT은 기존 GCN 기반의 한계를 극복한 attention-aware 멀티오믹스 통합 프레임워크로, 성능, 해석력, 확장성에서 모두 우수함. 실질적인 정밀 의료 실현을 위한 기반 기술로 평가됨.

 

 

 

728x90