인공지능/논문 리뷰 or 진행

An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation

이게될까 2024. 11. 17. 16:00
728x90
728x90

https://arxiv.org/abs/2410.03334

 

An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation

Radiological services are experiencing unprecedented demand, leading to increased interest in automating radiology report generation. Existing Vision-Language Models (VLMs) suffer from hallucinations, lack interpretability, and require expensive fine-tunin

arxiv.org

이미지를 Vision-Transformer에 통과시켜 임베딩 차원으로 변환시키고 이 것을 통해 SAE를 만듭니다. 

그 SAE의 Latent space에서 특정 Feature가 발현될 때 이 것이 특정한 질병이 있다고 볼 수 있다 라고 하네요

그런데 굳이 Vision-Transformer을 쓴 이유가 궁금하네요

 

 

 

 

 

 

  1. 문제 정의
    이 연구는 방사선 진단 보고서 생성 자동화에 대한 필요성에서 출발했습니다. 기존 Vision-Language Models (VLMs)은 높은 성능을 보이지만, 임상적 오류와 해석의 어려움, 그리고 대규모 모델의 파인 튜닝 비용이 문제로 지적됩니다. 이를 해결하고자 연구팀은 방사선 이미지와 언어 모델을 연결해 해석 가능하고 정확한 보고서를 생성하는 방법을 개발했습니다.
  2. 방법론: Sparse Autoencoders 활용
    • 연구팀은 Sparse Autoencoders (SAEs)를 사용해 이미지를 인간이 이해할 수 있는 피처로 분해하는 기법을 제안했습니다.
    • 이를 통해 방사선 이미지에서 유의미한 피처를 추출하고, 미세 조정 없이 사전 훈련된 언어 모델을 사용하여 각 피처에 대해 텍스트 설명을 생성합니다.
    • 이 접근 방식은 방사선 이미지에서 피처를 자동으로 학습하여 보고서 생성을 돕는 최초의 시도입니다.
  3. 모델 아키텍처 및 구현
    • SAE-Rad: 방사선 이미지를 Vision Transformer로 처리한 후, 이를 Sparse Autoencoder로 인코딩하여 사람에게 이해 가능한 피처로 변환합니다.
    • 각 피처의 높은 활성화 이미지를 기반으로 한 텍스트 설명을 통해 사전 훈련된 언어 모델로 완전한 보고서를 생성합니다.
    • 해석 가능한 피처를 통해 직접적인 보고서를 생성할 수 있도록 하여, 대규모 모델의 파인 튜닝 비용을 절감했습니다.
  4. 실험 및 결과
    • MIMIC-CXR 데이터셋을 활용해 SAE-Rad의 성능을 평가했습니다. 일반적인 자연어 생성 평가 지표(BLEU-4, ROUGE-L, METEOR)와 방사선 특화 지표(CheXpert F1, RGER)에서 성능을 측정했습니다.
    • SAE-Rad는 특정 방사선 특화 지표에서 최첨단 모델과 유사한 성능을 보였고, 특히 CheXpert F1 점수에서는 최첨단 모델과의 차이를 줄였습니다.
    • SAE-Rad가 생성한 보고서는 방사선과 전문가와 유사한 해석을 제공했고, 중요한 임상적 특징을 잘 포착했습니다.
  5. 한계점
    • SAE-Rad는 사전 훈련된 이미지 인코더와 언어 모델을 사용하여 고정된 편향이 생길 수 있습니다. 이 편향을 줄이려면 모델을 교체하는 과정이 필요할 수 있습니다.
    • BLEU-4 등의 일반 언어 평가 지표에서는 상대적으로 낮은 성능을 보여, 임상적으로 정확한 보고서를 생성하지만 인간의 자연스러운 문체와 다소 거리가 있을 수 있습니다.
    • 피처 해석에 있어 단순한 L1 규제를 사용해 다소 불안정할 수 있는 점이 있으며, 추후 모델 스타일 및 문체 개선이 필요할 것입니다.

이 연구는 Sparse Autoencoders를 통해 방사선 이미지의 해석 가능성을 높여 자동 보고서 생성의 투명성을 제공하고 있습니다. 이 기법은 향후 인공지능을 통한 의료 해석 연구에 적용할 수 있는 해석 가능한 AI 모델로서 가능성을 보여줍니다.

 

그럼 결국 이미지가 뉴럴넷을 통해 진행된 임베딩 값을 활용하여 SAE를 만든 것이네?
그 것을 통해 latent space에서 해석을 해보려고 하는 것이고?

네, 정확합니다. 이 연구에서는 방사선 이미지가 사전 훈련된 Vision Transformer로 인코딩되어 생성된 임베딩 값을 기반으로 Sparse Autoencoder (SAE)를 구축합니다. 이 SAE는 latent space에서 이미지의 중요한 피처를 인간이 이해할 수 있는 형태로 분해하고, 각 피처에 대한 텍스트 설명을 생성하여 해석 가능성을 높이려는 것이 주요 목표입니다.

즉, SAE를 통해 latent space의 피처들을 분해해 시각적 정보가 어떤 의미를 가지는지 해석할 수 있도록 하며, 이 정보를 바탕으로 자동화된 방사선 보고서를 생성하는 것입니다.

 

그럼 이 이미지는 어떻게 해석 가능한 보고서를 생성할 수 있는거야?
언어처럼 직접 토큰이 보이는 것이 아니잖아

맞습니다, 이미지 데이터는 언어 데이터와 달리 직접적으로 해석 가능한 토큰이 존재하지 않기 때문에 해석 가능한 보고서를 생성하는 과정이 복잡합니다. SAE-Rad에서는 이를 해결하기 위해 다음과 같은 단계로 접근합니다.

  1. 이미지 임베딩 생성
    우선 방사선 이미지를 사전 훈련된 Vision Transformer를 통해 임베딩합니다. 이 임베딩은 이미지의 잠재 정보를 포함하고 있지만, 인간에게는 직관적이지 않기 때문에 해석이 어려운 상태입니다.
  2. Sparse Autoencoder (SAE)를 통한 피처 분해
    생성된 임베딩은 Sparse Autoencoder에 의해 해석 가능한 피처로 분해됩니다. SAE는 잠재 공간에서 활성화되는 피처가 적도록 설계되어, 특정 피처가 각 이미지에서 어떻게 활성화되는지 알 수 있게 합니다. 예를 들어, "심장 비대"나 "폐의 혼탁"과 같은 방사선 특이적 피처가 임베딩 내 특정 피처로 매핑됩니다.
  3. 각 피처에 대한 텍스트 설명 생성
    각 피처의 활성화된 이미지를 기반으로, 해당 피처가 어떤 임상적 의미를 가지는지 사전 훈련된 언어 모델을 사용하여 텍스트 설명을 생성합니다. 예를 들어, "피처 1"이 활성화된 이미지는 "심장 비대를 나타냄"과 같이 설명됩니다.
  4. 활성화된 피처를 기반으로 보고서 생성
    새로운 이미지가 입력되면 SAE는 이미지에서 활성화된 피처 집합을 식별하고, 각 피처의 설명을 모아 하나의 보고서로 종합합니다. 이때 언어 모델이 이러한 텍스트 설명을 조합하여 의료 전문가의 보고서와 유사한 스타일로 결과를 생성합니다.

따라서, SAE-Rad는 이미지에서 직접적으로 해석 가능한 토큰이 없지만, 잠재 공간의 피처들을 사람이 이해할 수 있는 방식으로 전환하여 보고서를 생성할 수 있는 것입니다.

 

음 그럼 특정 feature가 활성화된 사람이 무슨 병이 있다고 해석할 수 있다 뭐 이런건가?

네, 정확히 그 개념입니다. 특정 피처가 활성화되었을 때 이를 특정 질병 또는 병리학적 특징과 연결할 수 있습니다. SAE-Rad의 Sparse Autoencoder는 이미지의 잠재 공간에서 활성화된 피처가 무엇을 의미하는지를 해석 가능하도록 설계되어, 예를 들어 "피처 X가 활성화되면 심장 비대가 있을 가능성이 높다"와 같이 특정 병리적 상태와 연관 지을 수 있게 합니다.

이렇게 하면 각 피처가 특정 임상적 의미를 지닌 특징으로 해석될 수 있고, 이를 통해 환자의 특정 증상이나 질병을 진단하거나 평가하는 데 도움을 줄 수 있습니다. 다시 말해, 이미지 임베딩 내에서 발견된 피처들이 실제 방사선 의사가 보고서를 작성할 때 사용하는 임상적 용어와 연결될 수 있는 것이죠.

이 접근 방식은 기존 모델들이 이미지 특징을 추출하더라도 의미적으로 해석하기 어려웠던 점을 개선해, AI가 생성한 보고서에 대해 더 신뢰할 수 있는 해석을 제공할 수 있다는 장점이 있습니다.

 

그런데 그냥 Vision모델을 사용하지 않고 Vision-Transformer을 사용한거야?
CNN모델로 SAE만들긴 좀 그런가?

네, 이 연구에서는 Vision Transformer (ViT)를 사용했는데, 이는 기존의 CNN 기반 모델보다 몇 가지 이유에서 더 유리하기 때문입니다. 특히 방사선 이미지 해석과 같은 특화된 의료 작업에서는 Vision Transformer가 더 강력한 해석 가능성을 제공할 수 있습니다.

Vision Transformer (ViT)를 선택한 이유

  1. 글로벌 피처 인식
    ViT는 이미지의 전역적 정보를 쉽게 포착할 수 있습니다. 각 패치가 이미지 전체에 대해 서로 주의를 기울이며 관계를 학습하므로, ViT는 멀리 떨어진 영역 간의 상호작용을 인식하기에 유리합니다. 방사선 이미지 해석에서는 이미지 내의 다양한 부위의 관계를 이해하는 것이 중요하기 때문에, CNN보다는 ViT가 유리할 수 있습니다.
  2. 피처의 모듈화와 해석 가능성
    ViT에서 각 패치가 독립적인 피처로 해석되면서 각 패치의 임베딩이 별개의 정보로 표현됩니다. 이로 인해 Sparse Autoencoder가 특정 피처를 독립적으로 학습하고 해석할 수 있어 SAE의 해석 가능성을 높이는 데 도움이 됩니다.
  3. 확장성과 유연성
    ViT는 확장성이 뛰어나, 다양한 크기의 이미지나 새로운 데이터셋에 쉽게 적용할 수 있습니다. 이 연구에서 ViT는 사전 훈련된 모델로 사용되었으며, 추가적인 미세 조정 없이도 방사선 이미지에 잘 적용되었습니다. 이는 대규모 데이터 없이도 높은 성능을 발휘할 수 있도록 해줍니다.

CNN 모델을 사용하지 않은 이유

  1. 국소적 피처에 집중
    CNN은 주로 로컬 피처에 집중해 작은 영역의 특징을 추출하는 데 뛰어납니다. 방사선 이미지와 같은 경우, 글로벌 구조나 넓은 관계를 이해하는 것이 중요할 때 CNN의 국소성은 한계가 될 수 있습니다.
  2. 해석 가능성의 제한
    CNN에서의 피처 맵은 종종 여러 피처가 얽히는 폴리세만틱(poysemantic) 문제가 발생하여, 하나의 필터가 다양한 특징을 혼합적으로 나타내기 쉽습니다. 이로 인해 CNN 기반의 SAE는 특정 병리와 피처의 관계를 명확하게 해석하기 어려울 수 있습니다.
  3. 변형의 어려움
    CNN 기반 SAE를 적용하는 경우, 각 층의 피처 맵이 이미지 패치의 관계를 설명하기 어렵습니다. 반면 ViT는 패치의 상호 관계와 컨텍스트를 표현하기 때문에, 이를 SAE에 적용하여 명확한 피처 해석을 가능하게 합니다.

결론적으로, 이 연구에서는 ViT가 이미지의 전반적인 문맥 정보를 반영하며 Sparse Autoencoder와 결합했을 때 더 해석 가능한 피처를 제공할 수 있기 때문에, ViT를 선택하는 것이 적절한 선택이었던 것으로 보입니다.

 

728x90