유방암은 전 세계 여성에서 가장 흔하게 진단되는 암으로,1) 2019년 우리나라 통계 보고에 따르면 매년 24,820명의 여성이 유방암으로 새롭게 진단되고 2,622명이 사망하였다.2) 유방암의 높은 발병률과 사망률을 고려할 때, 검진을 통해 조기에 유방암을 발견하고 최적의 치료를 제공하는 것이 중요하다. 유방촬영술(mammography)은 유방암으로 인한 사망률을 감소시킬 수 있는 영상 기법으로,3) 여러 국가에서 이를 이용한 검진 가이드라인을 제시하고 있고,4-6) 우리나라에서도 만 40세 이상 여성을 대상으로 2년마다 유방촬영술을 시행하고 있다. 하지만 유방촬영술에는 여러 한계점도 존재하는데, 위양성 판정으로 불필요한 추가 검사나 조직검사로 인한 비용 손실을 초래하고, 환자에게 심리적인 불안감을 줄 수 있다.7) 반대로 유방촬영술상 병변이 유방 실질 조직에 가려져서 인지하기 어려운 경우 위음성 판정으로 인해 진단이 지연될 수도 있다.8) 유방영상 판독은 영상의학과 의사의 숙련도에 따라 그 성능에 차이를 보이는데,9,10) 방대한 양의 검진 유방촬영 영상을 판독할 수 있는 유방 전문 영상의학과 의사가 전 세계적으로 매우 부족한 실정이며,11) 한정된 의료 자원 내에서 현재의 검진 성능을 향상시킬 수 있는 방안이 필요하다.
유방촬영술을 판독하는 데 영상의학과 의사의 판독 능력을 향상시키기 위한 목적으로 유방암과 관련된 패턴을 식별하는 컴퓨터 보조 발견(computer-aided detection, CAD) 알고리즘들이 1970년대부터 개발되기 시작하였다. 이들 전통적(conventional)인 CAD는 유방암과 연관된 패턴을 검출하도록 유방영상 전문가들이 직접 고안(hand-crafted)한 수학적인 모델에 기반하였고, 주로 국소적으로 음영이 증가되어 보이는 영역에 대해 주변 구조물과의 대조도, 모양 등을 판별하여 종괴나 미세 석회 부위를 표시한다.12,13) 이들 CAD는 유방촬영술상 유방암이 의심되는 부위를 표시하면 영상의학과 의사들이 해당 부위가 실제로 추가적인 평가를 요하는지 결정하는 방식으로 도입되었으며, 1998년 미국 식품의약국(Food and Drug Administration, FDA)의 승인 이후 미국에서는 보험 수가가 인정되어 2016년 기준으로 미국 병원의 약 92%에 CAD가 도입되었다.14)
이러한 전통적인 CAD들은 초기 연구에서는 암 발견율을 향상시키는 것으로 긍정적인 평가를 받았으나,15-17) 이후 여러 대규모 전향적 연구들에서는 그 효용성이 입증되지 못하였고,18-20) 특히 이들은 놓치는 암(missed cancer)이 없도록 설계되었기 때문에 지나치게 높은 민감한 표지로 인해 특이도가 감소하고 생검률이 증가하는 결과를 초래했다.20) 따라서 실제 검진 환경에서는 한 개의 유방암을 더 찾기 위해 훨씬 많은 수의 위양성 표지를 확인해야 하므로 영상의학과 의사들의 피로감을 유발하였고, 한 연구에서는 영상의학과 의사가 CAD를 참조하는 경우 판독의 민감도가 오히려 유의하게 저하되었다는 결과를 보고하였다.18)
인공지능(artificial intelligence, AI)은 전통적으로 인간의 지능으로 수행하던 작업들을 컴퓨터가 수행하도록 하는 알고리즘을 개발하는 광범위한 접근법을 포괄하는 용어이다.21) 이 중에서 여러 통계 기법들을 사용하여 데이터를 학습함으로써 명시적으로 프로그래밍하지 않고도 경험을 통해 개선되는 인공지능의 하위 집합을 머신 러닝(machine learning)이라고 하고, 이 중에서도 여러 층의 신경망을 이용해 방대한 양의 데이터를 분석하고, 데이터 내의 복잡한 패턴을 인지하도록 하는 것을 딥러닝(deep learning)이라고 한다.22) 이는 현재 컴퓨터 시각화의 주요 기술이 되어 유방영상을 포함한 이미지 분류의 여러 분야에서 사용되고 있으며, 사람의 정교한 조작 없이도 원 데이터로부터 ‘유방암 검출’ 또는 ‘유방암 진단’과 같은 특정 결과와 관련되거나 예측하는 데 관련된 특징 또는 특징 조합을 스스로 발견하고 훈련한다. 최근 컴퓨터 처리 능력의 발전, 디지털 헬스 데이터의 기하급수적인 증가, 그리고 클라우드 기반 데이터 저장 능력의 발전에 따라 이러한 딥러닝 기술이 임상 영상 분야에서 정확도를 향상시키는 데 핵심적인 도구로 자리잡고 있다.23)
전 세계적으로 유방암 검진이 유방촬영술에 기반을 두고 있기 때문에 현재까지 유방영상분야에서 AI를 적용한 연구들은 대부분 유방촬영술에서 유방암을 검출하는 데 집중하고 있다. 하지만 유방암 검출 이외에도 영상의학과 의사의 판독을 보조하고 업무 흐름을 개선하거나, 유방 밀도를 평가하고, 개별 환자에서 유방암 위험도를 예측하는 등 다양한 접근 방식으로 AI 기반 CAD를 적용한 연구 결과들이 보고되고 있고, 현재까지 총 23개의 AI-CAD가 미국 FDA 승인을 획득하였다(Table 1).24)
List of FDA-approved AI-CADs in breast imaging24)
Product | Company | Focus | Modality |
---|---|---|---|
BU-CAD | TaiHao Medical Inc. | Breast lesion characterization | US |
ClearView cCad | ClearView Diganostics Inc. | Breast lesion characterization | US |
cmTriage | CureMetrix, Inc. | Breast lesion characterization | Mammography |
CogNet QmTRIAGE | MedCognetics, Inc. | Breast lesion characterization | Mammography |
DenSeeMammo | Statlife | Breast density | Mammography |
densitas densityai | Densitas, Inc. | Breast density | Mammography |
DM-Density | Densitas, Inc. | Breast density | Mammography |
Genius AI Detection with CC-MLO Correlation | Hologic, Inc. | Breast density | Mammography |
HealthMammo | Nano-X AI (Zebra Medical Vision Ltd.) | Breast lesion characterization | Mammography |
Insight BD | Siemens Healthineers | Breast density | Mammography |
Koios DS | Koios Medical, Inc. | Breast lesion characterization | US |
Lunit INSIGHT MMG | Lunit Inc. | Breast lesion characterization | Mammography |
MammoScreen | Therapixel | Breast lesion characterization | Mammography |
PowerLook Density Assessment Software | ICAD Inc. | Breast density | Mammography |
ProFound AI Software | ICAD Inc. | Breast lesion characterization | Mammography |
QuantX | Qlarity Imaging | Breast lesion characterization | MRI |
Saige-Density | DeepHealth | Breast density | Mammography |
Saige-DX | DeepHealth | Breast lesion characterization | Mammography |
Saige-Q | DeepHealth | Breast lesion characterization | Mammography |
Transpara | ScreenPoint Medical B.V. | Breast lesion characterization | Mammography |
ViewFinder Software | Elaitra Ltd. | Breast lesion characterization | Mammography |
Visage Breast Density | Visage Imaging GmbH | Breast density | Mammography |
Volpara Imaging Software | Volpara Health Technologies Limited | Breast density | Mammography |
WRDensity | Whiterabbit.ai Inc. | Breast density | Mammography |
AI-CAD, artificial intelligence-based computer-aided detection; MRI, magnetic resonance imaging; US, ultrasound.
유방촬영술 판독을 보조하는 AI-CAD들은 병변의 발견과 특성화(characterization)를 지원하고, 병변이 의심되는 부위에 표식과 함께 해당 부위의 악성 의심 정도 점수(level-of-suspicion score)를 제공하며, 소프트웨어에 따라 유방 혹은 검사 레벨에서 점수를 제공하기도 한다(Figures 1–3). 많은 연구 결과들을 통해 이들 AI 알고리즘이 유방암을 발견하는 데 높은 민감도와 특이도를 나타낸다고 보고되었으며,25-33) AI-CAD 단독으로도 영상의학과 의사들과 비교해 유사하거나25,34,35) 더 높은 성능을 보이는 것으로 나타났다(Table 2).27,32,33) 세 종류의 상업화된 AI-CAD를 이용한 외부 검증 연구에 따르면 각각의 CAD 모두 단독으로 0.92에서 0.96 사이의 높은 area under the receiver operating characteristics curve (AUROC)값을 보였고, 그중 하나는 영상의학과 의사보다도 더 우수한 성능을 나타냈다.36) Hickman 등37)이 수행한 메타분석에서 AI 알고리즘의 통합(pooled) AUROC는 0.89로 영상의학과 의사의 0.85보다 높았고, Yoon 등38)의 메타분석에서도 AI 알고리즘의 통합 AUROC가 0.87로 영상의학과 의사의 0.81보다 높은 것으로 나타났다(P=0.002). McKinney 등32)의 연구에서 AI-CAD는 영상의학과 의사들과 비교해 위양성 판독과 위음성 판독을 각각 1.2%–5.7%, 2.7%–9.4% 적게 하는 것으로 나타났다. Kim 등27)의 연구에서 AI-CAD는 특히 판독의 난이도가 높은 종괴나, 구조 왜곡, 비대칭으로 보이는 유방암과, 20 mm 이하의 작은 암, 림프절 전이를 동반하지 않은 암을 잘 찾는 것으로 나타났다. 또 다른 Kim 등39)의 연구에서는 영상의학과 의사들이 유방촬영에서 발견하지 못하는 암 가운데 약 31.3%에서 AI-CAD가 유방촬영술상 암의 정확한 위치를 지목한 것으로 나타났다. Akselrod-Ballin 등40)은 유방촬영 영상과 전자의무기록을 결합한 데이터셋으로 AI 기반의 유방암 예측 모델을 구축하였고, 위음성으로 판정된 유방촬영 영상의 48%를 검출해 낼 수 있었다. Dembrower 등41) 또한 영상의학과 의사들이 정상이라고 판정한 유방촬영 영상에 AI-CAD를 적용하면 다음 검진 시기 이전에 진단되는 간격암(interval cancer)과 다음 검진에서 발견되는 암(next-round screening-detected cancer)을 한계점(threshold)에 따라 각각 12%–50%, 14%–59% 줄일 수 있는 것으로 보고했다.
Performance of AI-CAD in mammography
Literature | AI-CAD | AUROC | Sensitivity | Specificity |
---|---|---|---|---|
Rodriguez-Ruiz et al. (2019)25) | Deep CNN (Transpara 1.4.0; Screenpoint Medical) | 0.84 | 75%–86% at radiologists’ specificity | - |
Kim et al. (2020)27) | Deep CNN (Lunit INSIGHT MMG; Lunit Inc.) | 0.94 | 88.87% | 81.87% |
Kim et al. (2018)28) | Deep CNN | 0.903–0.906 | 75.6%–76.1% | 88.5%–90.2% |
Ribli et al. (2018)29) | Faster R-CNN | 0.95 | 90% | - |
Becker et al. (2017)30) | Deep ANN | 0.81–0.85 | 59.8%–73.7% | 69.6%–84.4% |
Kooi et al. (2017)31) | Deep CNN | 0.929 | - | - |
McKinney et al. (2020)32) | Deep learning AI system | 0.740 | 42%–100% | 92%–97% |
Lee et al. (2022)33) | Deep CNN (Lunit INSIGHT MMG 1.1.1.0; Lunit Inc.) | 0.915 | - | - |
Rodríguez-Ruiz et al. (2019)34) | Deep CNN (Transpara 1.3.0; Screenpoint Medical) | With AI: 0.89 (vs. Without AI: 0.87) | With AI: 86% (vs. Without AI: 83%) | With AI: 79% (vs. Without AI: 77%) |
Chen et al. (2023)35) | Deep CNN (Lunit INSIGHT MMG 1.1.7.1; Lunit Inc.) | 0.93 | 84%–91% | 77%–89% |
Salim et al. (2020)36) | Three commercialized AI-CADs | 0.920–0.956 | 67.0%–81.9% at radiologists’ specificity | - |
Hickman et al. (2022)37) | ML algorithms used in 14 studies | Pooled AUROC 0.89 | Pooled sensitivity 75.4% | Pooled specificity 90.6% |
Yoon et al. (2023)38) | AI algorithms used in 13 studies | Pooled AUROC 0.87–0.89 | Pooled sensitivity 75.8%–80.8% | Pooled specificity 76.9%–95.6% |
Akselrod-Ballin et al. (2019)40) | A ML-DL model | 0.91 | 87% | 77.3% |
Schaffter et al. (2020)42) | A custom neural network | 0.858–0.903 | - | 66.2%–81.2% at radiologists’ sensitivity |
Pacilè et al. (2020)43) | Deep CNN (MammoScreen V1; Therapixel) | With AI: 0.797 (vs. Without AI: 0.769) | With AI: 69.1% (vs. Without AI: 65.8%) | With AI: 73.5% (vs. Without AI: 72.5%) |
AI, artificial intelligence; AI-CAD, artificial intelligence-based computer-aided detection; AUROC, area under the receiver operating characteristics curve; CNN, convolutional neural network; ANN, artificial neural network; ML, machine learning; DL, deep learning.
영상의학과 의사들이 AI-CAD를 참조하여 판독할 경우, 판독 성적이 유의하게 향상된다는 결과도 여러 연구를 통해 보고되었다.27,33,34,42,43) Rodríguez-Ruiz 등34)의 연구에서 AI-CAD를 이용하는 경우 AUROC가 각각 0.87에서 0.89로 향상되었고(P=0.002), 특이도를 저하시키지 않으면서 민감도를 83%에서 86%로 향상시킬 수 있었으며(P=0.046), 특히 석회를 동반하지 않은 병변으로 보이는 암의 경우와 경험이 적은 영상의학과 의사에서 판독 성적의 향상이 두드러졌다. Kim 등27)의 연구에서도 AI-CAD를 참조하기 전후로 전반적인 영상의학과 의사들의 판정에 대한 AUROC가 0.81에서 0.88로 향상되었고(P<0.001), 비 유방 전공 영상의학과 의사의 판정에 대한 AUROC는 0.77에서 0.87로 유방 전공 영상의학과 의사의 수준으로 향상되었다. 특히 영상의학과 의사들이 판정에 어려움을 겪는 치밀한 유방에서 발생한 암이나 석회를 동반하지 않은 암에 대해서 AUROC가 크게 향상되는 것으로 나타났다.27) Lee 등33)의 연구에서도 AI-CAD는 유방 전공 영상의학과 의사와 비 유방 전공 영상의학과 의사에서 모두 유의하게 특이도를 저하시키지 않으면서 민감도를 개선할 수 있었으며, 앞선 연구와 마찬가지로 AI-CAD를 참조하면 비 유방 전공 영상의학과 의사의 판독 성적이 AI-CAD를 참조하지 않은 유방 전공 영상의학과 의사의 판독 성적과 유사한 수준으로 향상되는 것으로 나타났다. 충분한 양의 검진 유방촬영 영상을 판독할 수 있는 유방 전공 영상의학과 의사가 부족한 현 상황에서 AI-CAD의 도입은 검진 프로그램을 유지하고 개선하는 데 중요한 역할을 할 것으로 생각된다. Pacilè 등43)의 연구에서는 AI-CAD 사용 시 경험이 많은 영상의학과 의사에서 오히려 성적 향상이 두드러지는 것으로 나타났지만, 특이도를 저하시키지 않으면서 민감도를 향상시킬 수 있는 결과는 앞선 연구들과 공통적으로 나타났다.
유방암 진단 성적을 향상시키는 것 이외에도, AI-CAD를 이용해 판독 업무의 흐름을 보다 효율적으로 개선할 수 있다는 연구 결과들이 보고되었다. 특히, 2년마다 한 번 검진하는 여성 1,000명 가운데 약 5명이 유방암 진단을 받는다는 점을 고려할 때 검진 유방촬영 영상의 대부분은 정상 소견을 보임에도 불구하고 이러한 정상 유방촬영 영상을 판독하는 데 영상의학과 의사의 시간이 과다하게 투입되고 있으며, 이와 같은 낮은 유병률 조건에서는 실제 암의 징후를 놓칠 가능성이 높아져서 위음성 판정이 더 쉽게 발생한다.41,44) 반대로, 2년마다 검진하는 1,000명의 여성 가운데 약 2명은 간격암으로 진단된다.45) 따라서, 영상의학과 의사의 평가가 불필요한 유방촬영 영상들을 식별하는 한편, 유방암 위험이 높은 유방촬영 영상들을 강조할 수 있는 트리지(triage) 모델이 개발되면 한정된 인적 자원을 활용한 유방암 검진의 효율성을 증대시킬 수 있을 것이다.
Yala 등46)의 연구에서는 영상의학과 의사가 모든 유방촬영 영상을 판독하는 전통적인 판독 모델과 AI가 필요하다고 판정한 유방촬영 영상만을 판독하는 트리지 모델을 비교했는데, 트리지 모델에서 판독량이 80.7%로 감소하면서도 민감도에 유의한 영향이 없었고, 오히려 특이도가 93.5%에서 94.2%로 유의하게 증가하는 것으로 나타났다(P=0.002). Dembrower 등41)의 연구에서는 AI 점수가 하위 60%인 유방촬영 영상들에 대해 영상의학과 의사가 판독하지 않더라도 놓치는 암이 없었으며, 반대로 상위 1%에 대해 자기공명영상(magnetic resonance imaging, MRI) 등 추가 검사를 시행하는 경우 암 발견율을 1,000명당 114명까지 증가시킬 수 있는 것으로 나타났다. Lauritzen 등44)은 AI-CAD를 통해 유방촬영 영상을 ‘정상’, ‘중간 위험(moderate-risk)’, ‘의심(suspicious)’의 세 범주로 분류하였고, ‘정상’ 범주에 해당하는 유방촬영 영상은 영상의학과 의사의 판독 없이 정상으로 간주하고, ‘의심’ 범주에 해당하는 영상은 영상의학과 의사의 판독 없이 추가 검사를 시행하는 시나리오를 연구하였다. 이 시나리오에서는 ‘중간 위험’에 해당하는 영상만을 영상의학과 의사가 판독하므로, 모든 영상을 영상의학과 의사가 판독할 때와 비교하여 판독량은 62.6% 감소한 반면, 민감도는 비슷한 수준으로 유지되면서도 특이도가 향상되는 결과를 보였다(P<0.001). Rodriguez-Ruiz 등47)은 AI-CAD가 생성한 0–10점 사이의 악성 가능성 척도를 사용하여 ‘정상’으로 판정된 유방촬영 영상에 대해 영상의학과 의사가 판독하지 않는 시나리오를 연구하였는데, AI 척도를 5로 설정했을 때 업무량은 반으로 줄어들었으나 7%의 암이 위음성으로 판정되었고, AI 척도를 2로 설정했을 때에는 1%의 암이 위음성 판정을 받는 대신 업무량이 17% 감소하였다. 또한, ‘정상’으로 판정된 유방촬영 영상을 제하고 나머지에 대해서만 판독하더라도 영상의학과 의사의 판독능이 저하되지 않았다.47) 이러한 연구 결과들을 바탕으로 일부 AI-CAD는 의료영상 저장 전송 장치(picture archiving and communication system, PACS)상에서 악성 의심 수준이 높아 빠른 판독을 요하는 유방촬영 영상이 목록의 상위에 놓이도록 하는 기능을 제공하고 있다. 북미나 유럽에서는 각 유방촬영 영상을 두 명의 영상의학과 의사가 독립적으로 판독하는 이중 판독(double-reading)이 시행되고 있음을 고려할 때 이러한 AI-CAD의 판독량 절감 효과가 특히 두드러질 것으로 생각되며,48) 제2판독자 대신 AI-CAD를 사용하는 경우 검진 성능을 유지하면서도 제2판독자의 업무량을 88% 줄일 수 있는 것으로 나타났다.32)
한편, 전통적인 CAD 사용 시 지나치게 많은 위양성 표지를 확인하는 데 걸리는 시간이 주요한 단점 중 하나로 지적되었던 것과 달리 AI-CAD를 사용하는 경우 판독 시간이 유의하게 증가하지는 않는 것으로 나타났다.34) 특히, AI-CAD가 의심 수준이 낮다고 판정한 영상에 대한 판독 시간이 단축됨에 따라 전반적인 판독 시간도 약 4.5% 줄어드는 것으로 나타났다.34) 또 다른 연구에서도 AI-CAD가 의심 수준이 낮다고 판정한 영상에서는 판독 시간이 단축되고, 의심 수준이 높다고 판정한 영상에서는 판독 시간이 증가하는 경향을 보였으며,43) 따라서 AI-CAD는 영상의학과 의사가 판독 시간을 좀더 중요한 영상에 할애할 수 있도록 효율성을 높이는 데 기여할 수 있을 것으로 생각된다. Lee 등33)의 연구에서 AI-CAD는 유방 전공 영상의학과 의사의 판독 시간을 단축하는 효과를 보였으며(P<0.001), 비 유방 전공 영상의학과 의사에서는 판독 시간이 증가하는 경향을 보였다(P<0.001). 그러나 AI-CAD에 대한 학습 곡선(learning curve)이 형성됨에 따라 판독 시간이 증가하는 효과는 어느 정도 상쇄될 것으로 생각된다.43)
유방촬영술상 유방 실질의 밀도는 크게 두 가지 측면에서 중요한 임상적 의의를 갖는데, 치밀 유방은 유방암의 위험도를 평균 4배 이상 높이는 것으로 알려져 있고,49-52) 유방 밀도가 증가할수록 유방 실질이 유방암을 가리는 효과(masking effect)로 인해 유방촬영술의 민감도가 저하됨으로써 유방암 진단이 지연될 가능성도 있다.49,53,54) 따라서 미국의 많은 주에서는 검진 유방촬영술 이후 여성들에게 유방 밀도에 대한 정보와 더불어 유방 밀도가 유방촬영술의 성능을 제한할 가능성에 대해 통지하도록 하는 법안이 통과되었고, 보조적인 검진 수단의 필요성에 대해 의료진과 상의하도록 권고하고 있다.55,56) 그러나 이러한 유방 밀도 통지 법안과 관련한 주된 문제점 중 하나는 임상적으로 유방 밀도를 평가하는 과정이 다소 주관적이라는 점이다.57) 현재 유방 밀도는 판독하는 영상의학과 의사가 시각적으로 방사선 불투명(radio-opaque)한 영역에 대해 평가하고 있으며, 가장 널리 사용되는 방법으로는 미국 방사선의학회(American College of Radiology)의 유방영상 판독 및 데이터 체계(Breast Imaging Reporting and Data Systems, BI-RADS)에 따라 가장 치밀하게 보이는 부위에서 병변이 가려질 위험성을 4개의 정성적인 단계로 분류하고 있다.58) 문헌에 따르면 이와 같은 방법으로 밀도를 판정할 때 kappa 값은 평가자 내에서 0.50–0.81, 평가자 간 0.02–0.72로 매우 다양하게 보고된다.59) 몇몇 상업화된 자동 용적 밀도 측정 소프트웨어(Volpara, Volpara Solutions; Quantra, Hologic Inc.)들이 전체 유방 용적에 대한 섬유유선조직(firoglandular tissue)의 비율을 백분율로 정량화하여 제시하고 있으나, 여전히 이러한 자동화 소프트웨어와 영상의학과 의사 간의 kappa 값은 0.32–0.61로 다양하게 보고되는 실정이다.60,61)
이러한 컴퓨터와 영상의학과 의사 간의 유방 밀도 평가에 대한 편차를 극복하기 위한 목적으로 여러 AI 알고리즘들이 개발되었고, 영상의학과 의사의 평가에 근접하는 결과들이 보고되고 있다.62-65) Lehman 등65)의 연구에서 숙련된 영상의학과 의사의 판정 결과를 기반으로 훈련된 AI 알고리즘을 사용했을 때 AI 모델과 영상의학과 의사의 판정 간의 kappa 값은 0.67–0.85로 좋은 일치도를 보였으며, 지방형 유방과 치밀 유방을 구분하는 이분 판정에서는 AI 알고리즘의 판정 중 94%에 대해 영상의학과 의사가 동의했다. 임상 현장에 도입되기까지 추가 연구가 필요하겠으나, 충분히 검증되고 재현성 있으면서 상용화할 수 있는 AI 기반의 유방 밀도 측정법이 임상 현장에 도입된다면 유방 밀도 평가의 주관성을 줄이고, 보조적인 검진 기법이 필요한 인구를 선별하는 데 표준화된 기준을 제공할 수 있을 것으로 기대된다. 또한, 이는 궁극적으로 개인의 유방암 위험도를 예측하고 맞춤형 검진 계획을 수립하는 데 도움이 될 것으로 생각된다.
많은 선진국에서 유방암 검진 프로그램으로 일률적(one-size-fits-all)인 방법을 사용하고 있으나 이러한 접근법은 개별 여성에서 유방암을 발견하는 데 최적화되어 있지 않으며,7) 개별 여성에서 향후 유방암 발생 위험도를 정확히 평가하는 것은 적절한 유방 검진 계획을 수립하는 데 필수적이다. 미국 등에서는 검진 프로그램에 참여한 여성들을 장기간 관찰한 대규모 코호트 자료를 기반으로, 향후 유방암이 발생할 위험성에 대한 수학적 모델을 구축함으로써 개인별로 연령에 따른 유방암 발생 확률을 제시하고 있다. 과거의 모델들은 대부분 설문지 작성을 통한 유전적, 환경적 요인이나 호르몬 관련 위험 요인을 기반으로 구축되었지만,66-68) 치밀 유방이 유방암의 중요한 위험 요인으로 인식되면서 유방촬영술에서의 유방 밀도를 반영한 모델들이 개발되었으며, 이러한 모델들은 기존 모델과 비교하여 예측 정확도가 향상된 것으로 나타났다.50,69) 그러나 여전히 영상의학과 의사가 주관적으로 평가한 유방 밀도 내지는 사람이 특정한 영상 소견만으로는 영상 내 위험도와 관련된 모든 정보를 반영하는 데 한계가 있을 것으로 사료된다.
전술한 바와 같이 AI 알고리즘을 사용하면 유방 밀도를 보다 객관적으로 측정할 수 있을 뿐만 아니라,65) 사람이 유방 밀도를 단 네 개의 카테고리로 수치화하는 것과 달리 AI는 픽셀 수준의 데이터를 학습하여 인간이 특정하지 못하는 위험도 관련 정보를 보다 유연하게 추출할 수 있을 것으로 생각된다.70,71) 이전 연구 결과에 따르면 AI-CAD를 통해 간격암이나 다음 검진에서 발견되는 암을 효과적으로 검출하는 데 도움이 될 수 있었으며, 이는 이러한 가설을 뒷받침한다.41) Ha 등72)의 연구에서는 유방암이 발생한 그룹과 그렇지 않은 그룹의 과거 유방촬영 영상을 이용하여 픽셀 단위에서 유방암 위험을 예측하는 AI 모델을 구축하였고, 이 모델은 기존의 유방 밀도 모델보다 향후의 유방암 발생을 정확히 예측하는 것으로 나타났다. 즉, 유방 밀도가 서로 유사하게 보이는 유방촬영 영상들이라도 AI 모델이 산출한 픽셀 단위의 열지도(heatmap)상 고위험 영역으로 나타나는 범위에는 차이를 보일 수 있었다.72) Dembrower 등70)의 연구에서도 AI로 산출한 위험도 점수가 향후 유방암 발생 위험이 높은 여성을 예측하는 데 유방 밀도 모델보다 높은 정확도를 보였고, 특히 공격적인 암에 대해 위음성률이 낮은 것으로 나타났다. Yala 등71)의 연구에서는 유방촬영 영상 기반으로 5년 이내에 유방암으로 진단될 가능성을 예측하는 AI 모델을 구축하였고, 기존의 위험도 예측 모델(Tyrer-Cuzick)보다 높은 예측도를 얻었다(P<0.01). 이와 같이 AI 알고리즘을 이용해 유방암 위험을 예측하려는 시도는 아직 초기 단계에 있지만, 곧 다가올 미래에는 AI 알고리즘을 통해 보다 정확하게 개별적인 유방암 위험도를 예측하여 개인에게 최적화된 검진법을 수립할 수 있을 것으로 전망된다. 특히 유방 밀도 통지 법안이 통과되면서 야기된 유방암 검진 관련 의료 비용의 증가와 업무 부담을 해소하는 역할을 수행할 수 있을 것으로 기대된다.
전 세계적으로 유방암 검진 프로그램이 유방촬영술에 기반을 두고 있긴 하나, 고위험 여성이나 치밀 유방을 가진 여성에서는 유방촬영술에 기반한 검진만으로는 암을 조기에 진단하는 데 불충분할 수 있다.73) 따라서 이러한 여성들에게 보다 효과적인 검진 전략이 필요한 실정으로, 보조적인 검진 기법으로는 디지털 유방 단층촬영술(digital breast tomosynthesis, DBT)이나 초음파, MRI 등이 있다. 하지만 이러한 기법들 또한 각각의 지닌 고유한 한계점들이 있으며, 이들을 극복하고 보다 효율적인 검사와 판독을 수행할 수 있도록 AI를 적용한 연구들이 활발히 보고되고 있다.
DBT는 X선 조사원이 궤적을 따라 주행하면서 여러 장의 저선량 투사 영상을 획득하고 이들을 재구성하여 단층 영상을 얻는 영상 기법이다.74) 이를 통해 유방 조직의 겹침을 감소시킬 수 있으므로, 유방 실질이 유방암을 가리는 효과(masking effect)로 발생하는 위음성 판정이나, 반대로 정상 조직이 겹쳐져서 보이는 중첩 음영이 암으로 오인되는 위양성 판정을 줄일 수 있다고 알려져 있다.75-81) 하지만 여러 장의 스택(stack) 영상을 확인해야 하므로 판독 시간이 유방촬영 영상을 판독할 때와 비교해 두 배 이상 소요되어 인력 부담이 크고,78,81) 치밀 유방이나 복잡한 조직 패턴을 보이는 경우 여전히 다양한 인지 에러(perception error)와 해석 에러(interpretation error)가 존재한다는 한계점이 있다.82) 따라서 DBT에서도 병변의 빠르고 정확한 검출을 보조하기 위한 AI-CAD들이 개발되었고, 그 결과 판독 성능을 유지하거나 향상시키면서도 판독 시간을 효과적으로 단축할 수 있었다.83-86)
초음파는 치밀 유방을 가진 여성 등에서는 유방촬영에서 감지되지 않는 암을 발견할 수 있으므로 검진 환경(screening setting)에서의 사용이 증가되고 있다.87,88) 특히 초음파는 방사선 노출이나 조영제 사용과 같은 부담이 없고, 비용이 적게 들며, 실시간으로 조직 검사나 술기를 진행하는 데에도 널리 사용될 수 있다.87) 그러나 초음파는 검사자가 프레임 영상으로부터 병변을 검출하고 해석하는 데 전적으로 주관적인 판단에 의존하므로 경험이나 숙련도에 따라 검사자 간 편차가 크게 나타날 수 있다.89) 또한 위양성 판정률이 높아 불필요한 조직검사나 처치가 이루어질 수 있는 경우도 있다.90,91) 초음파에서 병변의 특성화(characterization)를 보조하는 목적으로 상업화된 버전의 AI-CAD가 개발되었으며, 이들을 이용한 연구 결과 검사자의 성적이 개선되고, 특히 경험이 적은 검사자의 성능을 크게 향상시킴으로써 검사자 간 편차가 감소했다는 결과들이 보고되었다.92-98) 하지만 현재까지 초음파에 적용된 AI-CAD들은 대부분 사용자가 발견한 병변을 캡처한 정지 영상을 대상으로 감별 진단을 지원하고 있어 스캔 시간 중 실시간(real-time)으로 이루어지는 병변 검출 과정에 대한 고려가 이루어지지 않았다. 또한, 정지 초음파 영상은 병변의 일부만을 반영하므로 획득하기에 따라 병변의 특정 부분이 강조되어 바이어스가 개입할 가능성이 있고, 검사자가 관심 영역(region-of-interest)을 직접 지정해야 하는 번거로움으로 인해 임상 현장에서 그 효용성에 제한이 있다. 따라서 궁극적으로는 실시간 스캔 과정에서 병변을 검출하고 판별하여 시각화 할 수 있는 AI-CAD의 구현이 필요하며 현재 개발 중에 있다.99)
MRI는 유방암의 병기 설정이나 선행항암화학요법에 대한 반응 평가 등의 목적으로 많이 시행되지만, 유방암을 발견하는 데 가장 민감한 검사로써 유전자 변이, 가족력, 개별 위험인자를 보유한 고위험 여성에서 검진 목적으로도 시행되고 있다.100-102) 고위험 여성에서 검진 MRI를 시행하는 경우 유방촬영술보다 조기에 암을 진단할 수 있을 뿐만 아니라,103) 유방촬영술과 결합하면 사망률 감소 효과도 있는 것으로 알려졌다.104) 유방촬영술의 민감도가 저하되는 치밀 유방 여성에서도 MRI를 이용한 검진을 통해 간격암을 줄일 수 있었다.105) 하지만 MRI의 특이도는 다른 검진 기법들과 유사한 수준으로 보고되는데,106-108) MRI 판독 시 AI-CAD를 참조하면 판독의 정확도를 향상시킬 수 있었다.109,110) 한편 MRI를 시행하기 위해서는 가돌리늄 기반의 조영제를 사용해야 하는데, 이는 MRI 검사의 비용과 시간을 증가시킬 뿐만 아니라 신기능이 좋지 않은 환자나 임신한 여성에서 사용이 제한되고, 검진 목적으로 MRI를 시행해야 하는 여성들에 있어서는 체내 가돌리늄 축적에 대한 우려가 해결되지 않은 실정이었다. Chung 등111)은 AI 알고리즘을 통해 비조영증강 MRI 영상으로부터 가상(simulated) 조영증강 MRI 영상을 구현하였고, 판독자 연구를 통해 실제 조영증강 MRI 영상을 판독하는 것과 유의한 차이가 없었음을 보고하였다. MRI를 검진 목적으로 널리 시행하는 데 있어 또다른 제한점은 검사 시간이 길다는 점인데, 이를 극복하기 위해 축약형 프로토콜(abbreviated protocol)이나 초기 조영증강 패턴에 주목하는 초고속 MRI (ultrafast MRI)들이 개발되었다. 하지만 이때 지연 조영증강 패턴과 관련된 정보를 얻을 수 없다는 한계점이 있었는데, Dalmış 등112)은 AI-CAD를 적용하여 초기 조영증강 정보만으로도 전통적인 프로토콜에 CAD를 적용한 결과에 준하는 성능을 얻을 수 있었다고 보고하였다.
지금까지의 연구들을 통해 유방영상에 AI를 적용하는 데 대한 긍정적인 결과가 보고되고 있지만, 이를 실제 임상 현장에 적용하는 데는 아직 여러 제한점이 있다. 지난 몇 년간 수많은 종류의 딥러닝 기법을 통한 AI-CAD가 개발되었음에도 불구하고 그중 극히 일부에서만 임상 검증을 통과하고 상업화되어 사용되고 있는데, 아직까지 AI-CAD를 실제 검진 환경에 적용하여 정확도를 평가한 대규모 전향적 외부 검증(external validation) 결과가 나오지 않았다. 또한 현재까지 보고된 대부분의 연구 결과들이 한정된 규모에서 수행되었거나 방법론적인 결함이 있어 바이어스(bias)를 유발할 소지가 있다.113) 따라서 AI-CAD가 실제 임상 현장에서 일반화할 수 있고(generalizable), 일관되게(consistent), 효율적인(efficient) 결과를 보일 것인지에 대한 충분한 추가 연구가 필요할 것으로 여겨진다. Hsu 등114)의 연구에서는 대규모 데이터로 구축하고 외부 검증(externally validated)한 고성능 AI 알고리즘을 독립적인 외부 집단에 적용하였는데, 특정 환자군에서는 다른 환자군이나 기존 문헌에 보고된 것과 비교하여 그 성능이 저하되는 것으로 나타났다. de Vries 등115)의 연구에서도 유방촬영 장비 및 소프트웨어에 따라 AI 성능에 차이를 보였으며, Yu 등116)의 메타분석에서도 약 81%의 AI 알고리즘이 외부 검증 시 성능이 저하되는 양상을 보였고, 약 24%에서는 상당한 수준의 성능 저하를 보였다. 아울러, AI-CAD를 검진 환경(screening setting) 혹은 진단 환경(diagnostic setting), 단독 판독(single reading) 혹은 이중 판독(double reading), 서로 다른 참조 순서(이차 판독[second-reading] 혹은 동시 판독[concurrent reading]) 등 다양한 판독 환경에서 각각 어떻게 적용할 수 있는지에 대해서도 검증이 필요하다. 특히 이러한 평가 시에는 최종적인 판정을 내리게 되는 영상의학과 의사의 판독 과정에 AI-CAD가 실질적으로 미치는 영향이 고려되어야 할 것이며, AI-CAD를 적용하는 데 드는 시간과 자원까지 면밀히 측정하여 반영해야 그 효율성에 대한 정확한 평가가 가능할 것이다.
또한, 현재까지의 AI가 유방영상을 판정하는 방식에는 실제 영상의학과 의사의 판독 과정을 완전히 반영하지 못하는 부분이 있음을 반드시 유념해야 한다. 특히, 영상의학과 의사가 유방영상을 판독할 때에는 여러 이전 검사 영상들과 비교하는 과정을 통해 희미하지만(subtle) 새로 생긴 중요 소견을 발견할 수도 있고, 반대로 오랜 기간 변화 없는 양성 소견들을 배제할 수도 있는데, 현재의 AI-CAD들은 대부분 이전 검사 소견을 고려하지 않은 결과를 제공하고 있다. 또한, 영상의학과 의사가 유방영상을 판독할 때에는 여러 다른 영상 기법에서 얻어진 소견들을 종합하여 판정을 내리는 것이 매우 중요하다. 특히 진단 목적으로 시행되는 유방촬영 영상은 초음파나 MRI 등 다른 검사 소견, 및 각 환자의 임상 정보와 이학적 소견들을 실시간으로 종합하여 최종 판정을 내리게 되는데, 현재의 AI-CAD는 이와 같이 서로 다른 종류의 데이터를 통합하는 작업을 수행할 수는 없다. 따라서 아직까지는 AI-CAD만으로 실제 임상 현장에서 영상의학과 의사의 역할을 대체할 수는 없고, 현재는 이를 보조하는 목적에 한해 승인되어 사용되고 있다.
한편, AI 기술이 의료 현장에서 보다 널리 활용되고 지속적으로 이용될 수 있기 위해서는 현재의 의료 체계 내에서 해당 기술에 대한 적절한 수가 인정 방안이 마련되어야 할 것이다. 전 세계적으로 의료 AI에 대한 보험 적용 문제가 중요한 이슈로 부상하고 있는데, 우리나라에서는 2023년 10월 보건복지부의 건강보험정책심의위원회를 통해 AI 의료기기 중에서는 처음으로 ‘자기공명영상을 활용한 인공지능 기반 허혈성 뇌졸중 유형 판별’ 솔루션에 건강보험 적용이 결정되었다. 다만 이는 평가가 완료될 때까지 ‘비급여’ 항목으로 분류되어 의료 기관에서는 이용액의 상한선을 두고 이를 제공할 수 있게 되었다. AI-CAD의 활발한 임상 도입과 의료 AI 산업의 발전을 위해 적극적인 의료보험 적용이 검토되어야 하는 한편, 해당 기술이 실제로 인구집단의 건강 수준을 향상시킬 수 있는지 충분한 의학적 검증이 함께 이루어져야 하겠으며, 이에 따라 합리적인 수준의 수가가 인정되어야 할 것이다.117) 따라서 전문가 집단과 관계 부서의 적극적인 협의가 필요할 것으로 생각된다.
AI를 실제 판독 업무에 도입하기 위해서는 윤리적, 법적 문제에 대한 고찰 또한 반드시 선행되어야 할 것이다. AI를 판독에 도입했을 때 가장 이상적인 시나리오에서는 영상의학과 의사가 독립적으로 영상을 판독하는 과정에 AI의 권고 사항을 올바르게 통합함으로써, AI가 더 나은 권고 사항을 제시하는 경우에는 이점을 취하되 그렇지 못한 경우에는 이를 적절히 무시할 수 있어야 할 것이다. 그런데 경우에 따라서는 판독자가 비판적으로 AI 결과를 판단하려 하지 않고 무심코 이를 따르려 하거나 과잉 의존하게 되는 자동화 바이어스(automation bias)가 발생할 소지가 있다. Dratsch 등118)의 연구에서는 영상의학과 의사의 경험도와 무관하게 AI가 틀린 판정을 제시했을 때 영상의학과 의사의 판독 성능이 저하되는 결과를 보였다. 따라서 AI의 판정을 올바른 방법으로 받아들이고 적용할 수 있도록 전문가 집단 내에서 깊은 이해와 주의가 필요하며, AI의 성능을 모니터링하고 관리할 수 있는 시스템과 질 관리 지표의 개발이 중요하다. 나아가 AI를 독립적인 판독자로 인정할 수 있을 것인지, AI의 분석 결과를 의무 기록에 제공해야 할 것인지를 비롯하여 AI 데이터의 활용 범위 및 이로 인해 야기될 수 있는 여러 법률적 파장에 대해서도 충분한 논의를 거쳐야 할 것이다. 궁극적으로 AI-CAD가 일상적인 업무에 완전히 도입되기 위해서는 검사를 받을 환자들부터 영상의학과 의사를 아우르는 모든 구성원이 합의할 수 있는 윤리적, 법률적 토대가 마련되어야 할 것이다.
지난 몇 년 동안 인공지능 기술은 급격하게 발전하였고, 초거대 인공지능 및 생성형 인공지능 서비스가 미국의 빅테크 기업을 중심으로 구축되었다. 특히 2022년 11월 말에 처음으로 등장한 ChatGPT는 올해 1월에 미국 의사면허 시험을 통과함으로써 의료계의 화두로 떠올랐는데, 이러한 생성형 AI는 유방영상 분야에서 다양한 역할을 수행할 수 있을 것으로 기대된다. 환자의 전자의무기록 정보를 요약하고, 영상의 적절성을 평가하며 영상의학과 의사와 상호작용이 가능한 CAD 시스템을 구축하고, 그 결과를 바탕으로 1차 판독문을 생성하거나 임상 의사의 의사 결정을 지원할 수 있을 것으로 예상된다. 또한, 향후에는 아직까지 보편화되지 않은 이전 영상 소견과의 비교, 서로 다른 영상 검사 기법들 간의 통합을 지원하는 AI 시스템이 개발되고, 개인의 유방암 위험도를 다각도로 분석하고 평가하는 시스템도 개발될 것으로 전망된다.
이와 같이 앞으로 유방영상에서 인공지능의 사용이 더욱 확대될 것이 예상됨에 따라, 임상 현장에서 AI의 최대 효용을 얻기 위해서는 영상의학과 의사와 AI의 역할을 명확하게 정의하는 것이 중요할 것이다. 예를 들어, 환자와 상호작용하거나 검사를 의뢰한 의사에게 자문을 제공하는 것, 영상 소견과 병리 소견의 부합 여부를 판단하는 것은 영상의학과 의사의 고유한 역할로 남아 있되 영상 검사의 트리지(triage)나 유방암 위험도 평가는 AI가 수행할 수 있을 것이며, 최종적인 영상 판정이나 유방 밀도 평가는 영상의학과 의사와 AI의 상호작용을 통해 이루어질 수 있을 것이다.119) 또한, 인공지능이 수행할 수 있는 역할 범위를 수용하기 위해서는 검사를 의뢰하는 의사들과 환자들을 대상으로 AI의 역할, 이점, 및 제한 사항에 대한 정확한 정보가 제공되어야 하며, 이에 대한 신뢰를 형성하는 것이 중요할 것으로 여겨진다. Lennox-Chhugani 등120)의 연구에서는 영국의 검진 대상 연령인 50세 이상의 여성을 대상으로 AI에 대한 인식을 조사한 결과, 약 50%의 여성이 판독 시 AI를 이용하는 것에 긍정적으로 응답한 것으로 나타났다. 따라서 AI의 본격적인 도입에 앞서, 환자들에게 AI가 유방영상에서 수행할 수 있는 역할에 대한 충분한 교육이 이루어져야 할 것으로 보인다.
최근 AI 관련 기술의 급격한 발전과 그 임상 적용에 대한 높은 관심도로 인해 유방영상의학 분야에서 AI를 활용한 연구가 빠르게 진행되고 있다. 그 결과 AI는 단독으로도 높은 정확도로 유방영상을 판정하고, 판독자의 민감도와 특이도를 향상시킬 수 있음이 입증되었다. 또한 AI를 활용하면 방대한 양의 검진 영상을 판독하는 데 인적 자원을 보다 효율적으로 활용할 수 있을 것으로 예상된다. 유방 밀도가 높은 경우 유방촬영술의 민감도가 저하되고 그 자체로도 유방암의 위험인자가 될 수 있는데, AI를 활용하면 유방 밀도를 보다 객관적으로 평가하고, 나아가 개인의 유방암 발생 위험도를 예측하는 데에도 전통적인 예측 모델보다 높은 성능을 보일 것으로 기대된다. 또한 AI는 유방 검진에서 유방촬영술에 보조적으로 사용되는 DBT, 초음파, 및 MRI에 있어서도 각각의 기법이 지닌 한계점을 극복하는 데 해결점을 제공할 수 있을 것이다.
현재까지는 AI가 임상 시험 수준을 넘어선 영역에서 활용되는 단계에까지 도달하지는 못했지만, 유방암 발병률 증가와 검진 프로그램의 확대로 인해 유방 전공 영상의학과 의사의 부족 문제가 심각한 상황에서 AI-CAD는 궁극적으로 유방 검진에 필수적이고 중요한 도구가 될 것으로 생각된다. 여러 연구에서 AI-CAD의 성능에 대한 긍정적인 결과가 보고되고 있긴 하지만, 실제 임상 현장에 도입되기 위해서는 다양한 판독 환경, 판독 방식, 참조 순서 등에서 AI-CAD의 일반화 가능성, 일관성, 및 효율성을 보장할 수 있는 임상적인 검증 결과가 다양한 전향 연구를 통해 입증되어야 할 것이며, 현재 진행 중인 여러 전향 연구들이 이러한 과정에 기여할 것으로 기대된다.121,122) 또한, 현재까지의 AI는 유방영상을 판정하는 방식에서 실제 영상의학과 의사의 판독 과정을 완전히 반영하지 못한다는 한계점을 이해해야 한다. 나아가, 검진 참여자와 의사들 간의 사회적 합의를 이끌어 낼 수 있는 윤리적, 법적 체계가 마련되어야 할 것이다. 미래에는 유방영상에서 AI의 사용이 더욱 확대될 것이 예상되므로 영상의학과 의사와 AI의 역할을 명확하게 정의하고, 검사를 의뢰하는 의사들과 환자들을 대상으로 AI의 역할, 이점, 및 제한 사항에 대한 정확한 정보를 제공하고 신뢰를 형성하는 것이 필요할 것이다.
No potential conflict of interest relevant to this article was reported.