A Level of Chest X-Ray Nodule Detection Difficulty with and without Artifical Intelligence Based Automatic Detection Assist in Family Medicine Residents

Chiwoon Yoon; Dae Kyun Kim; Dong Hoon Kim

doi:10.21215/kjfp.2021.11.6.422

Korean J Fam Pract 2021; 11(6): 422-437 https://doi.org/10.21215/kjfp.2021.11.6.422

A Level of Chest X-Ray Nodule Detection Difficulty with and without Artifical Intelligence Based Automatic Detection Assist in Family Medicine Residents

Chiwoon Yoon, Dae Kyun Kim*, Dong Hoon Kim

Department of Family Medicine, The Catholic University of Korea, Incheon St. Mary’s Hospital, Incheon, Korea

Dae Kyun Kim
Tel: +82-32-280-6204, Fax: +82-32-280-5556
E-mail: bloves@naver.com
ORCID: https://orcid.org/0000-0002-8712-8394

Received: July 17, 2020; Revised: July 23, 2021; Accepted: August 22, 2021; Published online: December 20, 2021.

This is an open-access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted noncommercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract: Background: Chest x-rays are one of the most commonly used radiological studies, and one of the most common findings of chest x-rays at primary care facilities is lung nodules. Recently, artificial intelligence (AI) tools trained to find nodules in chest x-rays have improved significantly. This study aims to find if the level of difficulty can be lowered when detecting nodules in chest radiographic images using an AI tool for family medicine residents.
Methods: Five of the chest x-rays were randomly selected to create the survey. A survey e-mail was sent to 966 family medicine residents. A paired t-test was conducted to check the difference in scores before and after the AI-based reading was provided, and a paired t-test was separately conducted for each year. A one-way analysis of variance (ANOVA) and Scheffe’s post hoc test were conducted to analyze the contribution scores of AI-based reading.
Results: In the paired t-test, the difficulty level decreased after the AI-based reading was provided compared to before the AI-based reading was provided. Furthermore, the difference was statistically significant in all chest x-rays. In the one-way ANOVA, the AI-based contribution score was significantly different according to the difficulty level as F=5.322 (P<0.001). The Scheffe test confirmed that the AI-based contribution was higher in difficulty level four than in levels one and two.
Conclusion: AI-based reading can reduce the level of difficulty when family medicine residents read chest radiography images. AI-based reading is more helpful when reading difficult chest radiographic images.; Keywords: Artificial Intelligence; Chest X-Ray; Lung Nodule; Family Medicine Resident; Surveys

서 론

흉부 방사선 영상은 가장 흔히 사용되는 영상의학적 검사 중 하나이다.¹⁾ 일차의료 현장에서 흉부 방사선 영상을 통하여 확인할 수 있는 흔한 소견 중 하나가 폐 결절이다. 폐암은 흉부 방사선 영상에서 폐 결절 형태로 존재할 수 있으므로, 폐 결절 소견의 임상적 중요성은 매우 높다.²⁾

하지만 실제로 흉부 방사선 영상에서 폐 결절을 발견하기는 쉽지 않다. 일부 연구에서는 흉부 방사선 영상을 판독할 때 후향적으로 포착 가능했던 폐암을 놓치는 비율이 19%로 확인되었다.^3,4) 1 cm 미만의 결절은 흉부 방사선 영상에서 50%만 발견되어 위음성의 가능성이 높으며,¹⁾ 반대로 폐문의 음영을 병변으로 오인하는 위양성도 발생할 수 있다.⁵⁾ 영상의학과 의사의 흉부 방사선 영상 판독 시 폐 결절 포착률은 81.4%로 확인되었으며,⁶⁾ 전문적인 영상의학 수련을 받지 않은 의사들에게 있어서 폐 결절 발견율은 더욱 낮을 것으로 짐작할 수 있다.

임상에서 인공지능은 오래전부터 사용되어 왔으며, 최근에는 영상의학 판독을 보조하는 인공지능을 개발하는 수준에 이르렀다. 현재 흉부 방사선 영상 및 흉부 단층촬영, 유방촬영 판독을 보조하는 다양한 인공지능이 개발되고 있으며, 이 중 흉부 방사선 영상 판독을 보조하기 위해 학습된 인공지능은 영상의학과 전문의는 물론 타과 전문의 및 전공의에게서 판독률, 민감도를 유의미하게 향상시키는 효과를 이끌어내었다.^6-9) 특히 크기가 작은 폐 결절을 포착할 때 인공지능이 흉부 방사선 영상 판독의 정확도 향상에 도움이 되는 것으로 밝혀졌다.¹⁰⁾

현재 대한민국의 가정의학과 수련 과정은 병원마다 차이는 있으나, 대다수의 병원에서는 1년 차 기간에는 입원 환자 관리 위주의 수련을 받으며 2년 차가 되면 외래 환자 처치와 관련된 교육을 시작한다. 2년 차가 되어 외래 환자의 흉부 방사선 영상을 촬영하고 바로 결과를 확인하여 결정을 내려야 하는 경우, 영상의학과 전문의의 판독 및 다른 지원 없이 결정해야 한다는 점에 있어 전공의의 부담이 가중될 수 있다. 이와 같은 경우 흉부 방사선 영상 판독을 보조하는 인공지능을 통하여 전공의의 부담을 경감할 가능성도 있다. 하지만 현재까지 영상의학과 전문의, 영상의학과 전공의, 그리고 흉부외과 전문의를 대상으로 인공지능이 판독에 미치는 영향을 연구한 바는 있으나,⁸⁾ 가정의학과 전공의를 대상으로 한 연구는 없다.

본 연구의 목적은 가정의학과 전공의를 대상으로, 인공지능 기반 판독이 실제로 흉부 방사선 영상에서 결절 판독 시 체감 난이도를 낮출 수 있는지 확인하는 것이다.

방 법

연구 대상자는 대한가정의학회 회원 중 2019년 기준 전공의로 등록된 966명이었으며, 대한가정의학회의 온라인 이메일 발송 대행 시스템을 이용하여 연구 대상자들에게 발송되었다. 이 온라인 설문 조사 기간은 2020년 2월 6일부터 2020년 2월 28일이었다. 인터넷 설문 응답은 구글 설문지^®를 이용하여 수집되었다(Appendix 1).

흉부 방사선 영상은 Japanese Society of Radiological Technology (JSRT)의 공개 영상을 사용하였다. JSRT의 흉부 방사선 영상은 결절을 포함한 영상과 결절이 없는 영상으로 구분되어 있으며, 결절을 포함한 영상에 대해서는 영상의학과 전문의가 1점에서부터 5점 사이로 점수화한 난이도 점수가 첨부되어 있다. 각 결절에 대하여 컴퓨터 단층촬영을 통하여 측정한 결절의 크기와 조직검사 결과도 첨부되어 있다. 결절을 포함한 흉부 방사선 영상 중에서 점수별로 1장씩 총 5장의 흉부 방사선 영상을 무작위로 선택하였다. 선택된 흉부 방사선 영상을 루닛 인사이트^® (Lunit, Seoul, Korea)의 2019년 9월 알고리즘에 입력하여 판독 결과를 획득하였다.

설문지는 응답 대상자의 응답 시점 전공의 수련 연차를 선택하는 1개의 질문 및 5개의 흉부 방사선 영상과 판독 결과에 대한 15개의 질문으로 구성하여 총 16개 문항으로 이루어졌다. 전공의 수련 연차는 1년 차, 2년 차, 3년 차 중 선택하도록 하였다. 그리고 흉부 방사선 영상을 제시하고 해당 영상에서 결절을 찾는 난이도를 1점부터 5점 사이에서 선택하도록 하였다. 난이도는 1점을 가장 쉬운 것으로, 5점을 가장 어려운 것으로 하였다. 이후 동일한 흉부 방사선 영상과 인공지능 기반 판독 결과를 함께 제시하였고, 인공지능 기반 판독 결과가 제시되었을 때 해당 영상에서 결절을 찾는 난이도를 1점부터 5점 사이에서 선택하도록 하였다. 그리고 해당 영상에서 인공지능 기반 판독이 기여한 정도를 1점은 가장 큰 도움이 된 것으로, 5점은 전혀 도움이 되지 않은 것으로 하여 1점부터 5점 사이에서 선택하도록 하였다. 5개 흉부 엑스선 영상에 대해 모두 동일한 설문을 진행하였다.

통계학적 분석은 인공지능 기반 판독 제공 전후의 점수 차이를 알아보기 위하여 대응표본 t 검정을 실시하였다. 인공지능 기반 판독의 기여도 점수를 분석하기 위하여 일원분산분석 및 Scheffe 사후검정을 실시하였다. 통계 분석은 IBM SPSS Statistics ver. 20.0 for Windows (IBM Co., Armonk, NY, USA) 프로그램을 사용하였으며 통계적 유의 수준은 0.05 이하로 하였다. 본 연구는 의학연구윤리위원회의 승인 하에 진행하였다.

결 과

설문 응답자들의 특성을 살펴보면 응답자 총 63명 중 전공의 1년 차는 24명(39.1%), 전공의 2년 차는 17명(26.6%), 3년 차는 22명(34.4%)으로 확인되었다. 설문의 응답률은 2019년 대한가정의학회에 등록된 전공의가 966명임을 고려하였을 때 6.52%였다.

먼저 전체 응답을 대상으로 대응표본 t 검정을 실시하여 인공지능 기반 판독 제공 전후의 체감 난이도 점수를 비교하였다. 난이도 1부터 5까지의 흉부 방사선 영상에서 모두 인공지능 기반 판독 제공 전 점수보다 제공 후 점수가 높아졌으며, 그 차이는 5개 난이도 모두에서 통계적으로 유의하였다(Table 1).

Table 1

Subjective score of chest x-ray difficulty in detecting lung nodule before and after AI data is provided in whole responders (N=63)

Level	Resident year	Before AI-based reading		After AI-based reading		t	P-value
Level	Resident year	M^b	SD	M	SD	t	P-value
1^a	Total	4.10	0.82	4.79	0.48	-6.349	<0.001
	1st year	4.04	0.95	4.83	0.48	-3.800	0.001
	2nd year	4.12	0.70	4.76	0.44	-5.416	<0.001
	3rd year	4.14	0.77	4.77	0.53	-3.130	0.005
2	Total	3.76	0.84	4.32	0.80	-4.577	<0.001
	1st year	3.79	1.02	4.46	0.59	-3.391	0.003
	2nd year	3.59	0.62	4.06	1.09	-1.725	0.104^c
	3rd year	3.86	0.77	4.36	0.73	-2.730	0.013
3	Total	3.35	1.18	4.11	1.00	-5.035	<0.001
	1st year	3.38	1.41	4.25	0.99	-3.715	0.001
	2nd year	3.24	1.30	4.00	0.87	-2.626	0.018
	3rd year	3.41	0.80	4.05	1.13	-2.309	0.031
4	Total	2.57	1.10	3.46	1.13	-5.663	<0.001
	1st year	2.63	1.24	3.92	1.02	-4.630	<0.001
	2nd year	2.47	1.12	2.82	1.19	-1.461	0.163^c
	3rd year	2.59	0.96	3.45	1.01	-3.472	0.002
5	Total	2.98	1.20	3.54	1.06	-3.798	<0.001
	1st year	3.29	1.23	3.67	1.13	-1.519	0.142^c
	2nd year	2.71	1.10	3.12	1.17	-1.514	0.150^c
	3rd year	2.86	1.21	3.73	0.83	-3.600	0.002

M, mean; SD, standard deviation; JSRT, Japanese Society of Radiological Technology.

^aLevel of chest x-ray is equal to the JSRT score of each chest x-ray. For example, JSRT score of level 1 chest x-ray is 1. ^bThe score ranges from 1 to 5, and higher score means low difficulty in detecting nodule on chest x-ray. ^cDenote statistical significance at P<0.05.

1년 차의 응답을 대상으로 대응표본 t 검정을 실시한 결과, 난이도 1부터 난이도 4까지의 흉부 방사선 영상에서 인공지능 기반 판독 제공 전 점수보다 제공 후 점수가 통계적으로 유의미하게 상승하였다(Table 1).

2년 차의 응답을 대상으로 대응표본 t 검정을 실시한 결과, 난이도 1과 난이도 4의 흉부 방사선 영상에서 인공지능 기반 판독 제공 전 점수보다 제공 후 점수가 통계적으로 유의미하게 상승하였다(Table 1).

3년 차의 응답을 대상으로 대응표본 t 검정을 실시한 결과, 난이도 1부터 5까지의 흉부 방사선 영상에서 인공지능 기반 판독 제공 전 점수보다 제공 후 점수가 높아졌으며, 그 차이는 5개 난이도 모두에서 통계적으로 유의하였다(Table 1).

인공지능 기반 판독의 기여도 점수가 흉부 방사선 영상 난이도에 따라 차이가 있는지 알아보기 위해 일원분산분석을 실시하였다. F값을 살펴보면 F=5.322 (P<0.001)로 나타나 인공지능 기반 판독 기여도 점수는 난이도에 따라 유의한 차이가 있다고 할 수 있다. Scheffe 사후검정을 실시한 결과, 난이도 1, 2보다 난이도 4의 기여도 점수가 통계적으로 유의미하게 낮은 것으로 확인되었다(Table 2).

Table 2

AI’s contribution score according to the level of difficulty (N=63)

	Level	M	SD	F	P-value	Scheffe
AI’s contribution	1^a	2.68	1.08	5.322	<0.001	a, b>d
	2^b	2.63	1.04
	3^c	2.38	1.05
	4^d	1.92	0.94
	5^e	2.25	1.20

M, mean; SD, standard deviation.

ANOVA and Scheffe’s post hoc test were used.

고 찰

본 연구는 가정의학과 전공의를 대상으로 인공지능 기반 판독이 흉부 방사선 영상 판독에 미치는 영향을 확인한 첫 연구이다. 전체 응답을 대상으로 시행한 대응표본 t 검정 결과 모든 난이도의 흉부 방사선 영상에서 인공지능 기반 판독 제공 전과 비교하여 제공 후 난이도가 하락하였다. 이는 인공지능의 보조를 통하여 의사의 흉부 방사선 영상 판독 능력이 향상되었던 타 연구 결과와도 부합한다.^6-9)

이전 연구에서는 영상의학과 전문의와 비 영상의학과 전문의 및 영상의학과 전공의를 대상으로 인공지능 기반 판독이 제공된 흉부 방사선 영상 판독 시 본 연구와 유사한 체감 난이도 1부터 5까지의 점수 체계를 사용하여 체감 난이도의 하락을 확인한 바 있다.⁸⁾ 또 다른 연구에서는 인공지능 기반 판독이 제공될 경우 더 높은 확률로 결절을 찾아내는 것으로 확인되었는데,⁶⁾ 이 역시 본 연구와 부합하는 결과라 할 수 있다.

흉부 방사선 영상 결절 포착 능력이 향상됨에 따라 가정의학과 의사는 적절한 시점에 흉부 단층촬영 등의 추가적인 평가를 시행하거나 타 진료과에 의뢰할 수 있으며, 이로서 일차의료 요소 중 포괄성과 조정성의 향상에 이바지할 수 있다.

1년 차(n=24)의 응답에서는 난이도 1부터 4까지 인공지능 기반 판독 제공 전 점수보다 제공 후 점수가 높아졌다고 할 수 있으며 난이도 5에서는 차이가 없는 것으로 나타났다. 2년 차(n=17)의 응답에서는 난이도 1, 3단계에서만 유의미한 난이도 하락을 보였다. 3년 차(n=22)의 응답에서는 모든 난이도에서 통계적으로 유의미한 난이도 하락을 보였다. 연차별로 나누어 분석한 결과 일부 연차에서 특정 흉부 방사선 영상의 난이도 하락은 통계적으로 유의미하지 않았다. 이는 적은 응답자 숫자에 기인하였을 가능성이 있다.

또한 예상과 다르게 난이도 4에서보다 난이도 5에서 인공지능 기반 판독의 기여도 점수가 높았으며, 이는 난이도 4에서보다 난이도 5에서의 인공지능 기반 판독의 기여도가 더 낮았음을 의미한다. 이는 응답자들이 난이도 5의 흉부 방사선을 판독할 때, 육안상 비교적 쉽게 확인되는 폐 우하엽의 무기폐 병변이 교란변수로 작용하여 본 연구에서 찾아내도록 요구한 좌상엽의 결절성 병변과 혼동한 데서 기인하였을 수 있다. 또한, 본 연구에 참여한 일반의들이 체감한 영상별 난이도가 JSRT 데이터를 난이도별로 분류한 영상의학과 전문의들의 관점과는 다를 가능성도 있다.

본 연구의 한계점은 다음과 같다. 설문조사 대상자 966명 중 응답자는 63명(6.52%)으로 낮은 응답률을 기록하였다. 이는 일차적으로는 본 연구를 위한 설문에 다수의 흉부 방사선 영상이 포함된 만큼, 방사선 영상 판독과 설문 응답에 긴 시간과 집중력이 소요된다는 문제점에서 기인하였을 것으로 판단된다. 한편으로는 메일을 휴대폰으로 확인하는 것이 대세가 된 상황에서 설문을 위해 컴퓨터를 통한 접속을 권고한 것이 장벽으로 작용하였을 수 있다.

컴퓨터를 사용하여 설문조사에 응할 것을 권고하였으나 일부 응답자가 휴대폰으로 설문조사에 응하였을 가능성을 배제할 수 없다. 따라서 흉부 방사선 영상의 정확한 판독이 곤란하였을 수 있다. 컴퓨터를 사용하여 설문조사에 응하였더라도 해당 컴퓨터의 모니터 상태 및 조명 등의 여건에 따라 정확한 판독이 곤란하였을 가능성이 있다. 일반적으로 병원의 영상처리 시스템에서 흉부 방사선 영상을 판독할 때는 명암 대비를 조절할 수 있지만, 설문조사에 사용된 흉부 방사선 영상은 명암대비 조절이 곤란하였으므로, 실제보다 판독 난이도가 높아졌을 수 있다.

판독 난이도는 1에서 5까지로, JSRT 흉부 방사선 영상의 판독 난이도를 점수화하였던 것과 같은 점수 체계를 적용하였다. 하지만 JSRT 데이터는 영상의학과 전문의가 판독하였던 만큼, 같은 점수에서도 영상의학과 전문의와 일반의의 체감 난이도가 다를 수 있다.

본 연구에서는 인공지능 기반 영상 판독이 전반적으로 가정의학과 전공의의 흉부 방사선 영상 판독에 있어 난이도를 낮출 수 있다는 결론이 도출되었으나, 총응답자 수가 63명으로 적었으며, 적은 수의 흉부 방사선 영상을 사용하였다는 한계가 있다. 또한 선행 연구들과는 달리 응답자들이 구체적인 병변 위치를 선택할 수 없었고 체감 난이도 점수만을 선택할 수 있었던 점도 한계이다. 추후 민감도 및 특이도 분석을 포함한, 더 많은 흉부 방사선 영상을 이용한 더 큰 규모의 연구가 필요할 것으로 판단된다.

결론적으로, 인공지능 기반 판독 제공 전후의 점수를 비교할 경우, 모든 난이도에서 인공지능 기반 판독 제공 이후에 통계적으로 유의하게 체감 난이도가 난이도가 낮아졌다. 따라서 가정의학과 전공의가 흉부 방사선 영상을 판독할 때 인공지능 기반 판독 제공이 도움이 될 가능성이 높다고 할 수 있다. 인공지능 기반 판독 데이터의 기여도 점수는 난이도 1, 2단계에 비하여 난이도 4단계에서 통계학적으로 유의미하게 낮았다. 따라서 판독 난이도가 낮은 흉부 방사선 영상보다는 판독 난이도가 높은 흉부 방사선 영상을 판독할 때 인공지능 기반 판독이 더욱 도움이 된다고 할 수 있다.

CONFLICT OF INTEREST: No potential conflict of interest relevant to this article was reported.

References

Brogdon BG, Kelsey CA, Moseley RD Jr. Factors affecting perception of pulmonary lesions. Radiol Clin North Am 1983; 21: 633-54.
Li X, Shen L, Luo S. A solitary feature-based lung nodule detection approach for chest x-ray radiographs. IEEE J Biomed Health Inform 2018; 22: 516-24.
Quekel LG, Kessels AG, Goei R, van Engelshoven JM. Miss rate of lung cancer on the chest radiograph in clinical practice. Chest 1999; 115: 720-4.
McWilliams A, Lam B, Sutedja T. Early proximal lung cancer diagnosis and treatment. Eur Respir J 2009; 33: 656-65.
Monnier-Cholley L, Carrat F, Cholley BP, Tubiana JM, Arrivé L. Detection of lung cancer on radiographs: receiver operating characteristic analyses of radiologists', pulmonologists', and anesthesiologists' performance. Radiology 2004; 233: 799-805.
Schalekamp S, van Ginneken B, Koedam E, Snoeren MM, Tiehuis AM, Wittenberg R, et al. Computer-aided detection improves detection of pulmonary nodules in chest radiographs beyond the support by bone-suppressed images. Radiology 2014; 272: 252-61.
MacMahon H. Improvement in detection of pulmonary nodules: digital image processing and computer-aided diagnosis. Radiographics 2000; 20: 1169-77.
Nam JG, Park S, Hwang EJ, Lee JH, Jin KN, Lim KY, et al. Development and validation of deep learning-based automatic detection algorithm for malignant pulmonary nodules on chest radiographs. Radiology 2019; 290: 218-28.
Xu Y, Ma D, He W. Assessing the use of digital radiography and a real-time interactive pulmonary nodule analysis system for large population lung cancer screening. Eur J Radiol 2012; 81: e451-6.
Meziane M, Obuchowski NA, Lababede O, Lieber ML, Philips M, Mazzone P. A comparison of follow-up recommendations by chest radiologists, general radiologists, and pulmonologists using computer-aided detection to assess radiographs for actionable pulmonary nodules. AJR Am J Roentgenol 2011; 196: W542-9.

This Article

Author ORCID Information

Chiwoon Yoon
https://orcid.org/0000-0001-9493-4637
Dae Kyun Kim
https://orcid.org/0000-0002-8712-8394
Dong Hoon Kim
https://orcid.org/0000-0002-9909-1314

Services

Export Citation for this Article

Social Network Service

This Article

Archives