دقت GPT-4 در شناسایی خطاها به دقت رادیولوژیستها میرسد و زمان و هزینهها را به طور قابل توجهی کاهش میدهد.
در یک پژوهش اخیرا منتشر شده در نشریه رادیولوژی، محققان به بررسی کارایی مدل زبانی GPT-4 در شناسایی و اصلاح خطاهای رایج در گزارشهای رادیولوژی پرداختند و عملکرد، بهرهوری زمانمند و بهینگی هزینه آن را در مقایسه با رادیولوژیستهای انسانی تحلیل کردند.
پیشزمینه
گزارشهای رادیولوژی برای تشخیصهای پزشکی دقیق اهمیت زیادی دارند، اما اغلب با مشکلاتی مانند عدم انسجام و خطاهای مکرر مواجه هستند. بهطور معمول، دستیاران پزشک این گزارشها را تهیه میکنند که سپس توسط رادیولوژیستهای دارای گواهینامه هیئت بررسی میشود. این فرایند، هرچند ضروری است، به منابع زیادی نیاز دارد. چالشهایی مانند حجم کاری زیاد، محیطهای بالینی پر فشار و مشکلات در سیستمهای تشخیص گفتار منجر به بروز خطاهای مکرر، از جمله اشتباه در تعیین سمت و اشتباه در ثبت توضیحات میشود. GPT-4، مدل زبانی پیشرفته ساخته شده توسط OpenAI، میتواند با استانداردسازی و تولید گزارشهای رادیولوژی راهحلهایی ارائه دهد و در کاربردهای آموزشی برای بهبود دقت تشخیص نویدبخش بوده است. تحقیقات بیشتر برای اطمینان از قابل اعتماد بودن GPT-4 و ادغام مؤثر آن در شیوههای رادیولوژیکی ضروری است.
درباره این پژوهش
مطالعه گذشتهنگر فعلی که تأییدیه اخلاقی دریافت کرده و به دلیل طراحی خاص خود از کسب رضایت آگاهانه معاف شده بود، هیچ اطلاعات شناسایی از بیماران را در اختیار GPT-4 قرار نداد. مطالعه در بیمارستان دانشگاه کُلن انجام شد و شامل ۲۰۰ گزارش رادیولوژی از رادیوگرافی و تصویربرداری مقطعی بود که به صورت تصادفی به دو گروه ۱۰۰ گزارشی صحیح و نادرست تقسیم شدند. خطاها توسط یک دستیار رادیولوژی به عمد وارد گروه نادرست شدند و به دستههای نقص، درج، اشتباهات املایی، اشتباه در سمت و سایر خطاها تقسیم شدند.
تیمی از شش رادیولوژیست با مقدار تجربه متفاوت همراه با GPT-4 این گزارشها را برای شناسایی خطاها ارزیابی کردند. طی این پژوهش از روش zero-shot prompting برای ارزیابیهای GPT-4 استفاده شد و از آن خواسته شد تا بخشهای یافتهها و برداشتها از هر گزارش را برای منسجم بودن و خطاها بررسی کند. زمان لازم برای پردازش گزارشها توسط GPT-4 نیز ثبت شد.
هزینهها بر اساس توافقنامههای ملی کار در آلمان برای رادیولوژیستها و هزینه استفاده به ازای هر توکن برای GPT-4 محاسبه شد. تحلیلهای آماری از جمله نرخ شناسایی خطا و زمان پردازش با استفاده از SPSS و Python انجام شد و عملکرد GPT-4 با رادیولوژیستهای انسانی از طریق آزمونهای توزیع نرمال مقایسه شد، که در آنها P<.05 بعنوان اهمیت آماری مشخص شده و اندازههای تاثیر توسط d کوهن اندازهگیری شده بود.
نتایج پژوهش
در ارزیابی دقیق شناسایی خطاها در گزارشهای رادیولوژی، GPT-4 عملکردهای متنوعی در مقایسه با رادیولوژیستهای انسانی نشان داد. اگرچه این مدل نتوانست از نظر شناسایی خطاها از بهترین رادیولوژیست ارشد پیشی بگیرد (شناسایی ۸۲.۷٪ از خطاها در مقایسه با ۹۴.۷٪ رادیولوژیست ارشد)، عملکرد آن به طور کلی مشابه با سایر رادیولوژیستهای شرکتکننده بود. مطالعه نشان داد که هیچ تفاوت آماری معناداری در میانگین نرخهای شناسایی خطا بین GPT-4 و رادیولوژیستها در ارزیابیهای عمومی رادیولوژی، رادیوگرافی، تصویربرداری مقطعی (CT) و تصویربرداری پرتو مغناطیسی (MRI) وجود ندارد، مگر در موارد خاصی مانند اشتباه در سمت که عملکرد GPT-4 پایینتر بود.
علاوه بر این، توانایی GPT-4 در شناسایی اشتباهات سمت به طور قابل توجهی کمتر از رادیولوژیست برتر بود، با نرخ شناسایی ۷۸٪ در مقابل ۱۰۰٪. در سایر دستههای خطا، GPT-4 دقت مشابهی با رادیولوژیستها نشان داد و هیچ کمبود مهمی در شناسایی خطاها مشاهده نشد. جالب است که GPT-4 و رادیولوژیستها به طور گاهبهگاه گزارشها را به عنوان خطا علامتگذاری کردند در حالی که خطا نبودهاند، هرچند این اتفاق به ندرت و بدون تفاوتهای قابل توجه بین گروهها بود.
میزان توافق نظر میان رادیولوژیست ها و GPT-4 از ضعیف تا قابل قبول متغیر بود که نشاندهنده تنوع در الگوهای شناسایی خطا در بین ارزیابان است. این موضوع چالشهای شناسایی خطا به طور مداوم را در میان مفسران و تکنولوژیهای مختلف برجسته میکند.
بهره وری زمانی جنبه دیگری از این مطالعه بود. GPT-4 زمان بسیار کمتری برای بررسی ۲۰۰ گزارش نیاز داشت و این کار را در تنها ۰.۱۹ ساعت انجام داد، در مقایسه با بازه زمانی ۱.۴ تا ۵.۷۴ ساعت که توسط رادیولوژیستهای انسانی صرف شد. سریعترین رادیولوژیست به طور میانگین حدود ۲۵.۱ ثانیه برای خواندن هر گزارش زمان برد، در حالی که GPT-4 تنها ۳.۵ ثانیه طول کشید و نشاندهنده افزایش قابل توجه در سرعت پردازش است.
مطالعه نشان داد که میانگین هزینه کل برای بررسی ۲۰۰ گزارش رادیولوژی توسط شش منبع انسانی ۱۹۰.۱۷ دلار بود، از جمله هزینههای فردی که شامل ۱۵۶.۸۹ دلار برای پزشکان معالج و تا ۲۳۱.۸۵ دلار برای رادیولوژیستهای ارشد بود. با تفاوت کاملا ملموسیGPT-4 همان کار را تنها با ۵.۷۸ دلار انجام داد. به طور مشابه، هزینه هر گزارش با GPT-4 به طور قابل توجهی کمتر بود و ۰.۰۳ دلار در مقایسه با ۰.۹۶ دلار توسط خوانندگان انسانی بود که GPT-4 را از نظر زمانی و هزینه به طور قابل توجهی مؤثرتر کرد.
نتیجهگیریها
به طور خلاصه، این پژوهش توانایی GPT-4 در شناسایی خطاها در گزارشهای رادیولوژی را بررسی کرد و عملکرد آن را با رادیولوژیستهای انسانی مقایسه نمود. نتایج نشان داد که توانایی GPT-4 در شناسایی خطاها با توانایی انسانی بود و از نظر هزینه و زمان به طور استثنایی مؤثر است. با این حال، با وجود این مزایا، این پژوهش بر لزوم نظارت انسانی به دلیل مسایل قانونی و میزان دقت تأکید کرد.
منابع
- GPT-4 matches radiologist accuracy in spotting errors, cuts time and costs dramatically
- Roman Johannes Gertz ,Thomas Dratsch, Alexander Christian Bunck, et al. Potential of GPT-4 for Detecting Errors in Radiology Reports: Implications for Reporting Accuracy, Radiology (2024), DOI – 10.1148/radiol.232714