رقابت GPT-4 با رادیولوژیست ها در شناسایی خطاها

دقت GPT-4 در شناسایی خطاها به دقت رادیولوژیست‌ها می‌رسد و زمان و هزینه‌ها را به طور قابل توجهی کاهش می‌دهد.

در یک پژوهش اخیرا منتشر شده در نشریه رادیولوژی، محققان به بررسی کارایی مدل زبانی GPT-4 در شناسایی و اصلاح خطاهای رایج در گزارش‌های رادیولوژی پرداختند و عملکرد، بهره‌وری زمان‌مند و بهینگی هزینه آن را در مقایسه با رادیولوژیست‌های انسانی تحلیل کردند.

عنوان پژوهش: پتانسیل GPT-4 برای تشخیص خطاها در گزارش‌های رادیولوژی و تأثیرات آن بر دقت گزارش‌دهی. منبع تصویر : Soloviova Liudmyla / Shutterstock

پیش‌زمینه

گزارش‌های رادیولوژی برای تشخیص‌های پزشکی دقیق اهمیت زیادی دارند، اما اغلب با مشکلاتی مانند عدم انسجام و خطاهای مکرر مواجه هستند. به‌طور معمول، دستیاران پزشک این گزارش‌ها را تهیه می‌کنند که سپس توسط رادیولوژیست‌های دارای گواهینامه هیئت بررسی می‌شود. این فرایند، هرچند ضروری است، به منابع زیادی نیاز دارد. چالش‌هایی مانند حجم کاری زیاد، محیط‌های بالینی پر فشار و مشکلات در سیستم‌های تشخیص گفتار منجر به بروز خطاهای مکرر، از جمله اشتباه در تعیین سمت و اشتباه در ثبت توضیحات می‌شود. GPT-4، مدل زبانی پیشرفته‌ ساخته شده توسط OpenAI، می‌تواند با استانداردسازی و تولید گزارش‌های رادیولوژی راه‌حل‌هایی ارائه دهد و در کاربردهای آموزشی برای بهبود دقت تشخیص نویدبخش بوده است. تحقیقات بیشتر برای اطمینان از قابل اعتماد بودن GPT-4 و ادغام مؤثر آن در شیوه‌های رادیولوژیکی ضروری است.

درباره این پژوهش

مطالعه گذشته‌نگر فعلی که تأییدیه اخلاقی دریافت کرده و به دلیل طراحی خاص خود از کسب رضایت آگاهانه معاف شده بود، هیچ اطلاعات شناسایی از بیماران را در اختیار GPT-4 قرار نداد. مطالعه در بیمارستان دانشگاه کُلن انجام شد و شامل ۲۰۰ گزارش رادیولوژی از رادیوگرافی و تصویربرداری مقطعی بود که به صورت تصادفی به دو گروه ۱۰۰ گزارشی صحیح و نادرست تقسیم شدند. خطاها توسط یک دستیار رادیولوژی به عمد وارد گروه نادرست شدند و به دسته‌های نقص، درج، اشتباهات املایی، اشتباه در سمت و سایر خطاها تقسیم شدند.

تیمی از شش رادیولوژیست با مقدار تجربه‌ متفاوت همراه با GPT-4 این گزارش‌ها را برای شناسایی خطاها ارزیابی کردند. طی این پژوهش از روش zero-shot prompting برای ارزیابی‌های GPT-4 استفاده شد و از آن خواسته شد تا بخش‌های یافته‌ها و برداشت‌ها از هر گزارش را برای منسجم بودن و خطاها بررسی کند. زمان لازم برای پردازش گزارش‌ها توسط GPT-4 نیز ثبت شد.

هزینه‌ها بر اساس توافق‌نامه‌های ملی کار در آلمان برای رادیولوژیست‌ها و هزینه استفاده به ازای هر توکن برای GPT-4 محاسبه شد. تحلیل‌های آماری از جمله نرخ‌ شناسایی خطا و زمان پردازش با استفاده از SPSS و Python انجام شد و عملکرد GPT-4 با رادیولوژیست‌های انسانی از طریق آزمون‌های توزیع نرمال مقایسه شد، که در آنها P<.05 بعنوان اهمیت آماری مشخص شده و اندازه‌های تاثیر توسط d کوهن اندازه‌گیری شده بود.

نتایج پژوهش

در ارزیابی دقیق شناسایی خطاها در گزارش‌های رادیولوژی، GPT-4 عملکردهای متنوعی در مقایسه با رادیولوژیست‌های انسانی نشان داد. اگرچه این مدل نتوانست از نظر شناسایی خطاها از بهترین رادیولوژیست ارشد پیشی بگیرد (شناسایی ۸۲.۷٪ از خطاها در مقایسه با ۹۴.۷٪ رادیولوژیست ارشد)، عملکرد آن به طور کلی مشابه با سایر رادیولوژیست‌های شرکت‌کننده بود. مطالعه نشان داد که هیچ تفاوت آماری معناداری در میانگین نرخ‌های شناسایی خطا بین GPT-4 و رادیولوژیست‌ها در ارزیابی‌های عمومی رادیولوژی، رادیوگرافی، تصویربرداری مقطعی (CT) و تصویربرداری پرتو مغناطیسی (MRI) وجود ندارد، مگر در موارد خاصی مانند اشتباه در سمت که عملکرد GPT-4 پایین‌تر بود.

علاوه بر این، توانایی GPT-4 در شناسایی اشتباهات سمت به طور قابل توجهی کمتر از رادیولوژیست برتر بود، با نرخ شناسایی ۷۸٪ در مقابل ۱۰۰٪. در سایر دسته‌های خطا، GPT-4 دقت مشابهی با رادیولوژیست‌ها نشان داد و هیچ کمبود مهمی در شناسایی خطاها مشاهده نشد. جالب است که GPT-4 و رادیولوژیست‌ها به طور گاه‌به‌گاه گزار‌ش‌ها را به عنوان خطا علامت‌گذاری کردند در حالی که خطا نبوده‌اند، هرچند این اتفاق به ندرت و بدون تفاوت‌های قابل توجه بین گروه‌ها بود.

میزان توافق نظر میان رادیولوژیست ها و GPT-4 از ضعیف تا قابل قبول متغیر بود که نشان‌دهنده تنوع در الگوهای شناسایی خطا در بین ارزیابان است. این موضوع چالش‌های شناسایی خطا به طور مداوم را در میان مفسران و تکنولوژی‌های مختلف برجسته می‌کند.

بهره وری زمانی جنبه‌ دیگری از این مطالعه بود. GPT-4 زمان بسیار کمتری برای بررسی ۲۰۰ گزارش نیاز داشت و این کار را در تنها ۰.۱۹ ساعت انجام داد، در مقایسه با بازه زمانی ۱.۴ تا ۵.۷۴ ساعت که توسط رادیولوژیست‌های انسانی صرف شد. سریع‌ترین رادیولوژیست به طور میانگین حدود ۲۵.۱ ثانیه برای خواندن هر گزارش زمان برد، در حالی که GPT-4 تنها ۳.۵ ثانیه طول کشید و نشان‌دهنده افزایش قابل توجه در سرعت پردازش است.

مطالعه نشان داد که میانگین هزینه کل برای بررسی ۲۰۰ گزارش رادیولوژی توسط شش منبع انسانی ۱۹۰.۱۷ دلار بود، از جمله هزینه‌های فردی که شامل ۱۵۶.۸۹ دلار برای پزشکان معالج و تا ۲۳۱.۸۵ دلار برای رادیولوژیست‌های ارشد بود. با تفاوت کاملا ملموسیGPT-4 همان کار را تنها با ۵.۷۸ دلار انجام داد. به طور مشابه، هزینه هر گزارش با GPT-4 به طور قابل توجهی کمتر بود و ۰.۰۳ دلار در مقایسه با ۰.۹۶ دلار توسط خوانندگان انسانی بود که GPT-4 را از نظر زمانی و هزینه به طور قابل توجهی مؤثرتر کرد.

نتیجه‌گیری‌ها

به طور خلاصه، این پژوهش توانایی GPT-4 در شناسایی خطاها در گزارش‌های رادیولوژی را بررسی کرد و عملکرد آن را با رادیولوژیست‌های انسانی مقایسه نمود. نتایج نشان داد که توانایی GPT-4 در شناسایی خطاها با توانایی انسانی بود و از نظر هزینه و زمان به طور استثنایی مؤثر است. با این حال، با وجود این مزایا، این پژوهش بر لزوم نظارت انسانی به دلیل مسایل قانونی و میزان دقت تأکید کرد.

منابع

اخبار و رویدادها

رقابت GPT-4 با رادیولوژیست ها در شناسایی خطاها

دیدگاهتان را بنویسید لغو پاسخ

نقش هوش هیجانی در رادیولوژی

رونمایی از کتابی که زندگی متخصصان برجسته رادیولوژی در سطح جهانی را گرامی می‌دارد.

ایلان ماسک از کاربران خواسته است تا تصاویر PET ،X-Ray و MRI را به چت‌بات هوش مصنوعی Grok ارسال کنند.