Лента новостей → Устройства на основе искусственного интеллекта значительно различаются в области выявления рака легких.
Согласно исследованию, опубликованному в журнале Radiology , в ходе прямого сравнения семь коммерческих устройств на основе искусственного интеллекта продемонстрировали существенную вариативность в своей способности выявлять рак легких на рентгеновских снимках грудной клетки.
Полученные результаты выявляют клинически значимые различия по всем ключевым показателям эффективности, включая чувствительность, специфичность и положительную прогностическую ценность, и поднимают вопросы о том, как следует выбирать устройства с искусственным интеллектом для внедрения, отметили ведущий автор исследования Ахмед Майтер, доктор медицинских наук, из больничного комплекса Sheffield Teaching Hospitals NHS Foundation Trust в Великобритании, и его коллеги.
«Отсутствие информации о сравнительной эффективности может привести к выбору менее качественных устройств, что может повлечь за собой нерациональное использование ресурсов, негативно повлиять на клинические процессы и затормозить развитие данной области», — написали авторы.
В сфере радиологии наблюдается растущая концентрация устройств с искусственным интеллектом, и сейчас на рынке представлено более 300 наименований. Выбор между различными устройствами для схожих целей становится все более сложной задачей, отмечают исследователи. Эффективный выбор требует понимания того, как устройства работают в целевых группах пациентов и клинических условиях, а также того, как различаются их характеристики, однако сравнительные данные по-прежнему ограничены, добавили они.
Чтобы восполнить этот пробел, исследователи разработали набор данных из 5235 рентгеновских снимков в передне-задней проекции, полученных от 5235 пациентов по любым показаниям в одном британском центре в период с июля 2020 года по февраль 2021 года. Средний возраст пациентов составлял 60 лет (53,4% женщин; 79,4% белых). Подтвержденный рак был выявлен у 1,4% пациентов с видимой опухолью на рентгеновском снимке.
Группа исследователей протестировала на каждом рентгеновском аппарате устройства семи производителей: Annalise Enterprise CXR (Harrison.ai, Австралия), ChestView (Gleamer, Франция), InferRead DR Chest (InferVision, Китай), TechCare Chest (Milvue, Франция), ChestEye (Oxipit, Литва), qXR (Qure.ai, Индия) и Rayscape CXR (Rayscape, Румыния).

Примеры фрагментов вторичного изображения. Они носят иллюстративный характер и не подразумевают превосходства или неполноценности какого-либо устройства. (A) Рентгенограмма в передне-задней проекции у 46-летней пациентки. Устройство правильно идентифицировало узел в правом нижнем отделе легкого, расположенный ниже правой половины диафрагмы, и лимфаденопатию корня легкого. (B) Рентгенограмма в передне-задней проекции у 86-летней пациентки с классическим признаком «Золотой S», указывающим на рак. Три устройства не выявили никаких изменений. (C) Результат работы одного устройства для той же рентгенограммы, что и в B. Устройство обвело контуром область патологии, но ошибочно обозначило ее как сегментарный коллапс, и в результате нет других элементов, которые могли бы вызвать подозрение на рак. (D) Рентгенограмма в передне-задней проекции у 60-летнего пациента — случай подтвержденного рака легкого, который впоследствии не был признан видимым. Устройство выявило множество ложноположительных патологий. (E) Рентгенограмма в передне-задней проекции у 77-летней пациентки с двумя узлами в правом нижнем отделе легкого. Прибор ошибочно обозначил патологию как инфекцию — диагностический термин, который может неверно повлиять на клиническое лечение. (F) Рентгенограмма в передне-задней проекции у 77-летней пациентки с опухолью в правом корне легкого. Большая часть легких была помечена прибором, при этом наблюдается чрезмерное перекрытие патологий, что прагматически представляет собой неверный результат. Все показанные аннотации были созданы приборами. LL = поражение легкого, LO = легочное затемнение, PO = плевральное другое, TBC = туберкулез.РСНАСогласно результатам, площадь под кривой рабочей характеристики приемника варьировалась от 0,80 до 0,94 для разных устройств. Чувствительность колебалась от 20,8% до 77,8%, специфичность — от 58,9% до 98,4%, а положительная прогностическая ценность — от 1,5% до 28,4%, при этом значимые различия наблюдались в 39 из 44 попарных сравнений. Кроме того, результаты классификации устройств показали минимальное соответствие, с коэффициентом Каппа Флейсса 0,24. По сравнению с заключениями радиологов, три устройства обнаружили больше опухолей, а четыре — меньше, в то время как количество дополнительных ложноположительных результатов обнаружения опухолей варьировалось от 10 до 2039.
«По сравнению с заключениями рентгенологов, три устройства помогли выявить больше злокачественных опухолей, в то время как остальные четыре устройства помогли выявить меньше опухолей, что указывает на то, что некоторые устройства могут принести больше пользы в диагностических процессах, чем другие», — написала группа исследователей.
Исследователи пришли к выводу, что в будущих исследованиях следует сравнить влияние различных устройств на точность диагностики и поведение рентгенологов при составлении отчетов, результаты лечения пациентов и качество оказания медицинской помощи.
В сопроводительной редакционной статье Корнелия Шефер-Прокоп, доктор медицинских наук, и Стивен Шалекамп, доктор медицинских наук, оба из Медицинского центра Университета Радбоуд в Неймегене, Нидерланды, написали, что исследование иллюстрирует важность, но также и сложности оценки производительности различных инструментов искусственного интеллекта.
«Хотя важно понимать, что производительность продуктов на основе искусственного интеллекта сильно варьируется, не менее важно проанализировать, чем именно отличаются инструменты и каковы основные причины этих различий в производительности», — написали они.
В конечном итоге, научному сообществу и профессиональным обществам необходимо будет разработать общую систему сравнительной оценки, которая позволит безопасно и воспроизводимо сравнивать инструменты ИИ в реалистичных условиях, написали Шефер-Прокоп и Шалекамп.
Полный текст исследования доступен здесь .
Внимание, автоперевод! За ошибки перевода ответственности не несём. Первоисточник по ссылке.