Лента новостей → LLM превосходит RadLex по расширению терминологии в радиологических отчетах.
Согласно исследованию, опубликованному 14 января в журнале American Journal of Roentgenology , крупная языковая модель (LLM) превосходит радиологический лексикон RadLex по способности расширять терминологию в радиологических отчетах.
Результаты исследования показывают, что LLM «может помочь в решении реальных задач обработки естественного языка», — написала группа исследователей во главе с доктором медицины Тэхи Ли из больницы Сеульского национального университета в Южной Корее.
Медицинские онтологии — то есть структурированные системы, организующие клинические понятия и их взаимосвязи, — являются ключом к стандартизации терминологии для поддержки клинических и исследовательских приложений, включая системы поддержки принятия клинических решений, инструменты обработки естественного языка и другие инструменты искусственного интеллекта, пояснили исследователи. RadLex был разработан RSNA в 2005 году . Он предлагает радиологам общий язык для передачи результатов диагностики и включает 75 000 терминов, которые могут использоваться для составления отчетов, поддержки принятия решений, интеллектуального анализа данных, реестров данных, образования и исследований. Однако его охват «клинических радиологических отчетов остается ограниченным из-за языковых различий между радиологами», — написала группа, отметив, что, например, легочный узел может быть описан как легочный узел, узловое затемнение или одиночное легочное поражение.
Для решения этой проблемы исследователи использовали LLM (Gemini 2.0 Flash Thinking) для создания расширенного набора терминов и синонимов для RadLex и оценки влияния этого расширения на «показатель лексического охвата и семантическое распознавание терминов» на основе клинических радиологических отчетов. «Лексические альтернативы» включали морфологические и орфографические варианты, акронимы и сокращения, а также синонимы для 40 000 часто используемых терминов RadLex. («Показатель лексического охвата» — это мера того, насколько термины соответствуют заданному списку выражений, в то время как семантическое распознавание терминов, или «семантический охват», измеряет способность читателей вспоминать «общие знания, факты, понятия и значения слов, не связанные с личным опытом», — пояснили авторы.)
Группа использовала данные из пяти наборов отчетов по компьютерной томографии грудной клетки: два из Южной Кореи, один из Испании, еще один из Турции и третий из США. Она рассчитала коэффициент лексического охвата и случайным образом отобрала 100 отчетов из каждого набора данных для ручной проверки и сравнения с LLM по показателям точности, полноты и F1-меры.
Существующее расширение RadLex, выполненное без помощи LLM, добавило 17 515 терминов. Это расширение, сгенерированное LLM, добавило 208 465 дополнительных лексических вариантов и 69 918 синонимов.
Ли и его коллеги сообщили следующее:
| Сравнение расширения терминов RadLex и расширения терминов LLM на основе 5 наборов данных. | ||
| Мера | Расширение, предоставленное компанией RadLex. | Расширение, сгенерированное LLM |
| Коэффициент лексического покрытия | 67,5% | 81,9% |
| Семантическая репрезентативность (охват) | 64% | 81,6% |
| Семантическая точность | 100% | 94,8% |
| F1-балл | 0,86 | 0,91 |
«В многонациональных наборах данных клинических отчетов по компьютерной томографии грудной клетки расширение терминов, сгенерированное с помощью LLM, обеспечило улучшенное лексическое покрытие и семантическую точность с незначительной потерей семантической точности по сравнению с расширением, предоставленным RadLex», — отметили они, заключив, что «эта стратегия расширения на основе LLM может дополнять ручное уточнение онтологии и поддерживать масштабируемую стандартизацию радиологических отчетов».
Внимание, автоперевод! За ошибки перевода ответственности не несём. Первоисточник по ссылке.