Точность чат-ботов: исследование оценивает медицинские рекомендации, полученные от чат-ботов с искусственным интеллектом и других источников
Группа исследователей искусственного интеллекта и медицины, сотрудничающая с несколькими учреждениями Великобритании и США, проверила точность медицинской информации и рекомендаций, которые LLM давали пользователям. В своей статье, размещенной на сервере препринтов arXiv , группа описывает, как они попросили 1298 добровольцев запросить у чат-ботов медицинские рекомендации. Затем они сравнили результаты с рекомендациями из других онлайн-источников или здравым смыслом пользователя.
Поход к врачу с недугом может быть трудоемким, смущающим и стрессовым, а иногда и дорогим. Из-за этого люди во многих местах начали обращаться за советом к своему местному чат-боту , такому как ChatGPT. В этой новой работе исследователи хотели узнать, насколько хорошим может быть этот совет.
Предыдущие исследования показали, что приложения ИИ могут достигать почти идеальных результатов на экзаменах на получение медицинской лицензии, а также очень хорошо выполнять другие медицинские задания. Но на сегодняшний день было сделано мало работы, чтобы увидеть, насколько хорошо такие способности применяются в этой области. Предыдущие исследования также показали, что врачам требуется много навыков и опыта, чтобы заставить своих пациентов задавать лучшие вопросы и/или давать лучшие ответы на их запросы.
Чтобы проверить точность медицинских советов, которые дают LLM, команда сравнила их советы с другими источниками. Они попросили 1298 случайно выбранных добровольцев использовать ИИ-чатбот (такой как Command R+, Llama 3 или GPT-4o) или использовать любые ресурсы, к которым они обычно обращаются дома, например, поиск в интернете или собственные знания, когда сталкиваются с медицинской ситуацией. Затем исследователи сравнили точность советов, которые им давали чатботы, с советами контрольной группы.
Все разговоры между волонтерами и чат-ботами записывались и отправлялись исследовательской группе для оценки. Исследователи обнаружили, что волонтеры часто опускали важную информацию во время своих запросов, что затрудняло для чат-бота получение полного понимания недуга. Результатом, как предполагает группа, стало множество сбоев двусторонней коммуникации.
Сравнивая возможные причины недомогания и варианты лечения, предлагаемые чат-ботами, с другими источниками, например, другими медицинскими сайтами в Интернете, и даже с собственной интуицией добровольца, исследователи обнаружили, что советы, которые давали чат-боты, были похожи в некоторых обстоятельствах и хуже в других. Редко они находили какие-либо доказательства того, что LLM давали лучшие советы.
Они также обнаружили множество примеров, когда использование чат-бота снижало вероятность того, что добровольцы правильно определят свое недомогание и недооценят серьезность своей проблемы. Они делают вывод, предлагая людям использовать более надежный источник информации при поиске медицинской консультации .