Ученые Решетнева создали универсальный детектор галлюцинаций ИИ
Команда доцента Анастасии Поляковой из Университета Решетнева разработала методику выявления ложных ответов нейросетей. Прототип модуля мониторинга оценивает риск «галлюцинаций» в реальном времени и применим в образовании, медицине, юриспруденции и на «Госуслугах»
Специалисты Сибирского государственного университета науки и технологий имени академика М.Ф. Решетнева разработали методику, позволяющую выявлять и устранять недостоверные или вымышленные факты в работе нейросетей. Как сообщили в вузе, данная разработка может найти применение в образовании, на портале «Госуслуги», а также в медицине и юриспруденции.
В университете отметили, что одной из ключевых проблем современных нейросетей является их способность уверенно сообщать ложную информацию. Подобные ошибки в профессиональной среде принято называть «галлюцинациями». На сегодняшний день для борьбы с такими сбоями применяются RAG-системы (Retrieval-Augmented Generation — генерация с дополненной выборкой). В рамках этого подхода нейросеть сначала находит релевантные данные в собственной базе знаний и только затем формирует ответ. По словам представителей учебного заведения, такой метод в целом снижает вероятность выдумывания фактов, однако ошибки всё же возникают из-за опечаток, противоречий в запросе либо неполноты базы данных.
Чтобы решить эту задачу, команда под руководством доцента кафедры систем автоматизированного и интеллектуального обеспечения Анастасии Поляковой проанализировала типовые сценарии "галлюцинаций" и создала их классификатор. Затем был разработан автоматизированный пайплайн стресс-тестирования: система генерирует тестовые запросы, сравнивает ответы с эталоном и оценивает точность с помощью специальных метрик и семантического сходства, – рассказали в вузе.
Уточняется, что главным достижением исследователей стал прототип модуля мониторинга, функционирующий в режиме реального времени. Этот модуль фиксирует все входящие запросы и контекст диалога, оценивает риск выдачи недостоверного ответа и присваивает модели балл уверенности. В случае фиксации ошибки или при низком показателе уверенности модуль отправляет соответствующий сигнал оператору.
Как подчеркнули в университете, важным преимуществом новой методики является её универсальность. Разработка не привязана к конкретной нейросети и может быть масштабирована для применения в самых разных сферах — от чат-ботов для абитуриентов до сервисов на «Госуслугах», а также в медицинских и юридических цифровых помощниках.
