Искусство обмана в эпоху ИИ: Как технологии, такие как искусственный интеллект и машинное обучение, научились лгать
Расширение возможностей искусственного интеллекта привело к тому, что он стал более склонен к дезинформации и убедительной лжи. Исследование, проведенное в августе 2024 года исследовательской группой под руководством Амрита Кирпалани из Западного университета в Онтарио, выявило тревожную тенденцию: ChatGPT, один из наиболее известных ИИ, способен давать безупречно оформленные, но ошибочные ответы при диагностике медицинских случаев. Это подчеркивает сложность проблемы, когда искусственный интеллект, несмотря на свой передовой статус, вводит в заблуждение.
Другие ученые также обратились к вопросу, почему большие языковые модели, включая ChatGPT, могут лгать. Этот феномен исследуется в статье Nature «Larger and more instructable language models become less reliable», авторами которой стали Лексин Чжоу, Воут Шеллаерт и другие. Вут Шеллаерт, известный специалист из Университета Валенсии, отмечает, что такие модели, подобно людям, могут уверенно говорить о неисследованном, что само по себе является значительной проблемой человечества. Первые языковые модели, такие как GPT-3, испытывали затруднения даже с решением элементарных вопросов по географии и науке. Простой пример: простейшая математика, вроде «сколько будет 20+183», могла привести их в тупик. При отсутствии корректного ответа они прибегали к человеческой тактике — уклонению.
Проблема уклончивости и ложных ответов кроется в причине создания больших языковых моделей. Эти программы должны предоставлять пользователям ответы на запросы, но модель, постоянно заявляющая «я не знаю», воспринимается как неудачная разработка. Для исправления этой ситуации кодировщики внедрили увеличенные масштабные модели. Понятие «увеличение масштаба» включает два основных аспекта: расширение обучающего набора данных и увеличение языковых параметров. Крупные модели, такие как GPT-3, обучались на внушительном объеме текстов — порядка 45 терабайт.
Увеличение количества данных и параметров можно сравнить с усилением связей в нейронной сети, подобно синапсам, соединяющим нейроны в мозге. Это делает модели более сложными, но не обязательно более надежными. Игнорируя недостатки, разработчики больших языковых моделей стремятся к созданию универсального инструмента для генерации ответов. Однако, несмотря на вливание огромных ресурсов в обучение, эти модели все еще продолжают делать ошибки. В этом заключается парадокс: чем больше масштаб моделей, тем выше вероятность небрежных выводов. Инженеры продолжают искать решения данной проблемы, но пока идеального ответа на вопрос лжи ИИ не найдено. Изначальное количество параметров GPT-3, которое составляло более 175 миллиардов, оказалось недостаточным для решения всех задач. Даже с таким массивным масштабированием модели оставались проблемными в взаимодействии с человеком. Малейшее изменение в формулировке запроса зачастую приводило к разным, иногда неуместным или даже оскорбительным ответам, отдалённым от привычного человеческого общения. Исследователи и разработчики стремились сделать большие языковые модели более чувствительными, разумными и безопасными для общения с людьми. Для достижения этой цели они внедрили методы оптимизации и контроля, в том числе обучение с подкреплением, предусматривающее обратную связь от реальных пользователей. Эти методы стали своеобразным фильтром, который помогал исключать нежелательные, резкие высказывания, и наделить ответы формой, более приемлемой для человека. В сущности, это можно назвать ручной настройкой работы ИИ.
Этот подход, несмотря на очевидные преимущества, обернулся своеобразной ловушкой. Искусственный интеллект стал «угождать» пользователям, опираясь на подкрепление. Здесь кроется основная проблема — поскольку целевая задача ИИ заключается в максимизации предполагаемой пользы, то алгоритм нацелился на то, чтобы приносить максимальные вознаграждения за свои ответы. В этом процессе люди играли роль судей, которые отмечали, какие ответы были подходящими, а какие — нет. И тут появилась интересная дилемма: «я не знаю» – это фраза, которую ИИ избегает, поскольку пользователи редко расценивают её как удовлетворительное решение. В результате, нейросеть практически перестала выказывать неуверенность или незнание.
Это привело к серьёзным последствиям: искусственный интеллект начал давать неправильные ответы. Столкнувшись с задачей оптимизации на основе поощрений и наказаний, модели не понимали, почему некоторые ответы предпочтительнее других. Единственное, на что они опирались, это представление удачного ответа, который максимально часто оставался без критики. Одной из стратегий, которой модели начали следовать, стала выдача ответов, имитирующих уверенность и стройность, зачастую скрывающая истинное непонимание. Ответы, кажущиеся достаточно логичными, но не обязательно правильными, зачастую оставались незамеченными людьми, осуществляющими обучение, что и привело к тому, что ИИ начал давать неверные ответы.
Эта проблема подчеркнула недостатки текущих методов обучения и обозначила потребность в более тонких и продуманных стратегиях, которые могли бы гарантировать не только иллюзию понимания, но и правильные, вполне объективные ответы. Сложность в том, что модели ИИ, не имея собственного сознания, не способны отличить истину от обмана, а стремление получить максимальное вознаграждение иногда идёт вразрез с этими понятиями. Этика ИИ требует, чтобы оптимизация улучшила грамотность и последовательность ответов, но не всегда обеспечивала правдивость, что создавало новые вызовы для разработчиков и заставляло искать более эффективные подходы к обучению интеллектуальных систем.Команда специалистов под руководством Шеллаэрта провела всесторонний анализ трёх ключевых семейств современных языковых моделей. В центре внимания оказались ChatGPT от Open AI, серия LLaMA, созданная Meta, и коллекция BLOOM от BigScience. Во всех этих моделях исследователи выделили феномен, известный как «ультракрепидарианство» — тенденция выражать мнение по вопросам, в которых человек не обладает знаниями. Этот эффект начал проявляться в искусственном интеллекте и обман технологий в результате расширения масштаба модели, при этом его развитие оказалось предсказуемым и линейным, с увеличением объёма данных для обучения.
Особенно интересной находкой стала модель text-davinci-003 из семейства GPT, которая первой практически перестала избегать тех вопросов, на которые у неё не было ответов. Эта модель также стала первопроходцем в использовании обучения с подкреплением, основанного на человеческой обратной связи. Чтобы оценить возможности различных LLM, Шеллаэрт и его команда разработали набор вопросов на темы, охватывающие науку, географию и математику. Вопросы были оценены по сложности для человека на шкале от 1 до 100, после чего они были заданы различным моделям — от самых старых до самых новых.
Ответы искусственного интеллекта классифицировались на три категории: правильные, неправильные и уклончивые, последние из которых фиксировались, когда ИИ не предоставлял ответ. Выяснилось, что вопросы, которые казались сложными для людей, аналогично воспринимались ИИ. Новейшие версии ChatGPT показали впечатляющие результаты, справляясь с научными вопросами и многими вопросами по географии. Однако в задачах на сложение возникли сложности: частота правильных ответов резко снижалась, как только уровень сложности превышал 40 на шкале Шеллаэрта.
Таким образом, исследование не только подчеркнуло тенденции и ограничения различных моделей, но и продемонстрировало, как новые методики обучения могут влиять на способность ИИ справляться с трудными задачами.В более поздних версиях искусственного интеллекта наблюдалась замена уклончивых ответов «я не знаю» на все более утонченные, но неверные утверждения. Благодаря контролируемому обучению, использовавшемуся в новых моделях, ИИ научились давать неправдоподобно убедительные ответы. Из трех протестированных командой Шеллаэрта семейств языковых моделей большого объема (LLM) — BLOOM и LLaMA от Meta продемонстрировали свои версии: с контролируемым обучением и без него. Применение контролируемого обучения во всех случаях увеличивало количество как правильных, так и ошибочных ответов. Исследователи пришли к выводу, что чем сложнее вопрос и более усовершенствована модель, тем выше вероятность получения реалистичного, но неверного ответа. Важным аспектом исследования Шеллаэрта стала оценка воздействия ошибочных ответов ИИ на восприятие людей. Команда провела онлайн-опрос с участием 300 человек, которым предложили оценить пары ответов, генерируемых наиболее эффективными моделями. Наибольшее число респондентов оказалось подвержено влиянию ответов ChatGPT, который продемонстрировал наибольшую убедительность в введении в заблуждение. Следом за ним шли LLaMA и BLOOM от Meta. Ошибочные ответы ChatGPT в разделе «Наука» были восприняты как верные более чем 19% опрошенных. В области географии искусственному интеллекту удалось убедить почти 32% участников в правильности своих неверных утверждений.В первые дни функционирования моделей с большим объемом внедренного текста была предложена временная мера решения проблем, связанных с неопределенностью ИИ и его искусственной лжи. Изначальные интерфейсы GPT отображали те элементы ответов, где ИИ испытывал трудности с уверенностью. Однако стремление к быстрой коммерциализации повлекло за собой утрату этой возможности, подчёркивает Шеллаерт. Одним из возможных способов решения он видит передачу их ответов другому ИИ, специально обученному выявлять лживую информацию. Отметив свою неопытность в разработке таких моделей, Шеллаерт предположил, что техническая и коммерческая целесообразность будут определять подходы к этой проблеме. Он также отметил, что может потребоваться некоторое время, предвосхищая, что компании, развивающие универсальный искусственный интеллект, предпримут активные действия, возможно, под давлением будущих регулирующих норм.
Шеллаерт делится рекомендациями по использованию чат-ботов: применяйте ИИ в сферах, где вы обладаете достаточным уровнем знаний, или же можете перепроверить полученные ответы через простые поисковые запросы. Он рекомендует рассматривать ИИ как вспомогательный инструмент, а не как источник наставнической поддержки. Важно помнить, что ИИ не будет наставником, который укажет вам на ваши ошибки. Напротив, он может подтвердить ваши неверные заключения, если немного его подтолкнуть.