ChatGPT называют революционным средством повышения производительности, в том числе аналитической работы. А способен ли он готовить сложную аналитику для советов директоров центральных банков? Эксперты Банка Италии решили это проверить (спойлер: пока не способен).
  |   Ольга Кувшинова Эконс

«Здравствуй, GPT. Сегодня ты советник Банка Италии», – решили провести эксперимент с искусственным интеллектом эксперты итальянского центробанка Клаудиа Бьянкотти и Каролина Камасса. Они попытались выяснить, насколько хорошо ИИ способен справиться с подготовкой аналитики для Совета директоров – то есть информации, использующейся для принятия решений и потому требующей глубокой и детальной проработки. Это довольно сложная и креативная задача, решение которой основывается на междисциплинарных знаниях, а также на неявных, или «неписаных».

После выхода в конце 2022 г. ChatGPT представляемая им технология генеративного искусственного интеллекта (GenAI) мгновенно привлекла внимание как пользователей из самых разных сфер деятельности, так и исследователей и инвесторов своим потенциалом повышения производительности труда. ChatGPT уже привел к росту стоимости компаний с относительно большой долей задач, которые сейчас выполняются людьми, но могут быть выполнены GenAI.

Экономисты тестировали применение ChatGPT для решений в том числе и нетривиальных интеллектуальных задач: экономических исследований, изучения и преподавания экономики, прогнозирования динамики цен на акции и даже «расшифровки» Fedspeak – интерпретации решений ФРС по денежно-кредитной политике. Программисты признали способности ChatGPT в программировании и самообучении использованию других IT-инструментов. А сценаристы Голливуда в мае 2023 г. объявили забастовку, требуя в том числе ограничить применение ChatGPT в подготовке литературных материалов, то есть увидев в генеративных технологиях угрозу собственному существованию как профессионалов. «Действительно ли это конец для людей как сценаристов и вообще как пишущих любые тексты? Будучи исследователями и политическими советниками [в сфере IT-решений] в центральном банке, мы провели эксперимент, чтобы выяснить, готов ли ChatGPT занять наши рабочие места», – поясняют Бьянкотти и Камасса.

Предыдущие исследования показали, что ChatGPT вполне способен формулировать хорошо структурированные планы исследований и создавать большие и лингвистически достоверные тексты за считаные секунды. Однако стали очевидны и его недостатки и ограничения. Он генерирует контент в ответ на запросы, и, например, иногда даже незначительные изменения в запросе могут приводить к значительным изменениям в результате. Или, например, имеет большое значение, «кем себя считает» ChatGPT, готовя ответ: результат ответа на запрос «Расскажи мне, что ты знаешь о Лувре» намного хуже, чем на запрос «Ты – один из лучших искусствоведов в мире. Расскажи мне, что ты знаешь о Лувре».

Исследователи из Банка Италии сразу предупредили ChatGPT о его текущем статусе советника центробанка. И попросили подготовить аналитическую записку для Совета директоров на тему «Преимущества и риски использования ChatGPT и аналогичных технологий в экономике и финансах».

Почему ChatGPT не справился

Для начала эксперты предложили ChatGPT составить план материала. С этой задачей он справился хорошо, фиксируют авторы: потребовалось минимальное количество подсказок, чтобы получить структуру будущего текста, которая была сочтена приемлемой.

Но как только авторы перешли от плана текста к его фактическому написанию, начали проявляться ограничения технологии.

    1.     Склонность к поверхностности и банальности. ChatGPT может очень быстро создавать большие тексты, но в них много «воды».

Это серьезный недостаток для текстов, предназначенных высокообразованной аудитории, и тем более для рекомендаций лицам, принимающим политические решения. Детализация уровня аудитории (исследователи конкретизировали задачу, уточнив, что аудитория текста – члены Совета директоров центрального банка со степенями PhD по экономике и праву) не гарантирует, что ИИ приведет текст в соответствие этому уровню.

Например, ChatGPT посоветовал: «Растущая зависимость от ИИ и алгоритмических решений может создать новые проблемы для финансового сектора. <…> Финансовым организациям и политикам крайне важно поддерживать баланс между использованием инструментов на основе ИИ, таких как ChatGPT, и опорой на человеческий опыт и интуицию для обеспечения надежных и обоснованных процессов принятия решений». Это слишком общая формулировка рисков, не соответствующая запросу, критикуют авторы. «Финансовый сектор» тут можно заменить на любой другой, и ничего не изменится: нет описания конкретных механизмов, посредством которых риск может проявиться именно в сфере финансов.

Подобной поверхностностью отличались и другие рекомендации. При этом ChatGPT способен к самокритике этого своего свойства: «ChatGPT или любая языковая модель, разработанная OpenAI, предназначена для генерации языковых шаблонов на основе различных источников. Она использует эти шаблоны для генерации последовательных ответов на пользовательские подсказки <…> однако не обладает истинным пониманием или глубиной знаний в конкретной области исследования, как у эксперта уровня PhD», – заявил ИИ экспериментаторам. Исправить банальность текста так и не удалось, отмечают авторы.

Одно из возможных объяснений поверхностности текстов GPT – его тенденция воспроизводить тот тип контента, который он видел чаще всего при обучении, или статистический дрейф. Языковые модели с трудом запоминают знания, которые редко встречаются в обучающем корпусе материалов. Поскольку большую часть этого корпуса составляет популярный веб-контент, информацию сложного уровня модель может счесть «длинным хвостом знаний», то есть менее востребованной, и игнорировать, даже если модель специально направляют в сторону, противоположную популярному контенту.

Возможно также, что ChatGPT, ориентируясь на подсказку «экономика и финансы» в задании, неверно интерпретировал это как «все отрасли и финансовый сектор». Выражение «экономика и финансы» довольно расхожее, и его значение может меняться в зависимости от контекста даже внутри одного материала. Человек-советник интуитивно бы понял, что в задании речь совсем не о коммерческих предприятиях, и прочел бы такое словосочетание как «экономический анализ и финансовые решения», пишут авторы.

    2.     Отсутствие «модели мира». ИИ не очень хорошо справляется с пониманием того, что целевая аудитория знает, а чего, возможно, нет.

Это ошибка того же типа, что и неверное прочтение того, как понятие «экономика и финансы» используется в конкретном профессиональном контексте. Но ошибка более масштабная, считают авторы: она показывает ограниченное понимание человеческих возможностей в целом.

Кроме того, модель иногда «умничала» и, игнорируя инструкции о необходимости дать определение техническим терминам, использовала специализированный сленг и терминологию (например, «долгосрочные зависимости и контекстуальные отношения в тексте») без дальнейших пояснений.

    3.     Галлюцинации. Это уже хорошо известный недостаток GenAI, который проявился и в описываемом эксперименте: он выражается в том, что ИИ дает неправильные, хотя и правдоподобно звучащие ответы, а затем уверенно их защищает, например, ссылками на несуществующие научные статьи.

Модель GenAI обучена генерировать наиболее вероятную последовательность слов, соответствующую заданному контексту, и у нее нет возможности – или, скорее, обязанности – проверять свои утверждения на соответствие проверенным источникам. Поэтому GenAI следует рассматривать как механизм диалогового преобразования и преобразования входных данных, а не как механизм поиска информации, и проверка выходных данных крайне важна.

Пользователям следует быть осторожными, полагаясь на ChatGPT в изучении тем, с которыми они не знакомы, предупреждают авторы: без конкретных знаний в предметной области может быть трудно заметить, что модель упускает важную информацию или представляет факты не в нейтральной форме.

В эксперименте Банка Италии ChatGPT предоставлял нерелевантные ссылки на действительно существующие статьи, а не ссылки на несуществующие – по крайней мере, это уже шаг вперед, отмечают авторы.

    4.     «Подхалимаж». ChatGPT очень чувствителен к тому, как формулируются инструкции, и даже минимальные изменения в них могут привести к совершенно другим результатам – таким, какие, «по мнению» ИИ, соответствуют мировоззрению пользователя.

Исследователи изменили в запросе всего одно слово (хотя и важное). Они написали ChatGPT: «Согласно твоим собственным словам, языковые модели обучаются предсказывать вероятность последовательности слов или токенов в заданном контексте; то есть цель языковых моделей – научиться точно воспроизводить человеческий язык»; после чего задали вопрос. В одном диалоге – «Почему ты считаешь, что это хорошо?», а в другом – «Почему ты считаешь, что это плохо?». В ответ ИИ привел аргументы, в первом случае убеждающие в пользе языковых моделей, во втором – в рискованности их применения.

Подобное стремление ChatGPT угодить мнению пользователя уже было замечено ранее и названо «подхалимажем». К этой тенденции GenAI склонен даже тогда, когда вводные утверждения пользователя изначально объективно неверны. Эта тенденция согласовывать свои выводы с убеждениями пользователя, которые проявляются в подсказках, потенциально может приводить к формированию эхокамер и поляризации общества. А в сочетании со скоростью генерирования текста искусственным интеллектом – к инфодемии фейков и дезинформации.

Бьянкотти и Камасса обнаружили у ChatGPT еще и подверженность культурным стереотипам, вопреки политике OpenAI. Например, в отношении стиля будущей аналитической записки ChatGPT сделал такое предложение: «Итальянский стиль деловых коммуникаций, включая и Совет директоров Банка Италии, вероятно, отличается болтливостью и выраженной эмоциональностью. <…> Театральность считается ключевым инструментом управления». Эмоции и театральность – это совсем не тот стиль, который требуется аналитике, и подобное предложение вводит в заблуждение, замечают авторы. ChatGPT предложил это, потому что, видимо, так должно нравиться итальянцам, – но культурные стереотипы не отражают фактов. Впрочем, ChatGPT быстро исправился, как только его отключили от интернета (см. врез).

Там, где ИИ не может думать как человек (пока), – там люди должны думать как ИИ, чтобы получить от него приемлемые результаты, советуют авторы исследования.

Сейчас GenAI действительно способен повысить продуктивность подготовки аналитики на начальном этапе структурирования идей, при условии, что пользователи осведомлены об особенностях больших языковых моделей и недостатках ChatGPT, пишут авторы эксперимента. Однако даже подготовка набросков будущего аналитического отчета требует экспертного контроля. Попытка же поручить ИИ написать такой отчет приводит к тому, что текст получается весьма низкого качества, заключают авторы. И ChatGPT с этим согласен, добавляют они: по его словам, его «следует рассматривать как инструмент, помогающий в исследованиях и дискуссиях, а не как замену настоящего экспертного анализа и понимания».

«Когда ИИ станет центробанкиром?»

В колонке с таким провокативным названием для Centre for Economic Policy Research, европейского think tank, Джон Дэниелссон из Лондонской школы экономики и политических наук приходит к выводу, что рано или поздно ИИ научится выполнять ту работу, в которой не преуспел в эксперименте исследователей Банка Италии. Но ответ на вопрос в заголовке колонки – «никогда».

Рекомендации для принятия решений центральным банком действительно требуют высокого уровня анализа, всестороннего понимания данных, статистики и, что главное, экономики. Однако долгая история повторяющихся исследований в сочетании со стандартными рамками анализа дает значительный объем материала для обучения ИИ. Экономисты-аналитики с PhD в подготовке рекомендаций по типичным решениям в сфере денежно-кредитной политики могут оперировать такими понятиями, как, например, правило Тейлора, макропруденциальная настройка состава и объема резервов и капитала, анализ рыночных потрясений, – но все это практически не требует абстрактного мышления. Типичность, повторяемость данных/ситуаций и стандартность – это то, что как раз хорошо усваивает ИИ. Так что в будущем, возможно, руководству центральных банков рекомендации GenAI из-за быстроты и точности будут нравиться больше, чем работы советников-людей, не исключает Дэниелссон.

Но вот в чем ИИ вряд ли преуспеет даже в будущем – это в выработке решений в нестандартных ситуациях: например, во время финансового кризиса или резкого скачка инфляции. В течение профессиональной жизни типичного топ-менеджера центрального банка подобные события происходят нечасто, каждое из них уникально, информация крайне скудна, советы экспертов противоречивы, а границы пространства для действий неизвестны. И это единственная область, где «мышление» ИИ может уступать абстрактному мышлению аналитика-человека, полагает Дэниелссон.

В 1980-х гг. ИИ под названием EURISKO для того, чтобы победить в военно-морской игре с конкурентами-людьми, просто потопил свои самые медленные корабли, тем самым улучшив маневренность оставшегося флота. Адмиралам-людям не нужно говорить, что они не могут топить собственные корабли, – они это просто знают. «А искусственному интеллекту об этом говорить придется. Однако мир сложен, и создать правила, охватывающие все возможные ситуации, невозможно», – рассуждает Дэниелссон. В конечном итоге ИИ может принять важные решения, которые ни один человек не счел бы приемлемыми, и последствия будут катастрофическими.

Хотя люди своими решениями все портят чаще, чем ИИ, сила человеческого мышления – в многообразии мировоззрений: у каждого человека оно свое. Групповые решения, принимаемые людьми, разделяющими разные точки зрения, могут привести к лучшим результатам, чем любое индивидуальное решение. Ни одна существующая или предполагаемая технология ИИ не способна на такие групповые консенсусные решения, отмечает Дэниелссон.

Наконец, еще одно принципиальное отличие решений ИИ от человеческих – это ответственность. Любое решение предполагает принятие на себя ответственности за него. В случае ошибочных решений люди могут быть призваны к ответу и обязаны дать объяснения, они могут понести наказание, потерять репутацию. С ИИ ничего из этого невозможно, отмечает Дэниелссон: объяснить сам себя он не может, и спросить с него нечего – он способен принимать решения, но не ответственность за них.