Как разговаривать с роботом: новый язык для инвесторов

Появление алгоритмов, дающих рекомендации инвесторам на основе анализа корпоративной информации, заставило компании «заговорить» на другом языке: из отчетов компаний почти исчезли слова, которые могут быть восприняты как негативные роботами, но не людьми.

23 октября 2020 | Власта Демьяненко Эконс

Во времена, когда анализом корпоративной информации занимались исключительно люди, ключом к сердцу инвестора были слова и метафоры, способные вдохновить и вызвать позитивные эмоции. «Будь бесстрашен, когда другие жадны, и жаден, когда другие бесстрашны», «Если с неба сыплет золотой дождь, ищи ведро, а не наперсток» – обращался в письмах к акционерам глава Berkshire Hathaway Уоррен Баффет. За долгое время обязательного раскрытия информации в отчетах и проведения конференц-звонков с аналитиками компании научились доносить позитивный сигнал до инвесторов. Однако инвестиционных советников заменяют роботы, лишенные образного мышления.

Технологический прогресс заставил компании пересмотреть язык, на котором они обращаются к рынку, и сместить акценты в соответствии с тем, как трактует их слова алгоритм, а не человек, пришли к выводу в своем исследовании языка корпоративных отчетов в эпоху искусственного интеллекта Шон Цао из Университета Джорджии и его соавторы. В современном стандартном отчете компании число слов, которые негативными счел бы человек, вдвое превышает количество слов, которые «не понравятся» роботу, обнаружили авторы, проанализировав почти 400000 годовых и квартальных отчетов около 14000 компаний за 2003–2016 гг.

Словарный запас

До 2011 г. при текстовом анализе корпоративных сообщений аналитики в основном полагались на Гарвардский психосоциологический словарь, который выделяет 77 интонаций английских слов, отмечают авторы. Зная это, менеджмент компаний стремился избегать выражений, которые причисляются к негативным, и использовать те слова, которые ассоциируются с позитивными эмоциями. Однако в 2011 г. Тим Лугран и Билл МакДональд из Университета Нотр-Дам на примере отчетов более 50000 компаний за 1994–2008 гг. показали, что гарвардская маркировка специфику корпоративного языка отражает не полностью.

Около трех четвертей слов, которые Гарвардский словарь относит к негативным, не имеют отрицательного значения в финансовом контексте: например, встречающиеся в подавляющем большинстве отчетов «обязательство» (liability), «налог» (tax), «издержки» (cost) или «вице» (vice, в английском языке это слово также обозначает «порок»). А такие слова, как, например, tire и crude, которые в общем употреблении могут означать негативные понятия «утомлять» и «грубый/примитивный», в отчетах, как правило, употребляются в нейтральном значении – «шины» и «сырая нефть» (crude oil) – и просто идентифицируют специфику отрасли, а не нежелательные события. При этом Гарвардский словарь не выделяет в качестве негативных слова и выражения, которые обычно заставляют инвесторов насторожиться, – такие, например, как «прекращение» (termination), «взыскания» (penalties), «неоплаченный» (unpaid), «расследование» (investigation).

В качестве альтернативы Лугран и МакДональд предложили собственный словарь, в котором с гарвардским списком совпадает лишь часть коннотаций, и добавили новые. В частности, в списке Луграна и МакДональда маркированы слова, отражающие такой важный для инвесторов фактор, как неопределенность («приблизительно», «вероятность», «зависеть» и др.).

Работа Луграна и МакДональда легла в основу разработки алгоритмов для текстового анализа корпоративной информации. До публикации этой работы коммуникации различных компаний в плане учета коннотаций мало чем различались между собой. А после публикации, начиная с 2011 г., компании, чьи отчеты алгоритмы и роботы анализируют чаще, резко снизили использование «негативных» слов из списка Луграна – МакДональда, обнаружили Цао и его соавторы. Для своего анализа они сопоставили язык отчетов с количеством машинных загрузок корпоративной отчетности в системе сбора и анализа электронной информации (Electronic Data Gathering, Analysis, and Retrieval, EDGAR) Комиссии по ценным бумагам и биржам США (SEC).

Отчет для робота

Все больше и больше компаний осознают, что целевая аудитория их сообщений состоит уже не только из аналитиков и инвесторов. И что в сообщениях необходимо учитывать логику и методы машинного обучения, лежащие в основе текстового анализа и анализа настроений. Машина делает положительное, отрицательное или нейтральное заключение на основе полного свода корпоративной информации, что выходит за пределы возможностей человеческого мозга, пишут Цао и его соавторы.

По сути, изменение корпоративного языка отражает технологические изменения на самом рынке: в последние годы существенные объемы сделок с акциями основаны на рекомендациях роботов, которых активно используют крупнейшие хедж-фонды и инвестбанки. За 13 лет, которые рассмотрели исследователи, количество загрузок корпоративных отчетов в системе EDGAR роботами увеличилось более чем в 450 раз до более 165 млн.

В 2016 г. роботы анализировали корпоративные отчеты вдвое чаще, чем в 2003 г., и в 3,5 раза чаще, чем люди, выяснили Цао и его соавторы, проанализировав IP-адреса, с которых в систему SEC приходят запросы на загрузку корпоративных данных. Доля загрузок, сделанных с IP-адресов, запрашивающих в день более 50 отчетов, которые авторы идентифицируют как алгоритмические, а также запросов поисковых роботов в общем числе загрузок сайта в 2016 г. выросла до 78% с 39% в 2003 г.

С увеличением числа загрузок корпоративных материалов роботами росла и машиночитаемость файлов, размещаемых в системе EDGAR фирмами, на торги акциями которых приходится большая доля алгоритмической торговли. Показатель читаемости отражает, насколько «понятен» файл алгоритму, то есть насколько легко он может быть обработан и проанализирован автоматической программой (просто ли выделить из текста таблицы, идентифицировать содержащуюся в них информацию, найти в тексте необходимые цифры). Компании, ожидающие, что их материалы будет анализировать машина, включают в текст теги, облегчающие поиск таблиц и необходимые для распознавания важной для анализа информации. В целом рост ожиданий, что отчет будет анализироваться машиной, на одно стандартное отклонение увеличивает показатель машиночитаемости размещаемого файла на 0,24 стандартного отклонения, подсчитали исследователи.

При этом корреляции между «другими загрузками», то есть загрузками корпоративной информации людьми, и улучшением машиночитаемости исследователи не обнаружили: то есть компании, чьи файлы востребованы преимущественно аналитиками, не прилагают дополнительных усилий к тому, чтобы стать понятнее алгоритмам.

Чувства алгоритма

Долгая практика публикации отчетов компаний научила инвесторов читать между строк, а компании – говорить так, чтобы максимально снизить издержки, связанные с раскрытием негативной информации. Например, считается, что появление в заявлениях компаний эвфемизмов и слов, указывающих на рост неопределенности («неоднозначность», «сдерживающие факторы», «выжидательный период»), говорит о том, что финансовые результаты фирмы могут ухудшиться уже в ближайшем квартале и инвестору пора задуматься о пересмотре портфеля. Зная это, компании традиционно включали в свои отчеты больше «позитивных» слов из Гарвардского словаря и старались минимизировать использование «негативных».

Анализ текстов раскрытия корпоративной информации, который провели Цао и его коллеги, показывает, что теперь акценты сместились с учетом того, что информацию воспринимает машина. После 2011 г. при увеличении числа загрузок отчетности машинами на одно стандартное отклонение коэффициент, который показывает соотношение числа «негативных» слов из словаря Луграна – МакДональда с общим количеством слов в отчете, уменьшается на 9–11 б.п., тогда как до 2011 г. такого практически не наблюдалось. При этом такой же коэффициент для «негативных» слов из Гарвардского словаря при росте машинных загрузок никак не меняется – это подтверждает, что компании адаптируют отчеты к «чувствам» машин.

В среднем стандартный отчет на каждые 100 слов содержит 4 «негативных» слова из Гарвардского словаря и всего 1,63 «негативного» слова из словаря Луграна и МакДональда. А слова, выделяемые Луграном и МакДональдом в отдельную дополнительную категорию негативной тональности, на которую сразу реагируют рынки акций, встречаются еще реже – 0,97 слова на 100 слов. К этой категории относятся, например, слова, указывающие на возможность судебных разбирательств («заявитель», «правонарушение») и на неопределенность («вероятность», «приблизительный»); а также «сильные» и «слабые» модальные слова, которые характеризуют степень уверенности компании в сказанном («должен» против «мог бы», «всегда» против «возможно»).

Как правило, высокую долю таких слов в тексте рынок ассоциирует с ухудшением экономических показателей компании, причем отрицательная реакция бывает не только на слова, указывающие на растущую неопределенность, но и на чрезмерно уверенные высказывания, которые могут говорить о желании менеджмента замаскировать проблемы. Вероятно, менеджеры знают об этой взаимосвязи, показали исследователи: так, рост количества загрузок отчетности компании машинами на одно стандартное отклонение ведет к снижению частоты употребления слов, ассоциируемых с судебными разбирательствами, на 0,19 стандартного отклонения.

Машина слушает

Алгоритмы анализируют не только корпоративную отчетность, но и выступления топ-менеджмента компаний перед инвесторами и аналитиками во время конференц-звонков, традиционно следующих за публикацией финансовой отчетности. К «слушающим» роботам компаниям приходится адаптироваться точно так же, как к «читающим», обнаружили Цао и его соавторы.

На таких мероприятиях руководство компаний привыкло говорить в положительной тональности: практика показывает, что оптимизм в публичных выступлениях менеджмента приводит к кратковременному росту акций компании, а аналитики, как правило, дают более высокие прогнозы в отношении выручки и стоимости акций компаний, возглавляемых более экспрессивными руководителями. Это справедливо не только в отношении крупных фирм: если представитель стартапа вызывает у слушателей позитивные эмоции, его проект с большей вероятностью привлечет венчурный капитал, даже если это потребует более значительных вложений, чем бизнес другого стартапа, не сумевшего вызвать аналогичных чувств у инвесторов.

Если менеджер знает, что его речь «слушает» алгоритм, то степень позитива (валентность) его выступления увеличивается, выяснили исследователи, проанализировав аудиозаписи порядка 43000 конференц-звонков более 3000 компаний с 2010 по 2016 г., размещенных на ресурсе EarningsCast. «Говоря» с алгоритмами, менеджеры более эмоциональны – одно стандартное отклонение в коэффициенте частоты машинной загрузки отчетов фирмы увеличивает валентность выступления на 0,28 стандартного отклонения, показали расчеты. Однако пока вопрос о том, как эта эмоциональность может быть расценена алгоритмом, – предмет дополнительных исследований, считают авторы: хотя программы, распознающие эмоции в человеческой речи, быстро совершенствуются, алгоритм может быть «сбит с толку» акцентом или более глубоким тембром голоса, а также может испытывать больше «эмпатии» в отношении женского голоса, показывают исследования.