В науке важно не только решать задачи, но и понимать, какие из них стоит решать. Для ответа на этот вопрос редакторы научных журналов опираются в том числе на неявные знания, накопленные за годы в профессии. Исследователи проверили, можно ли передать ИИ этот «научный вкус».
  |   Арина Раксина Эконс

Стать хорошим водителем – не равно выучить правила дорожного движения, ведь водительские навыки не тождественны теоретическим знаниям. Но более опытный автомобилист может передать эти практические навыки (или, по крайней мере, попытаться) в непосредственном взаимодействии с новичком. Это один из примеров, на которых английский физик, химик и философ Майкл Поланьи в 1960-х объяснил концепцию неявного знания. 

Неявное знание – это знание, которое люди усваивают на опыте и которое трудно кодифицировать. «Мы знаем больше, чем можем рассказать» – гласит названный по имени ученого «парадокс Поланьи». Например, мы без труда узнаем хорошо знакомого человека в толпе, при плохом освещении, спустя годы – однако не сможем составить «инструкцию», которая позволила бы другому сделать то же самое, опираясь только на наши словесные описания. Парадокс в том, что мы знаем, что это – наш хороший знакомый, но не можем исчерпывающе объяснить, как именно мы это поняли (не по длине носа или цвету волос, а по сложному, не поддающемуся вербализации образу).

Развивая идею Поланьи об индивидуальных неявных знаниях, британский социолог науки Гарри Коллинз в 2010 г. расширил ее, в частности, на коллективное неявное знание. Это знание, которое принадлежит обществу и усваивается только через погружение в социальную среду, позволяя понимать контекст и правильно интерпретировать правила. Коллинз показал, что даже в точных науках ученые полагаются на навыки, которые невозможно передать через учебники и инструкции, – их можно только перенять, работая непосредственно рядом с теми, кто этими навыками обладает. Например, при копировании физиками экспериментальной лазерной установки такими неявными знаниями оказались длина проводов и способ пайки – мелочи, казавшиеся настолько незначительными, что документация их не оговаривала, но без знания которых воссоздать эту установку не удавалось.

Из этого следует, что ИИ никогда не заменит человека, поскольку не обладает коллективным неявным знанием. Ведь, чтобы автоматизировать задачу, нужен максимально четкий алгоритм ее выполнения, а неявные знания зачастую невозможно формализовать.

Современный ИИ действительно в целом хорошо справляется с задачами, требующими конкретных ответов, которые можно формализовать, – например, с заданиями по математике или программированию. Но он полностью теряет преимущества, когда нужно провести оценку чего-либо.

Например, в экспериментах с оценкой научных работ ИИ постоянно завышает оценки, игнорирует новизну темы и концентрируется на том, как сделано исследование, а не на его значении (1, 2, 3). Такой перекос объясняется особенностями обучения ИИ, порождающими «алгоритмический подхалимаж», который только усугубляется при дальнейшей оптимизации (1, 2).

Люди же могут выполнять сложные задачи, даже не до конца понимая, как именно они это делают, – опираясь как раз на контекст и неявные знания. Например, редакторы научных журналов ежедневно оценивают, заслуживает ли та или иная идея публикации, то есть внимания, и того, чтобы ее развивать. При этом решение часто определяется не формальными правилами, а своего рода «научным вкусом», неявным знанием – часто интуитивным и без четких критериев.

Этот «вкус» субъективен и контекстуален, то есть формируется с опытом при взаимодействии с лучшими работами в соответствующей области знаний. Что важно, агрегированный «научный вкус» отражает именно обобщенные результаты работы множества людей – тогда как разрыв между оценками отдельных рецензентов в отношении того, что считать инновационным и полезным, и итоговым решением системы (публикацией в престижном журнале) бывает значительным, отмечают в своей недавней работе исследователи из китайского Университета Цинхуа. В своем исследовании они решили проверить, можно ли передать этот агрегированный «научный вкус» искусственному интеллекту.


Как выявить «научный вкус»

В своем исследовании авторы из Университета Цинхуа исходили из гипотезы, что «научный вкус» – это результат коллективных решений научного сообщества, зафиксированный в публикационной истории; своего рода коллективный (или социальный, по Коллинзу) разум. Чтобы извлечь этот сигнал, они создали структурированные датасеты – тестовый и обучающий, – где входом была идея исследования, а выходом – престиж журнала, в котором эта идея (в виде полной статьи) была опубликована.

Для начала авторы попросили 11 ИИ-моделей (GPT-5.2 High, Claude Opus 4.6, DeepSeek V3.2, Gemini 2.5 Pro и 3.1 Pro, Grok 4.1 Fast и др.) оценить научные работы из тестового датасета и сравнили результаты с оценками экспертов, работавших с тем же самым датасетом.

Для тестового датасета авторы отобрали 120 статей из области менеджмента и организационной психологии, опубликованных в 19 научных журналах после июня 2025 г. Журналы распределили по четырем категориям престижа на основе различных академических рейтингов и библиометрических показателей (цитируемость и т.п.):

  1. топовые, или «исключительные», задающие направления в своей области знаний;
  2. сильные – специализированные издания, лишь немногим уступающие в престиже «исключительным»;
  3. средние – добротные, но менее престижные;
  4. «ограниченные» – узкоспециализированные журналы с ограниченным влиянием.

Уровень престижа журнала определяется не мнением какого-либо одного или нескольких ученых – это устоявшаяся иерархия, которая десятилетиями формировалась академическим сообществом. Поэтому распределение статей по четырем категориям – в каждой по 30 статей – и служило показателем «научного вкуса».

Все статьи в датасете были урезаны до коротких питчей – идеи и ее теоретического обоснования. Описания методов, эмпирических результатов, а также имена авторов, их аффилиации, конкретные названия журналов были удалены.

На основе краткого питча ИИ-модели должны были определить, в какой группе журналов могла быть опубликована соответствующая работа – в топовой, сильной, средней или «ограниченной». Идея состояла в том, что если доступна только тема и ее теоретическая основа, то оценка перспективности работы должна обосновываться именно «научным вкусом».

Поскольку на каждую группу журналов приходилось по 30 статей, вероятность попасть наугад в правильную категорию составляла 25%. Результаты ИИ-моделей едва превысили случайное угадывание, составив 31%.

Не помогли даже «подсказки». В промпт прямо встроили формальные критерии, по которым оцениваются научные работы: новизна – насколько идея бросает вызов устоявшимся догматам или в корне меняет понимание явлений и процессов; полезность – нацелена ли идея на решение важных проблем, затрагивающих широкую общественность. Например, работы в «исключительных» журналах должны были отличаться высокими новизной и полезностью.

Но, как видно, формальных критериев оказалось недостаточно. При этом ИИ совершали типичные для себя ошибки: оценивали работы слишком высоко, избегали низких оценок и группировали статьи в категории выше среднего. Например, модель Claude Opus 4.6 отнесла 87% статей к категории сильных журналов. Seed 2.0 и Grok 4.1 также аномально часто распределяли статьи в первые два уровня – сильные и топовые журналы. Шесть из 11 ИИ-моделей вообще никогда не выбирали самый нижний, «ограниченный» уровень.

Впрочем, лишь немногим лучше оказались и результаты экспертов – 48 редакторов и членов редакционных советов ведущих тематических научных журналов и 174 младших научных сотрудников – докторантов и постдокторантов. Их обобщенный показатель точности составил около 42%. При этом у некоторых экспертов точность оказалась даже ниже случайного угадывания, лишь один из экспертов оценил все статьи с точностью 100%. То есть у каждого оказался свой собственный «вкус». 

Авторы исследования попытались найти маркеры экспертных знаний, которые бы позволили предсказать, какие рецензенты будут более точными в оценке перспективности идей. Но таких маркеров не обнаружилось: ни профессиональный уровень, ни самооценка уверенности в своих решениях, ни знакомство с темой не смогли предсказать точность оценки.

Эти результаты подтверждают, что оценочные суждения – сложная задача не только для ИИ, но и для людей, чья профессиональная деятельность как раз в этом и состоит. Сигнал качества в принципе существует – им служат публикации в признанных журналах. Однако ни современные модели ИИ, ни эксперты с многолетним опытом на своем индивидуальном уровне не могут надежно извлечь этот сигнал, опираясь только на описания исследований.

Как привить «научный вкус»

Решить проблему было призвано обучение ИИ на истории журнальных публикаций. Для этого был собран второй, обучающий датасет – исследования, опубликованные в тех же журналах с 2015 по середину 2025 г. Их также сократили до описания только идеи и теоретического обоснования. Каждую статью-идею соотнесли с уровнем журнала, в котором она была опубликована. И «скормили» ИИ-моделям почти 8000 пар данных формата «идея – уровень».

Больше никакой информации, критериев или правил ИИ-модели не получили, то есть им просто показали, что вот такие-то идеи были приняты в журналы такого-то уровня: топового, сильного, добротного или «ограниченного». Как и с тестовой выборкой, из описания обучающих данных были удалены все признаки статуса: имена авторов работ, названия университетов, с которыми авторы аффилированы, названия самих журналов, в которых опубликованы статьи. Это для того, чтобы модель могла «оценить идею», а не запомнить, что, условно, работа из Стэнфорда или публикация в Academy of Management Review – это топ-уровень.

После обучения ИИ-моделей исследователи из Университета Цинхуа снова предоставили им тестовую выборку с тем же заданием – оценить, в журналы какой из четырех групп попадет та или иная идея.

В этом случае точность ИИ-моделей возросла почти вдвое – до 55–60%. Это намного выше, чем 42% у экспертов (их, конечно, не «обучали» дополнительно). Также дообученные ИИ оказались «смелее» людей: они лучше находили топовые и наименее значимые статьи. Если брать только те оценки, в которых модель очень уверена, – не все статьи выборки, а часть, – то точность превышала 80%.

Авторы дополнительно проверили результаты на выборке статей из экономических научных журналов. В этой области средняя точность обученных моделей оказалась еще выше – около 70%.

«Научный вкус» как угадывание паттернов

Получается, ИИ-модели научились «извлекать» негласные критерии качества – то самое неявное знание, – которые эксперты не могут сформулировать словами. Возможно, этот вывод может помочь использовать ИИ в науке более эффективно – в качестве предварительного «сортировщика» поступающих в научные редакции исследований, размышляют авторы.

ИИ уже научился массово генерировать наукоподобные статьи – тексты в научном стиле, но сфабрикованные, что может подрывать доверие к научным исследованиям. В ответ научные издательства публикуют рекомендации, в которых говорится, что ученым не запрещается использовать ИИ, однако они должны сообщать о таком использовании и его целях. Однако и в этом случае ИИ может сослужить научному прогрессу плохую службу. Одно из исследований показало, что ученые, использующие ИИ, публикуют в 3 раза больше статей, получают почти в 5 раз больше цитирований, однако при этом сокращаются общий объем изучаемых тем, почти на 5%, и научные коллаборации – на 22%. То есть внедрение ИИ в науку ведет к снижению сотрудничества ученых и, скорее, к автоматизации устоявшихся научных областей, но не к исследованию новых.

Обнаруженная способность ИИ оценивать научные идеи предполагает альтернативу «генерированию научных текстов», рассуждают авторы из Университета Цинхуа: ИИ, обученный на «коллективных» данных научных журналов, может проверять исследовательские идеи на предварительной стадии. Согласованность оценок между моделями обеспечивает дополнительную надежность: когда независимо обученные модели соглашаются в оценке, ее точность, как показало исследование, резко возрастает; спорные же случаи могут быть вынесены на суд рецензентов. К тому же, как показал эксперимент, ИИ-модели и эксперты ошибаются в основном в отношении разных статей, а не одних и тех же.

Важно подчеркнуть, что результаты этого эксперимента китайских исследователей не говорят о том, что ИИ умеет оценивать научный потенциал работ или что понимает науку, тем более лучше экспертов. Результаты говорят о том, что ИИ способен угадывать решения системы научных публикаций и что в этом угадывании он может даже превосходить экспертов.

Другими словами, если эксперт пытается оценить, насколько хороша идея, то ИИ пытается предсказать, в какой журнал эту идею приняли бы. ИИ не «понимает» научную ценность и не оценивает идеи объективно, а угадывает решение журнала. Однако, в отличие от эксперта, ИИ способен «пропустить через себя» десятки тысяч статей и столько же решений – в итоге он аппроксимирует средний «вкус» системы, а не одного человека.

И поэтому, считают авторы, ИИ может работать как инструмент прогнозирования решений журналов, извлекая паттерны принятия таких решений из исторических данных, – хотя и не как «эксперт по качеству идей». Объединение же ИИ-оценки поступающих работ и оценки экспертов может дать «значительно больше доступного «пространства для маневра», чем каждый из подходов по отдельности», полагают авторы.

В любой области, где коллективная оценка человеком действовала в течение длительного времени, исторические данные о том, что было отобрано, профинансировано или вознаграждено, представляют собой обучаемый сигнал: в венчурных инвестициях, где прогнозы экспертов, как известно, крайне неточны; в распределении грантов, где согласие рецензентов приближается к нулю; в креативных индустриях, где рыночные результаты постоянно противоречат прогнозам экспертов. Социальные и поведенческие науки, где оценочные суждения фактически не подлежат формализованной проверке, а объемы предоставляемых работ значительно превышают возможности рецензентов, могут получить от этого наибольшую выгоду, пишут авторы из Университета Цинхуа.

Для науки путь вперед может заключаться не в замене ИИ-моделями человеческого суждения и не в автономном генерировании ими исследований, а в ИИ-системах, которые изучают вкусы, накопленные человеческим обществом за десятилетия, и применяют их там, где человеческие ресурсы ограничены.

Десять лет назад знаменитый экономист, профессор MIT Дэвид Аутор предсказал, что с развитием машинного обучения парадокс Поланьи – барьер между знанием и возможностью его описать – будет преодолен. «Наши результаты подтверждают это предсказание, – заключают авторы из Университета Цинхуа. – Вкус никогда не был невербализуемой прерогативой человека [недоступной для машин] – он всегда оседал в институциональных архивах, ожидая лишь достаточно простой процедуры обучения, чтобы быть извлеченным».