Индекс цен на основе данных онлайн-чеков
В России с 2017 г. все кассовые аппараты в режиме онлайн передают электронные копии чеков напрямую в базу данных Федеральной налоговой службы. Контрольно-кассовую технику (ККТ) обязаны иметь все торговые организации. Таким образом, база электронных чеков представляет собой огромный массив данных о розничных продажах, который можно использовать в различных аналитических целях.
Используя эти данные, мы можем отслеживать и анализировать динамику цен ежедневно, не дожидаясь выхода официальных данных по инфляции, которые публикуются со значительным временным лагом. Например, месячные индексы цен Росстата публикуются с задержкой 10–15 дней, а недельные – только через 2 дня. Данные ККТ позволят оперативно отслеживать ценовые шоки и их распространение, перенос курса в цены, степень жесткости цен, динамику потребления и многое другое. Кроме того, с помощью данных ККТ можно исследовать цены на товары, не охваченные методологией Росстата, что значительно расширяет возможности исследования инфляционных процессов.
Для нашего исследования Федеральная налоговая служба предоставила обезличенные данные из чеков за период с 1 января по 30 сентября 2022 г. В этом датасете содержится 53 миллиарда чеков с 150 миллиардами записей, а количество уникальных наименований товаров превышает 3 миллиарда.
Данные обезличены, что не позволяет определить торговую точку или адрес продавца. Однако нам доступна информация о дате покупки, регионе, городе или округе, а также необходимые сведения для построения ценового индекса: наименование товара, проданное количество и стоимость. Мы также можем увидеть, что, например, два чека были выданы одной и той же кассой (данные о владельце кассы нам недоступны).
Свою методику мы представили на воркшопе Банка России, РЭШ и базовой кафедры Банка России в ВШЭ, обзор которого опубликован в новом номере журнала «Деньги и кредит».
Особенности методологии
Для построения индекса потребительских цен (ИПЦ) на основе данных ККТ требуется методика, отличная от классических подходов, применяемых статистическими службами. Это обусловлено особенностями данных ККТ.
Так, для построения «классического» ИПЦ необходимо точно идентифицировать каждый товар и его характеристики, например «молоко питьевое цельное стерилизованное 2,5–3,2% жирности» с указанием марки и производителя. В данных из чеков единственное поле для идентификации товара – это его наименование, которое заполняется далеко не всегда строго и единообразно, что создает сложности для точной идентификации.
Мы разработали специальную структуру товарных категорий (см. врез), которая учитывает эти особенности данных ККТ. Она сохранила семантическую близость к структуре ИПЦ Росстата, но в значительной степени модифицирована: так, например, мы относим к одной категории «Молоко» все виды молока, независимо от его жирности и прочих характеристик.
Кроме того, в данных ККТ часто встречаются пропуски – некоторые товары продаются нерегулярно, исчезают и снова появляются в продаже. Статистические службы в таких случаях используют аналогичные товары, чтобы ряды данных оставались непрерывными. Однако в случае с данными из чеков такой подход сложно реализуем в силу их большого объема и недостаточной информации о характеристиках товаров. В нашей методологии выпадающие товары просто учитываются в расчете индекса с нулевым весом.
Эти особенности данных ККТ приводят и к другим различиям «классических» индексов и показателей, рассчитанных на основе данных ККТ. В первом учитываются только «цены на полке», то есть цены предложения, в большинстве случаев без учета скидок, бонусов и акций. В нашей же методологии используются «цены сделок» – фактические цены, по которым товары были приобретены. Кроме того, в «классическом» индексе веса основаны на данных опросов о расходах населения и пересматриваются ежегодно. В то время как использование данных ККТ дает представление о текущей структуре потребительских расходов, что делает индекс более актуальным.
Перед тем как рассчитать индекс, мы тщательно очищаем данные, удаляя из выборки чеки с аномально низкими или высокими суммами, а также чеки, в которых сумма отдельных позиций не совпадает с общей суммой чека. Возвраты также исключаются.
Для расчета индекса цен мы применяем эконометрическую модель Time Product Dummy (TPD). В отличие от многих классических индексов, TPD не зависит от базового периода и не требует работы с выпадающими товарами. Если товар появлялся хотя бы в двух периодах, он уже влияет на индекс. Модель TPD предполагает, что цена конкретного товара отражает общий временной тренд с поправкой на качество этого товара и случайный эффект. Иными словами, цена складывается из трендовой компоненты, стабильной качественной характеристики и случайного эффекта.
На текущем этапе мы работаем с более чем 300 категориями товаров и услуг, большинство из которых – продовольственные и непродовольственные товары. Услуги пока представлены достаточно узко (около десяти категорий) из-за сложности их классификации. Тем не менее некоторые из них, такие как транспортные услуги и услуги связи, мы уже анализируем. В настоящий момент мы продолжаем расширять классификатор и улучшать классификационный алгоритм для анализа более широкого спектра товаров и услуг.
Сравнение индексов
Сравнение TPD-индекса, построенного по данным ККТ, с недельными и месячными индексами Росстата показывает значительное сходство, особенно для продовольственных товаров. Следует отметить, что в ряде случаев расчетный индекс выступает агрегатом различных индексов Росстата, например для категорий «Молоко» и «Мясо птицы» (см. графики ниже; на всех графиках – ценовые индексы по России в целом). Это обусловлено особенностями использованной для данных ККТ структуры товарных категорий. Аналогично, значительное сходство официальных индексов цен и ТPD-индексов на основе данных ККТ наблюдается по непродовольственным товарам, в частности электронике.
В общем индексе цен, как и в случае с отдельными категориями, мы не наблюдаем систематического смещения от официальной статистики на данном временном срезе. Однако в этом случае такой результат можно считать лишь предварительным, поскольку для построения этого индекса мы использовали дополнительные фильтры. Они призваны отсеивать неинформативные наименования, которые были бы отсеяны при построении индексов по классифицированным товарам. Эти фильтры позволяют эффективно «сглаживать» индекс, но при этом существует риск потери части информативной динамики. В настоящий момент мы продолжаем работать над совершенствованием методики для построения общего индекса.
Повышение доступности больших данных о розничных ценах, таких как данные маркетплейсов, сайтов ритейлеров и чеков ККТ, значительно расширяет возможности изучения ценовой динамики. Преимущества таких источников данных уже используются статистическими службами и центральными банками некоторых стран. В частности, данные ККТ в качестве одного из источников впервые начали использовать Нидерланды в 2002 г. В дальнейшем в странах Европейского союза количество использующих этот источник данных (или внедряющих его) юрисдикций выросло с 4 в 2015 г. до 16 в настоящее время. Среди наиболее ярких примеров практического использования больших данных можно отметить проект по расчету онлайн-индекса потребительских цен, реализованный в Польше в период наиболее острой фазы пандемии коронавируса. Центральный банк Армении с 2016 г. также собирает онлайн-цены для быстрых оценок продовольственной инфляции, а исследователи из Риксбанка в Швеции используют онлайн-данные для расчета индексов цен на фрукты и овощи. Росстат также работает над возможностью использования больших данных для расчета ИПЦ наряду с традиционными источниками данных о ценах.
Использование данных ККТ позволит в перспективе создать новый инструментарий, который значительно расширит возможности аналитиков в изучении инфляционных процессов. Однако в практической реализации подхода еще остаются методологические и технические задачи (улучшение алгоритмов классификации, расширение структуры категорий товаров, изучение характеристик индекса на длительных временных рядах и др.), которые нам предстоит решить.