Карьерный рост аналитика. Статья Алексея Колоколова

Топ-8 проблем с данными: когда миссия невыполнима, а дашборд невозможен

22.04.2021
Шел 2021 год, а некоторые госорганы и частные компании продолжали вести отчетность в «кривых» таблицах Excel, а то и вовсе в файлах Word. Расскажу, почему это мешает настроить аналитику и разработать дашборды. Впрочем, даже без дашбордов такой подход здорово замедляет составление отчетов и, что еще хуже, приводит к ошибкам в них.
На самом деле, даже в случае «кривых» отчетов миссия выполнима, а дашборд возможен. Просто сначала придется проделать кучу другой работы: от аналитиков потребуется больше сил и времени, а от заказчика — больше денег. Но если избежать хотя бы самых популярных ошибок, можно обойтись и без этого.

У большинства популярных проблем с данными одна большая причина — неправильные формы ведения отчетности и, как следствие, «грязные» данные. Что это такое? Из-за чего формы могут быть неправильными? И что сделать, чтобы все было как надо?

Рассказывать буду на примере нашей работы с региональным министерством. Во-первых, потому что проблемы, которые пришлось решать в ходе этого проекта, характерны для многих госорганов и частных компаний. Во-вторых, потому что проблем с данными оказалось немало, и о каждой стоит рассказать отдельно. Ну и в-третьих, чтобы показать, как выглядели ошибки в отчетах ведомства раньше и как стали выглядеть после нашей работы.

Проблема № 1: способ хранения данных

Все началось с того, что для оценки данных нам прислали… таблицы в файлах Word. «WTF?!», — подумали наши аналитики и стали просить Excel, потому что анализ данных из текстового файла и нормальная работа — понятия несовместимые. Даже если людям такой подход кажется привычным и удобным, а файл Word удобнее распечатывать. Excel не очень помог делу: таблица в нем лучше не стала.
Отчет в Excel: пример неправильной формы
Так выглядела исходная форма в Excel
Обработать данные в такой таблице технически невозможно: саму форму их сбора необходимо было менять, причем кое-где — кардинально. И уже здесь начались сложности. В госорганах формы сбора данных проходят очень длительное согласование и утверждение. Логично, что и менять их чиновники категорически не хотели: им бы в любом случае пришлось заполнять уже утвержденные таблицы, только к этому добавились бы еще и новые.

Двойная работа не нравится никому, а правильные формы сильно бы отличались от исходных. Поэтому мы пришли к компромиссу: сделали новые формы в Excel, максимально похожие на привычные для сотрудников, но при этом не противоречащие обработке и анализу данных.

Иногда форму, по которой будет строиться дашборд, можно не делать «плоской»
Идеальная таблица должна быть «плоской», но мы пошли на компромисс: получилось так
Вывод № 1. Обрабатывать данные из файлов Word нельзя: этот формат не приспособлен для аналитики. К тому же в таблицы Word все данные вносятся вручную, а значит, проверить их достоверность невозможно. Но это — уже другая проблема.

Проблема № 2: ручной ввод данных

Перенос таблицы из Word в Excel не делает аналитику возможной. Чтобы обработчик мог корректно считывать данные, он должен видеть связь между ними, понимать, как один показатель зависит от другого и из чего формируется третий. Для этого должны работать формулы. Почему ручной ввод данных — не лучшее решение, покажу на примере того же отчета по надзорной деятельности министерства.

Вся отчетность по году велась в одном файле Excel: каждый месяц — отдельный лист. Кроме того, отдельные листы по показателям кварталов и полугодий. Данные по каждому месяцу велись с накоплением, при этом никакие формулы не использовались, все значения вносились вручную. Представьте: перед вами — данные по 11 районам, по каждому нужно заполнить больше 200 строк.

Чтобы заполнить это, сотруднику было приходилось больше 200 раз заглянуть в прошлые листы с месяцами (и это только по одному району!), сложить прошлые цифры с нынешними и нигде не ошибиться ни с цифрой, ни со строкой, ни со столбцом. Насколько это увеличивало время заполнения отчета по одному месяцу (не говоря уже о полугодии), остается догадываться. Однозначно одно: вероятность ошибок это увеличивало во много раз.
Данные в Excel без формул и взаимосвязей бесполезны
В исходной форме не использовались формулы
Конечно, ошибки были — в процессе анализа мы сталкивались с ними неоднократно. А ведь можно было настроить процесс так, чтобы данные прошлых периодов складывались с новыми автоматически.
Вывод № 2. При вводе данных вручную автоматический обработчик не сможет увидеть взаимосвязь между разными показателями. Значит, на дашборде нельзя будет настроить необходимую фильтрацию данных. А еще это сильно увеличивает риск ошибок в отчете, особенно при большом количестве столбцов и строк.

Проблема № 3: объединенные ячейки в форме

Идеальная таблица для анализа данных в Excel должна иметь «плоскую» структуру: никаких объединенных ячеек, никакой иерархии в рамках одного вопроса, каждый показатель — в отдельном столбце.

Этому правилу стоит следовать особенно строго, если ваш дашборд будет сформирован в Excel. И от него можно немного отступить, если дашборд — в Power BI. Так мы и сделали: некоторые ячейки оставили объединенными. Форма получилась похожей на исходную, но при этом не исключающей обработку данных.
Еще один важный момент: даже когда объединение ячеек возможно, оно возможно только по вертикали. По горизонтали — никогда. Это собьет с толку и пользователя, и машину.
Вывод № 3. Никогда не объединяйте ячейки, если будете строить дашборд в Excel. Да и вообще лучше старайтесь этого не делать: во многих случаях автоматический обработчик не сумеет корректно считать информацию из них.

Проблема № 4: неоднородная структура таблицы

Когда заказчик пытается вместить много разных данных на один лист Excel и оформляет их по-разному, таблица получается неоднородной. Так, например, в одном из отчетов министерства разные вопросы на одном листе имели разную структуру: какие-то были сами по себе, какие-то содержали по одному подпункту, а какие-то — сразу по 3 подпункта.
Структура, которая была в исходном отчете министерства, для машины неприемлема и обработке не подлежит. В итоговой форме мы оставили объединенные ячейки (могли себе это позволить благодаря внутренним инструментам Power BI), но добились правильной структуры, разделив разнородные данные по разным листам. Вопрос — отдельно, признаки — отдельно. На каждый признак должен быть отведен отдельный столбец.
Вывод № 4. Если в одном отчете у вас есть разные по структуре данные (некоторые показатели требуют подпунктов), выделите для них отдельные листы в Excel, чтобы обработчик данных не «сломался».

Проблема № 5: большой массив данных в одном файле

Не нужно множить количество листов в одном файле Excel, тем более если между листами не настроена взаимосвязь. Напомню, наш заказчик этому не следовал: сотрудники министерства собирали данные по всему году в одном файле. На каждый месяц заводили отдельный лист, еще несколько отдельных листов — для показателей по кварталам и полугодиям.

Почему так делать не стоит? Во-первых, потому что для полноценной аналитики важно выстроить правильную иерархию в хранении данных (об этом расскажу дальше). Во-вторых, потому что это здорово увеличивает риск «человеческих» ошибок: перепутать листы при копировании и вставке данных куда проще, чем кажется на первый взгляд.
Не надо так: на каждый отчетный период заводите отдельный файл
Так выглядит большой массив данных в одном файле Excel
Вывод № 5. Одно из правил грамотной организации сбора данных гласит: на каждый учетный период создавайте отдельный файл. Будет лучше и для анализа данных, и для удобства пользователей.

Проблема № 6: суммарные значения в строке

Чтобы сделать дашборд, в исходных данных не нужны суммарные показатели: Power BI посчитает их автоматически. Однако понятно, что при постоянной работе в Excel их хочется видеть. И тут стоит запомнить одно простое правило: суммы могут выводиться исключительно в отдельном столбце. Писать их в строке где-то в середине таблице просто нельзя — это здорово мешает обработке данных.

Примеры с суммами в строке можно было увидеть на скриншотах выше. Не будет лишним еще раз показать, как делать не надо. Строки для суммарных значений в исходной форме были выделены серым. При этом, конечно, тут тоже не было никаких формул, и сумма не считалась автоматически, а вводилась вручную.
Нельзя выводить суммы в строку в отчетной форме
Как делать не надо
Вывод № 6. Если в отчете вам нужно видеть итоговые данные (итого, всего, сумма и др.), отводите для них последний столбец в таблице.

Проблема № 7: разные показатели в одной ячейке

Многим кажется, что таблица станет более удобной и компактной, если в одну ячейку поместить сразу два показателя. Более компактной она и правда станет, но вот удобной и тем более понятной — вряд ли. Особенно для машины.

В отчете нашего министерства (закроем глаза на то, что это отчет в Word) в одной ячейке было указано и количество штрафов, и их сумма. Мы разделили показатели с количеством и суммой по разным строкам. Показываю, как было и как стало.
Машина не может корректно считывать такие данные, опознавать их вид и понимать, что есть что. А это значит, что мы не сможем сложить такие показатели или произвести любые другие действия с ними.
Вывод № 7. Если в отчете к одному вопросу (объекту) нужно применить разные единицы измерения, сделайте из этого два вопроса (объекта) и каждому присвойте свой признак в нужной единице измерения.

Проблема № 8: структура и иерархия файлов и папок

Напомню, что свой самый большой отчет сотрудники министерства вели в одном файле, где на каждый месяц (а также на каждый квартал и полугодие) заводили отдельный лист. Сам по себе такой подход — не ошибка и не проблема, однако организовать хранение данных лучше по-другому.

На каждый учетный период стоит создавать отдельный файл, но главное — выстроить грамотную иерархию файлов и папок. В проекте с министерством мы выстроили ее так:

• данные по каждому району — в отдельной папке;
• в каждой папке по району — папки по годам;
• в каждой «годовой» папке — файлы с названиями месяцев.
Вывод № 8. Именно благодаря грамотной структуре и иерархии можно настроить удобную фильтрацию на дашборде по регионам, по годам, по месяцам и так далее в зависимости от конкретных задач. Не игнорируйте это.

Правильные формы — это выгодно

Конечно, в проекте с региональным министерством мы исправили все перечисленные ошибки и разработали полноценные дашборды. Несмотря на множество долгих споров и нежелание менять привычное, заказчик остался доволен. Сотрудникам больше не нужно тратить кучу времени на ежемесячные презентации: дашборды четко показывают все ключевые показатели работы ведомства, легко посмотреть как суммарные показатели, так и отдельные, по определенному периоду, региону или отделу.

На новые формы отчетности ушло много времени. Гораздо больше, чем непосредственно на дашборды. И вот что важно: за такую работу готовы браться далеко не все компании, которые занимаются визуализацией данных. Потому что это долго и сложно, причем и технически, и физически, и даже психологически.

Но у нас свой подход. И когда консервативный заказчик, который был готов до последнего отстаивать свои привычные формы, благодарит за перестройку и улучшения, мы понимаем: где-то в одном из регионов одно небольшое министерство начало работать чуть лучше и чуть эффективнее. А значит, все было не зря.
Если вы еще не получаете все новости и полезные материалы Института бизнес-аналитики первыми, то подписаться на рассылку можно внизу этой страницы. Надеюсь, статья была вам полезной и подарила парочку инсайтов.
Читайте также