Карьерный рост аналитика. Статья Алексея Колоколова

Анализ данных и виды диаграмм: как выбрать визуализацию

Видов диаграмм очень много, но в управленческой отчетности чаще используется всего 5. И даже в них начинающие аналитики совершают одни и те же ошибки. А в результате получают от руководителей «по шапке»: потратил время, а отчет в итоге все равно непонятный.
Диаграммы нужны не для того, чтобы отчет стал красивым (хотя и это важно). Главная задача визуализации — четко отображать смысл данных.
Вот вам шпаргалка, которая поможет правильно использовать стандартные диаграммы в визуализации данных.

Вид анализа данных — основа для выбора диаграммы

Первое, что нужно сделать перед выбором визуализации — понять, что именно мы хотим показать. И какой вид анализа данных будем использовать.

Существует 4 базовых вида анализа. Для визуализации каждого из них можно использовать только определенные виды диаграмм: остальные исказят восприятие данных и просто не помогут увидеть нужное.
Базовые виды анализа данных
Базовые виды анализа данных
Рейтинг — этот вид анализа мы используем, когда нужно сравнить между собой несколько показателей. Например, понять, какой магазин приносит больше прибыли, кто из менеджеров заключил больше сделок, по какой статье у компании самые большие расходы (ну или самые маленькие). То есть это любое количественное сравнение по шкале, градация от большего к меньшему.

Динамика — такой вид анализа мы выбираем, когда нужно проследить изменение одного показателя. Например, определить сезонность для нашего товара, увидеть, как меняется объем продаж: когда есть пики, а когда — падения.

Структура — используется в случаях, когда нам важно разделить нечто целое на доли и показать объем каждой. Например, если нужно сегментировать клиентскую базу, группы товаров или оценить структуру клиентского портфеля. Абсолютные значения здесь отходят на второй план, на первом — именно доли.

Взаимосвязи — этот вид анализа редко используется в управленческой отчетности, но иногда случается, если нужно установить отношение между несколькими переменными. Например, сопоставить темпы продаж с курсом доллара или определить характер взаимосвязи между выручкой и количеством товара.

Базовые виды диаграмм

Для каждого вида анализа данных можно использовать только определенные визуализации. Есть 5 базовых и самых популярных видов диаграмм.

1. Линейчатая диаграмма. Это диаграмма с горизонтальными столбцами.

2. Гистограмма. Это диаграмма с вертикальными столбцами.

В английском языке обе диаграммы со столбцами называются барчартом, который может быть или горизонтальным, или вертикальным. Мы же привыкли к разным названиям, к тому же они используются и в продуктах MS Office.

3. График. Выглядит как линия с промежуточными точками данных на ней.

4. Круговая диаграмма. Сплошной круг, разделенный на сектора. Еще ее называют «пирогом» или пай чартом. Частный случай такой визуализации — кольцевая диаграмма, напоминающая по форме бублик.

5. Пузырьковая диаграмма. Английское название — Bubble Chart: размер пузырьков здесь служит дополнительным измерением данных. Это разновидность точечной диаграммы, которую также называют диаграммой рассеяния или scatter plot.

Матрица выбора диаграмм

Какую диаграмму выбирать для каждого вида анализа? Чтобы ориентироваться было проще, покажу специальную матрицу. Слева — базовые виды анализа данных, справа — виды диаграмм, подходящие для каждого из них.
Матрица выбора стандартных диаграмм
Матрица выбора стандартных диаграмм
Например, здесь видно, что круговую диаграмму можно использовать только для визуализации структуры: ни для какого другого вида анализа она не подойдет. То же самое касается и остальных базовых визуализаций.
Эта матрица составлена на основе книги Джина Желязны «Говори на языке диаграмм». Я адаптировал ее для русскоязычного пользователя и немного упростил термины.

Линейчатая и гистограмма — для рейтинга

И линейчатая диаграмма, и гистограмма могут использоваться для визуализации рейтинга. Но не всегда они взаимозаменяемы. Что именно лучше выбрать в вашем случае, чаще всего определяет количество элементов.

Если элементов много, гистограмма сделает их сравнение не только неудобным, но и даже невозможным. А значит, будет бесполезной. Это хорошо видно на примере:
Когда неправильно выбрали гистограмму
Когда неправильно выбрали гистограмму
Насколько выручка в одном магазине больше или меньше, чем в другом? Совершенно непонятно. Да и адреса магазинов под столбцами очень сложно читать, потому что они расположены под углом.
Верный признак — если подписи не влезают, значит, диаграмму нужно переворачивать. То есть выбирать горизонтальную линейчатую диаграмму. И то же самое нужно делать, если у вас больше 10 точек данных.
Линейчатая диаграмма — для большого числа точек данных
Линейчатая диаграмма — для большого числа точек данных
Конечно, исходить нужно из конкретного случая. Иногда даже при небольшом числе точек данных гистограмма не подойдет, например, из-за длинных подписей столбцов. А иногда на 4 точках она будет просто неубедительной. Ориентируйтесь по тому, сколько места на дашборде вы готовы выделить для этой визуализации: в некоторых случаях тренд лучше покажет линейчатая диаграмма.
Даже при небольшом числе точек данных гистограмма — не всегда лучший выбор
Когда гистограмма — не лучший выбор
Но! Когда данные необходимо упорядочить по оси X, лучше выбрать вертикальные столбцы, то есть гистограмму. Например, если нужно сегментировать аудиторию по возрастам.
Если данные нужно упорядочить по оси X, выбирайте гистограмму
Если данные нужно упорядочить по оси X, выбирайте гистограмму

График или гистограмма — для динамики

Чтобы показать, как меняется переменная, например, во времени, также можно использовать две диаграммы: график в виде линии или вертикальный барчарт (гистограмму). Но что именно выбирать в каждом случае?

Покажу на примере. На картинке ниже — одни и те же данные, визуализированные по-разному. Я показываю этот слайд на своих лекциях и спрашиваю студентов, что выбрали бы они. 80% голосуют за гистограмму.
Тренд можно показать с помощью графика или вертикального барчарта
Тренд можно показать с помощью графика или вертикального барчарта
Предпочтения понятны: на гистограмме четко видно и подпись, и значение. О графике же обычно говорят, что он выглядит оторванным от шкалы и каким-то «пустым». Вызывают сомнения и прямые линии между точками: действительно ли рост или падение были такими равномерными? В общем, такое отображение динамики вызывает недоверие.
Отсюда и вывод, и правило: если точек данных мало, для визуализации динамики лучше использовать гистограмму. Если же их 10 или больше, выбирайте график.
Также график стоит выбирать, если мы используем несколько рядов данных. Например, показываем динамику продаж нашего товара в нескольких городах.

Конечно, для каждого города можно сделать отдельную гистограмму, но тогда место на дашборде мы используем нерационально. Чтобы его сэкономить, все это лучше отобразить на линиях графика. Даже если у нас меньше 10 точек данных. И не забывайте добавлять промежуточные линии сетки!
Если нужно отобразить динамику по нескольким объектам, используем график
Если нужно отобразить динамику по нескольким объектам, используем график

Круговая или кольцевая диаграмма — для структуры

Принципиальной разницы между круговой и кольцевой диаграммами нет. Тот случай, когда можно выбирать то, что нравится больше. Обе они нужны, чтобы показать, из каких частей состоит наше целое и сколько места в этом целом занимает каждая часть.
Круговая и кольцевая диаграммы
Главное, что нужно знать о круговой и кольцевой диаграммах — их можно использовать ТОЛЬКО для визуализации структуры целого. При этом для отображения временных промежутков или этапов отдавайте предпочтение гистограмме.
Любая из этих диаграмм будет понятной только на небольшом объеме данных. Если секторов/долей много, выбирайте другую визуализацию.

Еще несколько мини-правил по оформлению кольцевой и круговой диаграмм:

• сортируйте данные от большего сектора к меньшему;
• отсчет — как с точки «12:00» на циферблате;
• не перегружайте эти диаграммы легендой.

Пояснение по последнему пункту: метание глаз от цветных квадратиков в легенде к секторам диаграммы и сопоставление этих цветов — это барьер для восприятия. А когда человек встречается с визуальным барьером, он теряет суть и не может быстро прийти к нужному выводу.
Круговая диаграмма: не используйте легенду
На круговой диаграмме никогда не должно быть легенды

Точечная и пузырьковая диаграмма — для взаимосвязей

Часто их используют не к месту, просто чтобы «разнообразить визуальный ряд». И вот что нужно знать об этих визуализациях.
Для большинства видов анализа использовать точечную или пузырьковую диаграмму просто нельзя. Исключение только одно: если нужно показать взаимосвязи между несколькими переменными. Не используйте их, если у вас только один количественный показатель.
Не используйте пузырьковую диаграмму, если нет взаимосвязи показателей
Не используйте пузырьковую диаграмму, если взаимосвязи показателей быть не может
Но когда мы хотим увидеть, как связаны разные показатели, эта визуализация будет самым подходящим вариантом. Например, если нужно проследить, в каких городах большой оборот приносит более крупную прибыль, а где при том же обороте прибыль «проседает».
Пузырьковая диаграмма делает взаимосвязь оборота и прибыли наглядной
Пузырьковая диаграмма делает взаимосвязь оборота и прибыли наглядной
На пузырьковой диаграмме мы можем расположить показатели оборота по оси X, а показатели прибыли — по оси Y. И сразу увидим, что больше всего мы зарабатываем в Сургуте, Ханты-Мансийске и Мегионе. Наименее «интересные» города здесь — это Североуральск и Алапаевск, где при большом обороте прибыль остается низкой.

Выбирайте мозгом, а не глазами

Визуальное оформление дашборда важно — я говорю об этом всегда и повторю сейчас. Но выбирать диаграммы нужно по смыслу данных. Только так можно упростить их анализ, сделать их понятными и наглядными. Тем более что это никак не противоречит красивому оформлению.
Эта статья — часть программы моего экспресс-курса «Дашборд в Excel». Первый модуль о базовой визуализации можно пройти бесплатно: там гораздо больше теории, чем в этой статье, и гораздо больше нюансов, которые надо учитывать даже при выборе стандартных диаграмм.
Новые навыки студенты этого курса отрабатывают уже во время обучения: даже на бесплатных уроках есть практические задания. Дальше — работа со сводными таблицами и срезами в Excel, которые нужны интерактивному дашборду. А через 5-7 дней уже можно показать руководству принципиально новые отчеты: красивые, понятные и помогающие сделать полезные для бизнеса выводы.
Если вы еще не получаете все новости и полезные материалы Института бизнес-аналитики первыми, то подписаться на рассылку можно внизу этой страницы. Надеюсь, статья была вам полезной и подарила парочку инсайтов.
Читайте также
Подпишись на рассылку и получи в подарок «Каталог лучших отраслевых дашбордов»!
Хочешь получать актуальные статьи о визуализации данных?