Пример создания аналитической инфографики из постера

В рунете (да и не только в нём) постоянно происходит сравнение и обсуждение различных работ по визуализации данных: что можно и нужно считать инфографикой, а что не достойно этого высокого звания. В этой связи мне на глаза попалась интересная статья белорусской команды «MADE. Лаборатория видеомаркетинга», в которой, в частности, моё внимание привлекло следующее изображение:

1_рис_инфограф_из_постера

Далее необходимо привести цитату из этой же статьи, содержащую критику представленного выше изображения от Артемия Лебедева:

«…Артемий Лебедев утверждает, что пример выше — иллюстрация, а не инфографика. Давайте разберём почему:

  1. Цифры представлены в абсолютно хаотичном порядке.
  2. Нет последовательности в цветах. Полагаю, что если бы цвета были выстроены по цветовой модели Пантон или в соответствии со спектром, то история считывалась бы легче, пренебрегая последовательностью по числовым значениям.
  3. Единственная зависимость наблюдается в размерности изображения автомобиля и числовом значении, которое его сопровождает. Но зависимость явно сделана с ошибкой, что заметно даже непрофессионалу.

По сути дела, данный пример показывает, что это изображение машинок с подписями не является инфографикой. Для изображений подобного вида компания Periscopic, которая занимается визуализацией данных, предлагает термин «digital poster» (цифровой плакат), заключая, что это набор утверждений, высказываний, сообщений в графическом виде, созданный с целью эффективно донести простое сообщение, не загрузив внимание зрителя. Можно смело сказать, что пример с машинками – это тоже постер, набор информации о цветовой палитре автопарка в Мордовии…»

От себя я бы ещё добавил два замечания. Во-первых, это довольно странное решение авторов постера ввести, несмотря на цветовую дифференциацию изображений автомобилей, подписи соответствия цветов. Неужели авторы, создавая этот визуальный продукт, были настолько не уверены в своих силах по цветопередаче? Или они не были уверены в цветопередаче при публикации (кстати, наиболее вероятная версия, исходя из действительно странного «синего» цвета)? Или в воспринимающей аудитории? Во-вторых, интересно, почему не была создана отдельная группа для машин серого цвета, объединяющая авто пусть даже разных оттенков «серости»? Возможно, в Мордовии настолько мало серых машин, что они не попали в отдельную группу…

Действительно, из представленного постера сразу можно понять только то, что автомобили белого цвета явно превалируют в данном регионе. Однако выяснить ещё хоть что-нибудь полезное с первого взгляда практически невозможно… А ведь информация есть, как тот самый суслик, которого на первый взгляд не видно! Давайте попробуем исследовать имеющиеся на плакате данные с позиции аналитической инфографики.

Начнём с постановки цели – необходимо визуализировать данные таким образом, чтобы обеспечить:

— практически мгновенное понимание ситуации для любого заинтересованного в этом человека при взгляде на результат визуализации;

— возможность делать выводы и принимать решения на основании увиденного.

Итак, в качестве «первого блина» пусть будет круговая диаграмма.

2_рис_инфограф_из_постера

Преимущества круговой диаграммы перед постером очевидны: ранжирование данных в порядке убывания по часовой стрелке, соотношение площадей круговых секторов соответствует количеству автомобилей каждого цвета, данными уже можно оперировать: более-менее видно, кто лидер, кто аутсайдер, кто середнячок. Однако степень восприятия визуализированных данных на представленной круговой диаграмме далека от идеала. Причина состоит в том, что самым неудачным вариантом использования круговых диаграмм для сравнения данных между собой является случай близких по величине единиц, а это как раз наш вариант. Это происходит потому, что нам сложно визуально интерпретировать разницу между незначительно различающимися углами секторов в круговых диаграммах. В этой ситуации несколько выручают подписи данных, выполненные как в абсолютном (в штуках), так и в относительном (в процентах) выражении. Однако, для понимания такой диаграммы пользователю приходится «вчитываться» в числа и проценты, что переводит усложняет восприятие и сводит данную круговую диаграмму к таблице, не позволяя получить преимущество от визуализации (см. диаграмму, иллюстрирующую степень восприятия информации  на этом сайте). Отсюда следует эмпирическое правило: круговую диаграмму для визуализации численных данных можно применять, когда позиций не более 5, и при этом все они существенно различаются между собой по величине.

Для создания более полезной в нашем случае визуализации данных применим гистограмму.

3_рис_инфограф_из_постера

Как видно из гистограммы, проблем с визуальным ранжированием данных не возникает даже без числовых подписей соответствующих столбцов. При этом подписи сообщают дополнительную информацию, позволяя «ощутить» данные «по величине». Сообщение об особом типе данных – «многоцветных» – объединено с названием горизонтальной оси.

Если поставить столбцы гистограммы друг на друга с сохранением их соотношения между собой, то получим т.н. «гистограмму с накоплением». Одним из полезных свойств данного способа визуализации численных данных является экономия пространства, занимаемого диаграммой при демонстрации (будь то лист бумаги, дисплей или проекционный экран).

4_рис_инфограф_из_постера

Вариантом, аналогичным обычной гистограмме, в данном случае может служить т.н. «линейчатая» диаграмма, которая представляет собой предыдущую гистограмму, развёрнутую на 90 градусов по часовой стрелке. Линейчатая диаграмма может быть особенно удобна в том случае, когда имеется довольно много групп данных, что затрудняет удобное для чтения размещение подписей этих групп при использовании гистограммы; в то же время линейчатая диаграмма лишена этого недостатка – подписи к данным можно расположить слева или справа от «линеек» данных в горизонтальном виде для повышения удобства восприятия данных пользователем. В нашем конкретном случае это не актуально, поскольку цвет столбцов или линеек говорит сам за себя, не нуждаясь в дополнительных комментариях.

5_рис_инфограф_из_постера

Ещё одним вариантом, позволяющим «почувствовать» данные (получить представление об их соотношениях между собой) может служить т.н. «пузырьковая» диаграмма. В данном случае результаты распределения автомобилей по цветам, представленные на пузырьковой диаграмме, напоминают «парад планет».

6_рис_инфограф_из_постера

Также как и с секторами круговой диаграммы, размеры пузырьков малопредставительны в случае сравнения близких по значениям величин; при этом, в случае существенного отличия данных между собой, пузырьковая диаграмма позволяет визуализировать это для получения наглядной картины соотношения данных.

Извлечь дополнительную информацию из имеющихся данных можно, представив их в виде диаграммы Парето, правила построения которой представлены здесь. В этом случае столбец с разноцветными автомобилями является аналогом группы «Прочие», что и продемонстрировано на следующем примере. В данной диаграмме нумерация столбцов введена с целью сокращения объёма текста «Выводов и рекомендаций».

7_рис_инфограф_из_постера

Предлагаю обратить внимание всем любителям т.н. «правила Парето» (правила «20/80»), что в данном случае первые 2 группы (авто белого и синего цвета) – т.е. 20% от всех 10 представленных на диаграмме групп – вместе составляют лишь 46% от общего числа автомобилей, а никак не 80%. Только половина всех групп, т.е. первые 5 наименований, составляют 83,4%, что лишний раз подтверждает надуманность попыток строго следования правилу «20/80», типа «определите по диаграмме Парето, где проходит граница в 80%, и руководствуйтесь этим».

Более подробно причины возникновения и результаты слепого применения т.н. «правила Парето» рассмотрены в статье «Правило Парето: история и последствия одного стойкого заблуждения» на этом сайте. Если же вы хотите узнать или обновить и расширить свои знания о полезнейшем инструменте визуализации и анализа численных данных – диаграмме Парето – я рекомендую Вам ознакомиться со статьёй «Диаграмма Парето: правила и нюансы построения и интерпретации» в двух частях.

С точки зрения применения статистики для отражения окружающей действительности необходимо отметить, что стремление к максимальной точности далеко не всегда разумно и оправданно. Так, в рассматриваемом случае с автомобилями вряд ли можно гарантировать, что приведённые данные с точностью до одной машины (см., например, данные по авто белого и коричневого цветов) не устарели уже в день опубликования результатов. Кто-то мог перекрасить свою машину (или, например, чужую – после угона), кто-то – поставить на учёт только что купленную и т.д. Возвращаясь к нашему примеру, можно считать, что округление количеств машин в каждой группе до сотен было бы наиболее оправдано и результаты публикации какое-то время оставались бы актуальными, более-менее точно отражая реальное положение дел и позволяя потребителю этих данных делать верные выводы, строить различные прогнозы и принимать адекватные решения.

Например, директор одного из автосалонов, изучив некоторые из представленных в этой статье визуализаций, мог бы поручить маркетологам своей компании срочно выяснить, почему у населения данной республики так мало автомашин, скажем, коричневого цвета – в два с лишним раза меньше, чем чёрного. Если это, например, связано лишь с недоразумением и люди готовы приобретать авто коричневого цвета (не столь сурового, как чёрный, но и не столь легкомысленного, как белый, синий, зелёный и красный), то нужно срочно заказывать у производителя коричневые машины и проводить мощную рекламную компанию. Если же, напротив, окажется, что коричневый цвет в республике по каким-то причинам не в почёте, то, наоборот, нужно объяснить головному офису компании неэффективность плана направить в автосалоны Мордовии партию машин коричневого цвета. В этом случае, возможно, стоит обратить своё внимание на молодёжь, которой могут понравиться более «агрессивные» цвета машин типа оранжевого или фиолетового. Также будет весьма полезно провести анализ гендерных и возрастных предпочтений автомобилистов Мордовии – вдруг диаграммы (в т.ч. и Парето) покажут резкое различие цветовых предпочтений?

Вместо резюме можно выразить уверенность в том, что профессионалы в области инфографики сочтут представленные выше диаграммы всего-навсего лишь «визуализацией данных», в то время как настоящая инфографика должна, в идеале, «рассказывать историю». К сожалению, рассказать историю по 2-м столбцам данных довольно проблематично, но можно постараться… В том-то и привлекательность аналитической инфографики, что на одном изображении можно произвести «свертку» разнотипной информации, полезной широкой и разной целевой аудитории. Далее представлены два примера представления данных в виде аналитической инфографики.

Первый пример демонстрирует инфографику, созданную «на скорую руку», с неизбежной в таком случае невысокой информативностью вследствие скудного исходного материала: представлены первые три из рассмотренных в статье способа визуализации численных данных – круговая диаграмма, гистограмма и гистограмма с накоплением.

8_рис_инфограф_из_постера

Второй пример показывает, что можно сделать, если уделить созданию инфографики некоторое время: представлены следующие три способа визуализации – пузырьковая и линейчатая диаграммы, а также диаграмма Парето. Также в качестве дополнительных данных (используя старинную русскую методику под названием «каша из топора», чтобы история, рассказанная инфографикой, была полнее), представлена круговая диаграмма соотношения количества населения и количества автомобилей в Мордовии по открытым данным из интернета.

9_рис_инфограф_из_постера

В конечном итоге объем представляемых инфографикой данных определяет разработчик в зависимости от исходных целей и задач. При этом в большинстве случаев целесообразно следовать следующим требованиям в отображении данных:

  1. инфографика должна, в идеале, «рассказывать историю», для «чтения» которой пользователь тратит минимальное количество времени и усилий за счет визуализации информации;
  2. аналитическая инфографика должна осуществлять «свертку» разнотипной информации, полезной целевой аудитории;
  3. численные данные и качественные харакеристики (цвет, габариты объектов и т.п.) должны быть представлены в упорядоченном виде;
  4. инфографика должна содержать зависимости, несущие дополнительную информацию о предмете обсуждения;
  5. представленные в виде зависимостей данные должны быть подготовлены таким образом, чтобы не возникало сомнений в их достоверности (например, использование статистической обработки данных при их подготовке к визуализации, правильное применение методов обработки данных для соответствующих случаев и т.п.);
  6. аналитическая инфографика должна помогать делать дополнительные выводы и принимать адекватные решения о предмете визуализации.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Проверка: *

сайт посвящён аналитической инфографике: визуализации численных данных с применением методов статистической обработки