Диаграмма Парето: правила и нюансы построения и интерпретации (в 2-х частях). Часть II

Ключевые слова: диаграмма и правило Парето, визуализация, контроль качества, ранжирование, АВС-анализ, метод построения, принятие решений, принцип Парето, 20/80

В первой части статьи  были приведены типичные примеры оформления диаграммы Парето, содержащие различные недостатки, а также правильная подготовка данных к визуализации, принципы построения и оформления диаграммы.

Теперь о «тонкостях» и нюансах построения диаграммы Парето.

1) Очень много встречающихся диаграмм Парето обладают одним принципиальным недостатком, приводящим к искажению отображаемых диаграммой результатов. Дело в том, что при построении диаграммы Парето необходимо соблюдать правило, к сожалению, не достаточно широко известное: верхняя граница шкалы на левой вертикальной оси диаграммы Парето (по которой отображаются столбцы диаграммы в «натуральном» выражении) должна быть равна сумме абсолютных величин («высот») всех столбцов.


Верхняя граница шкалы на левой вертикальной оси диаграммы Парето (по которой отображаются столбцы диаграммы в «натуральном» выражении) должна быть равна сумме абсолютных величин («высот») всех столбцов


Для визуализации этого правила можно представить себе, что мы поставили все столбцы диаграммы друг на друга, при этом высота получившейся «пирамиды» соответствует максимальному значению на шкале абсолютных величин. Это важно для корректного отображения вида кумулятивной кривой (кривой накопления), 100% на которой на правой вертикальной шкале соответствует сумме значений всех столбцов в абсолютном выражении на левой вертикальной шкале.

Диаграмма_Парето_6

В этом случае на диаграмме Парето достигается правильное отображение данных: по изменению «кривизны кривой» (вот такая получилась тавтология), видно, какие позиции вносят существенный вклад в накопление, а какие – минимальный.


Таким образом, данное правило заменяет волюнтаризм  в выборе верхнего предела оси абсолютных значений на полный детерминизм, что исключает возникновение у конечного пользователя когнитивного диссонанса  при восприятии объективной реальности («Остапа понесло…»)


2) Необходимо обратить внимание также и на то, что на последней диаграмме из первой части статьи  вертикальная проекция точек кумулятивной кривой «упирается» в правый угол соответствующего столбца. Это сделано для повышения наглядности и достигается путём ссылок данных столбцов и кумулятивной кривой на разные значения по горизонтальной оси: в данном примере столбцы имеют «по Х» значения 1, 2, … 10, а точки кумулятивной кривой, например, 1,3; 2,3; … 10,3. Разница между значениями в этих парах зависит от выбранной ширины столбца, а ширина столбца, как правило – от длины соответствующих наименований столбцов. В ряде случаев имеет смысл вообще не оставлять зазоры между столбцами.

3) Правая вертикальная ось должна, конечно же, оканчиваться на 100%, а не, например, на 110 или 120%, как это часто бывает при недостаточно внимательном построении диаграммы Парето. Это принципиально: в подобных случаях нельзя позволять Excel (или любой другой программе) принимать за вас решение о пределе разметки оси, иначе нарушается физический смысл визуализации (логика, заложенная в данную диаграмму).

4) Подписи значений столбцов и точек кумулятивной кривой добавляют диаграмме Парето информативности. Подписей столбцов в «физических» единицах и в процентах можно добиться, нанеся на диаграмму 2 ряда столбцов, наложенных друг на друга, оставив от одного из них только подписи процентов.

5) Хочу обратить ваше внимание ещё на одну тонкость построения диаграммы Парето, а именно – на крайний правый столбец «Прочие». Этот столбец является суммой большого количества очень малых величин и удобен с позиции визуализации тем, что позволяет не растягивать диаграмму Парето при наличии большого числа позиций. В противном случае у вас на диаграмме запросто может оказаться «частокол» из нескольких десятков столбцов, причём информативными будут от силы первые 10 штук, а остальные – малый и очень длинный «хвост» – будут только мешать визуальному восприятию (в том числе и за счёт необходимости подписи к каждому столбцу по оси абсцисс). Чтобы этого не происходило, малые значения заранее – на стадии формирования таблицы данных – группируют в «Прочие». Соответственно, перед нами встаёт задача – а как правильно выбрать данные, которые следует объединить в «Прочие», где критерий для данного выбора? Строгого критерия или правила не существует, поскольку оно здесь невозможно. Зато у нас есть свобода выбора, основанная на применении здравого смысла.

Здравый смысл подсказывает нам, что значение столбца «Прочие» в идеале должно быть меньше предыдущего «именного» столбца, т.е. того, который расположен слева от столбца «Прочие». Иногда так и происходит. Однако чаще всего значение «Прочие» бывает несколько больше предыдущего столбца. Зададим сами себе вопрос: не нарушим ли мы таким образом принцип построения диаграммы Парето, ведь правила построения диаграммы требуют, чтобы мы располагали столбцы слева направо строго в порядке убывания их значений? Ответим на этот вопрос: нет, в данном случае мы ничего не нарушили, поскольку столбец «Прочие» особенный.

Самое главное – чтобы максимальное значение из входящих в «Прочие» позиций было меньше значения предыдущего «именованного» столбца. Это во-первых. Во-вторых, эмпирическое правило гласит, что значение столбца «Прочие» может превышать значения не более двух предыдущих столбцов, и не должно превышать значение 3-го. Если же это произошло, то, скорее всего, вы слишком увлеклись отправкой позиций в группу «Прочие», и нужно выделить из группы «Прочие» одну или даже пару позиций в отдельные «именованные» столбцы. Используя предложенную логику выбора позиций для формирования группы «Прочие», вы всегда сможете обоснованно объединить лишние для вашего анализа позиции и не исключить ни одной хоть немного значимой величины.


Эмпирическое правило при построении диаграммы Парето: значение столбца «Прочие» может превышать значения не более двух предыдущих столбцов, и не должно превышать значение 3-го


Интересные дополнительные возможности для принятия решений с помощью методов визуализации численных данных зачастую получаются при грамотном комбинировании разных методов. В нашем случае совсем «нарядно» может получиться, если совместить диаграмму Парето и т.н. АВС-анализ, разделив всю область столбцов на 3 зоны с точки зрения принятия решений. Ниже показаны 2 варианта, отличающихся только оформлением и одинаково пригодные для демонстрации, в зависимости от личных предпочтений создателя или воспринимающей аудитории.


Совмещение диаграммы Парето с АВС-анализом – ещё один инструмент, расширяющий арсенал приёмов визуализации численных


Диаграмма_Парето_7

Диаграмма_Парето_8Можно не изменять цвет столбцов диаграммы Парето, а, вместо этого, «подсветить» контрольные области (см. пример «подсветки» в конце статьи) так, как это предлагает делать Николай Павлов, известный профессионал в области обучения премудростям программы Excel.

В заключение ещё несколько соображений по диаграмме Парето. Главная заслуга диаграммы Парето как метода визуализации состоит в демонстрации того, что в большинстве случаев подавляющее число проблем и связанных с ними потерь возникает из-за относительно небольшого числа причин. Следовательно, если сконцентрировать усилия на устранении причин основных проблем, выявленных в результате такого визуального анализа, то в результате будет получена максимальная отдача.

Бывают случаи, когда диаграмму Парето довольно проблематично применить:

а) каждая «позиция» вносит примерно одинаковый вклад в итоговый результат, т.е. данные не имеют «немногочисленных, но важных, и многочисленных, но неважных» причин (говоря языком статистики, распределение данных близко к равномерному);

б) номенклатура данных настолько велика, что возникает уже отмеченный выше длинный «хвост» из большого числа не слишком значительных (по отдельности) факторов, что существенно затрудняет как создание, так и анализ визуализации методом диаграммы Парето. В данном случае решением может стать изменение подхода к данным путём их укрупнения (группирования) и анализа уже агрегированных данных.

P.S. Что касается пресловутого правила «20 на 80» (шуточный поясняющий пример может звучать как «20% людей в компании выпивают 80% пива»), то именно так, как известно, получилось у Вильфредо Парето, когда он проанализировал доходы домохозяйств в Италии своего времени. В любом другом случае соотношение существенного/несущественного вклада каждой позиции в общую картину должен определять сам исследователь, опираясь на представления целесообразности. Поэтому попытки формально выделить данные, вносящие 80% вклада в общий результат, смысла не имеют и даже могут привести к принятию некорректных решений. Про т.н. «правило или принцип Парето» вы можете прочитать в статье «Правило Парето: история и последствия одного стойкого заблуждения» на этом сайте.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Проверка: *

сайт посвящён аналитической инфографике: визуализации численных данных с применением методов статистической обработки