How to Lie with Data Visualization
Визуализация данных является одним из наиболее важных инструментов, имеющихся для анализа данных. Но она же легко вводит в заблуждение, поскольку приучает использовать графики и диаграммы. В этой статье мы взглянем на три самых распространенных способа введения в заблуждение с помощью визуализации.
Усечение оси Y
Один из самых простых способов исказить данные – размыть данные оси Y гистограммы, линейного графика или скаттерграммы. В большинстве случаев ось Y находится в диапазоне от 0 до максимальной величины, который охватывает диапазон данных. Тем не менее, иногда мы изменяем диапазон, чтобы лучше подчеркнуть различия. Доведенная до крайности, эта техника может показать такие различия в данных, что они кажутся намного больше, чем на самом деле.
Давайте посмотрим, как это работает на практике. На двух следующих ниже графиках аналогичные данные, но использованы различные шкалы для оси Y:
Слева мы ограничили ось ординат в диапазоне от 3,140 % до 3,154 %. Это создает впечатление, что процентные ставки взлетают! На первый взгляд размеры бар подразумевает, что ставки в 2012 году в несколько раз выше, чем в 2008 году. Однако отображение данных с нулевой базовой оси Y дает более точную картину, где процентные ставки остаются статичными.
Если этот пример кажется преувеличенным, вот еще несколько реальных примеров усеченных Y-осей:
Кумулятивные графики
Многие люди выбирают для создания кумулятивного графика такие показатели, как количество пользователей, доходов, отгружаемые материалы или другие важные показатели. Например, вместо того чтобы показывать график нашей квартальной прибыли, мы могли бы выбрать для отображения промежуточных итогов часть выручки, которая приходится на сегодняшний день. Давайте посмотрим, как это может выглядеть:
Мы не можем сказать много об этом графике. Он движется вверх и вправо, так что все должно идти хорошо! Но некумулятивный график рисует иную картину:
Теперь все гораздо яснее. Доходы снижаются на протяжении последних десяти лет! Если мы тщательно исследуем кумулятивный график, то можем сказать, что наклон уменьшается с течением времени, что указывает на то, что доход сокращается. Тем не менее, это не сразу видно, и график вводит в заблуждение.
Есть много реальных случаев кумулятивных графиков, которые создают более позитивную видимость, чем на самом деле. Ярким примером является использование Appleкумулятивного графика для того, чтобы показать продажи iPhone.
Игнорирование соглашений
Одна из самых коварных тактик при построении вводящих в заблуждение визуализаций данных является нарушение общепринятой практики. Мы привыкли к тому, что круговые диаграммы представляют части целого, а также к тому, что графики времени прогрессируют слева направо. Поэтому, когда эти правила нарушаются, нам трудно понять что происходит на самом деле. Нас настраивают на то, чтобы неправильно интерпретировать данные, в связи с нашей зависимости от привычного восприятия.
Вот пример из круговой диаграммы, показывающей что Фокс Чикаго был показан во время праймериз 2012 года:
Три сегмента круга не составляют в целом 100%. Опрос, по-видимому, допускал многократные ответы, и в этом случае гистограмма была бы более уместной. Вместо этого мы получаем впечатление, что каждый из трех кандидатов получил около трети поддержки, что на самом деле не так.
Другим примером является эта визуализация, опубликованная Business Insider, которая, кажется, призвана показать противоположное тому, что происходит на самом деле:
На первый взгляд, выглядит так будто смертность от огнестрельного оружия во Флориде на спаде. Но более пристальный взгляд показывает, что ось Y вверх ногами, с нулем в верхней части, а максимальное значение в нижней части. Поскольку смертность от огнестрельного оружия растет, линия наклонена вниз, нарушая привычное отображение данных.
Делаем простой вывод из всего этого: будьте осторожны при проектировании визуализации, и будьте очень осторожны при интерпретации графиков, созданных другими. Мы рассмотрели три общих метода, но это только то, что лежит на поверхности практики того, как люди используют визуализацию данных для введения в заблуждение.
У Вас есть пример особенно плохо построенной визуализации? Сообщите нам в Твиттере. Кроме того, если вы хотите, присоединяйтесь к нам каждую неделю для более глубокого проникновения в суть управления данными,введите свой адрес электронной почты на боковой панели для подписки.
http://data.heapanalytics.com/how-to-lie-with-data-visualization/
1. Комментарии с грубой и ненормативной лексикой.
2. Оскорбления, угрозы и непристойные высказывания.
3. Высказывания, разжигающие национальную, религиозную и прочую рознь и вражду.
4. Комментарии, содержащие другие нарушения законодательства и прав граждан.
5. Комментарии, рекламирующие и продвигающие другие веб-ресурсы, товары и услуги, а также комментарии, не имеющие отношения к дискуссии.
Полная версия правил.
Пользователи, которые нарушают эти правила грубо или систематически, будут заблокированы.