8 заметок с тегом

визуализация данных

Разбор графиков с реальными объектами

В этот раз снова посмотрим на приём.

Работа Кевина Квили и Марго Сенгер-Кац для Нью-Йорк Таймс о пользе продуктов с точки зрения американцев и диетологов

Первыми распознаются продукты, которые заменяют точки на графике. Изображения реальных объектов быстро увлекают зрителя. Если на их месте будут цветные точки с легендой около графика, разглядывать станет скучно. В целом легенды вредны. Они заставляют зрителя держать в голове лишние соответствия. Если зритель забыл, что кодирует красный кружок, он вынужден возвращаться к легенде. Переключение внимания между содержанием и расшифровкой лишняя когнитивная нагрузка. В примере ниже понятно, что бургер — это бургер без лишних элементов.

Теперь, когда хлопья нас увлекли, интересно разобрать каркас — основу графика.
У него две оси:

  • по иксу отложен процент всех американцев, которые считают, что продукт полезен,
  • по игреку — процент диетологов, которые считают, что продукт полезен.

Сырые данные в таблице пришли бы в трёх колонках: продукты, мнение всех, мнение диетологов. В строках 1-й колонки — продукт, во 2-й и 3-й — оценки. И глядя на эту таблицу не всегда приходит в голову, что один и тот же параметр — оценки — можно разместить на перпендикулярных осях. Кажется, что их нужно ставить столбиками рядом.

Через весь график под 45° проходит пунктир. Он хорошо ложится в основной сценарий изучения. Все продукты делятся на три большие группы: американцы недооценивают пользу, переоценивают и видят её такой же, как диетологи. Пунктир как раз делит график на эти три группы: выше пунктира лежат недооценённые продукты, ниже — переоценённые, и на самом пунктире — с одинаковой оценкой. Если размыть все продукты в одно пятно, оно будет идти вдоль 45-градусной линии — оценки расходятся, но не сильно.

Поскольку оценки в процентах, икс и игрек получаются одной длины. А вся площадь графика делится на квадратики. Они упрощают поиск значений для конкретного продукта.

Меня удивило кокосовое масло, я, как и все американцы считал, что оно полезнее, чем считают эксперты. А попкорн, наоборот, специалисты считают полезней, чем все американцы, я думал он будет сильно ближе к левому нижнему углу.

График соотношения массы мозга и тела, который переоформил Эдвард Тафти для своей книги «Beautiful Evidence»

Тафти пишет, о пропорциональности объектов, обнажая побочный эффект: размеры объектов на графике могут не соотноситься с реальными. В идеале использовать пропорциональные объекты, особенно там, где важны физические характеристики объектов.

Визуализация характеристик танков из игры «Ворлд оф тенкс», которую сделали в Лабораторнии данных

В этом примере как раз соблюдены пропорции танков. Ещё примечательно, что информацию могут нести не только сами объекты, но и их части:

«Истории флагов» датского агентства «Фердио»

Приём с трудом подойдёт для сложных и плотных данных, из-за сложной формы объектов. Но если у объектов формы простых геометрических фигур, их можно собирать в графики достаточно плотно:

Диаграмма длиннейших рек и высочайших гор 1854 года

Тут автор идёт дальше и собирает из объектов столбчатые диаграммы, подчёркивая их природу:

Работа Тима Меко, Денисе Лу, Лазаро Гамио и Криса Алкантары для Вашингтон Пост о олимпийском инвентаре

Чтобы показать соотношения объектов, авторы используют прокрутку. Периодически напоминая о масштабе шкалами и объектами из повседневной жизни — коробкой с пиццей или самолётом:

Концентрирую: изображения реальных объектов делают визуализации увлекательнее и информативнее.

Предлагаю собрать в комментариях объекты и их свойства, которым под силу представлять самих себя. Я начну:

  • техника (размер, размер и форма видимых деталей),
  • деревья (высота, форма кроны, размер и форма листьев),
  • мебель (размер и форма),
  • смартфоны (размер, диагональ экрана),
  • здания (высота, форма, площадь фундамента, площадь остекления фасада)...

Следующий разбор — в мае, если успею.

P. S. Читайте Таню Бибикову о визуальных атомах: 1-я часть, 2-я и 3-я.

2 мая   визуализация данных   разбор
26 апреля   визуализация данных

Разбор изохронов

В этот раз разберу нe отдельную работу, а прием.

Люди часто смотрят на географические карты и более-менее научились их считывать. Поэтому карты — понятный контекст для данных. Зритель мгновенно считывает, что карта — это карта, и переходит к изучению данных. Поэтому рассматривать карты так увлекательно.

Если совместить карту с цветами, которые показывают распределение данных, то получится фоновая картограмма или хороплет. Этот формат удивительно прост для восприятия.

Одно из применений хороплета — обозначить цветом время. Шаги получившейся шкалы называют изохронами. 1-м применением изохронов считают карту Френсиса Гальтона 1881 года:

Следующие примеры показывают возможности изохронов.

Рик Ноак и Лазаро Гамио визуализировали развитость сети пассажирских железных дорог в Европе для Вашингтон Пост:

В этом примере минимумом выразительных средств (6 оттенков одного цвета на контурной карте), которые легко считать. Видно, что в западной Европе и Скандинавии сообщение лучше, чем на востоке. А в Прибалтике и на востоке бывшей Югославии ситуация особенно грустная.

Визуализации можно объединить в одну интерактивную карту. Показывать зоны при наведении и фиксировать их при клике, чтобы следить за пересечениями.

Работа Бетси Мейсона для Нешинал Джиографик о плотности автодорог на Земле:

Тут много цветов:

  • отдельный бордовый цвет для зон с дорогами, между которыми по 1 км.
  • и градиент от оранжевого к синему для зон с 1-й дорогой на площадь от 0,01 до 4 816 087,1 км².

Судя по промежуточным значениям, шкала у градиента логарифмическая шкала. Про шкалы лучше написать отдельно, а пока — страничка со сравнением шкал.

На карте хорошо видно, что высокая плотность дорог в Европе, Японии и на востоке США. На фоне базового бездорожья отчётливо выделяются города в Африке, Южной Америке, Австралии и Канаде. Интересно, что при сравнимом климате, в Скандинавии дорог намного больше, чем в России, Канаде и на Аляске.

В этом примере тоже не хватает интерактивности, который помог бы понять значения для неподписанных цветов:

Проект московской студии «Урбика» о пешей и автомобильной доступность в мегаполисах, названный в честь Гальтона:

Эта работа похожа на 1-й пример, но гораздо функциональнее благодаря интерактивности. Два оттенка голубого показывают, куда можно дойти за 10 и 20 минут из текущего положения. Ещё есть автомобильный режим, который, увы, не учитывает пробки.

Следующий разбор — в апреле.

29 марта   визуализация данных   изохроны   разбор

Регулярные карты

В разборе визуализации о партиях, доминирующих в разных штатах, я рассказывал о «регулярных» картах. Вот ещё один пример из свежих #Δλlikes. Тоже США, но сделаны иначе:

Штат показывают откадрированной картой административного центра этого штата. Карту формируют границы водоёмов и паттерн голосов. Аляска и Гавайи тут не на своих местах.

Чтобы два раза не писать. Популяризаторами приёма считаю студию «Афте зе флуд» (After the Flood). Они привели районы Лондона к квадратам:

7 марта   визуализация данных   регулярная карта

Разбор визуализации о партиях, доминирующих в разных штатах

Сегодня разберу работу Ренди Йеипа, Стюарта Томпсона и Вилла Уэлша из Уолл Стрит Джорнал. Посмотрим, как менялось отношение жителей США к партиям с 1980 по 2012:

Визуализация состоит из 51 мини-графика, расположенные на регулярной сетке. Каждый график отражает ситуацию в одном штате. Вместе они образуют «регулярную» карту США. Авторы используют особенность данных — равномерную нарезку штатов. Из России или Европы такую карту сделать гораздо сложнее. Этот приём Дональд Норман назвал естественным соответствием. Он ускоряет поиск. Сначала считывается общая форма карты страны. А где какие штаты читатели Уолл Стрит Джорнала более-менее знают. Когда понятно, что перед глазами карта, интересующий штат легко найти в предсказуемом месте.

Реальная карта для сравнения. Смотрите, как «регулярная» карта помогает сохранить компактность, оставив Аляску и Гавайи на местах:

Посмотрим на сами графики. У них — одинаковые оси с одинаковыми шагами, что позволяет сравнивать штаты:

Индекс считают немного замысловато. Берут данные последней пары президентских выборов. И сравнивают среднюю долю голосов за кандидата от той партии, которая набрала больше голосов в штате, и долю голосов той же партии для всей страны. Получаются значения от 0 до 20-30 с буквой D или R. Ноль говорит, что штат голосует, как страна в целом. А D+15, что доля голосов за Демократов на 15% больше, чем в среднем по стране.

У оси игрек нет шкалы, что затрудняет точное сравнение. Это приемлемо, когда задача — сравнить общие векторы. Положительные значения игрека (выше ноля) показывают доминирование Республиканцев, отрицательные — Демократов. Об этом говорят цвета традиционные для партий. Ниже в статье есть легенда, но интересующимся политикой цвета понятны и без неё:

Ещё заметил, что авторы используют не привычные мне сокращения названий штатов. Гугл и другие пишут аббревиатуры штатов по стандарту ИСО. Здесь же — Стайлбук Ассошиейтед Пресс. По-моему, такой формат понятнее 2-буквенного ИСО.

Теперь о визуальной части. Крупный заголовок и карта вместе выглядят эффектно — 1-е впечатление от статьи приятное:

Но можно лучше. Главная проблема — размытые границы. Не понял, почему авторы позиционируют графики не кратно пикселям. Но понял, что показывают высоту столбиков с точностью до 15 знаков после запятой. Высокая точность — обычно плюс, но тут она добавляет шума. К тому же, видя разницу в пол пикселя в высоте столбика, зритель не может узнать точные значения. Ещё мешает жирная линейка оси икс, которая закрывает низкие столбики и полностью скрывает нулевые значения. Если убрать линейку совсем, визуализация ничего не потеряет — ось сформируют основания столбиков.

Переделываю, округляя столбики до пикселей и уменьшая площадь белого. Умещаю почти полные названия. Легенду селю в Мэне. Добавляю максимальные значения игрека и точные значения при наведении на столбик:

Следующий разбор — в марте.

2017   визуализация данных   разбор   регулярная карта

Разбор визуализации о росте и весе игроков в американский футбол

В Лаборатории данных мы визуализируем данные: работаем над проектами, создаём методологию, проводим курс. Для вдохновения изучаем чужие визуализации, а лучшие публикуем в рубрике #Δλlikes.

Раньше я плохо отличал стоящие работы от проходных. И пропускал изящные решения, потому что не знал, куда смотреть. За полтора года в лаборатории подучился видеть важное. В 2017-м буду разбирать примеры и рассказывать о их плюсах и минусах. Формат намечаю максимально свободный, развлекательный.

Сегодня — работа Ноя Вельтмана о росте и весе игроков НФЛ США:

Тут график с двумя осями:

  • по иксу — вес в фунтах (примерно от 73 до 154 кг),
  • по игреку — рост в футах и дюймах (примерно от 1,6 до 2 м).

На пересечении — доля футболистов с таким соотношением от общего числа футболистов в процентах. Для наглядности доли закодировали цветом — чем интенсивнее, тем больше процент. Это отличный приём, его даже не всегда замечают из-за естественности.

Если бы визуализация на этом заканчивалась, было бы скучно. Интересное происходит во времени.

Если взять крайние 1920-й и 2014-й, видно, что игроки в целом подросли и потяжелели. Видно, что распределение стало «размазанное» — стало больше игроков с разными параметрами. Ещё появились группы, скорее всего, это специализация (защита, нападение и пр.).

Но как это происходило по двум кадрам не видно. Анимация проявляет скорость изменений. С 1935 по 1945 — нет больших изменений, предположу, что мешала война. Группировка начинается около 75-го. А с 1990 начинается «размазывание».

Внешне график простой. И это плюс: меньше деталей ускоряют погружение. Неподготовленному зрителю проще понять суть, и тогда появляется шанс, что его заинтересуют детали.

Графическая составляющая у проекта слабая, поэтому переработал её на свой вкус. Убрал шумящую сетку, добавил информативность шкале времени.

И доработал интерактив: при наведении на ячейку, показываю все её значения, чтобы освободить от сопоставления цветов и проецирование на оси. Шкале времени добавил стрелки для просмотра года за годом без прицельного смещения ползунка.

2017   визуализация данных   разбор   хитмап

Главное различие визуализации данных и инфографики

Пять месяцев работаю в Лаборатории данных, и только вчера понял главное отличие визуализации от инфографики.

Визуализация данных — инструмент анализа. Она помогает делать выводы. (Поэтому так важно снабжать её органами управления, превращать в интерфейс.)

А инфографика — готовые выводы. Оформленные и структурированные показатели и закономерности.

Из этого следует, что визуализация подходит «анализирующей» аудитории, а инфографика — любой (охват второй шире).

Метафора для закрепления: визуализация — топор, инфографика — дрова.

2015   визуализация данных   инструмент   Лаборатория данных

Три мысли о визуализации данных

1. В визуализации данных, как в любом информационном продукте важна природа данных, их характер. Есть принципы, которым учат. Но чтобы быстро определять природу данных, нужен опыт, потому что разновидностей информации столько, что пока её кто-нибудь классифицирует, появится в разы больше.

2. Сейчас есть всё для интерактивных визуализаций. И такими они и должны быть, следуя закону динамизации (читайте Альтшуллера). Интерактивность стоит рассматривать, как ещё одно измерение. Оно позволяет глубже отражать данные, показывать их в разы больше и проводить зрителя за ручку по картинке.

3. Визуализация данных и инфографика — это разные вещи. Слова говорят сами за себя, если задуматься. Инфографика — это информационная графика. Графикой иллюстрируют, оформляют и развлекают. «Информационная» тут характеристика, свойство. А визуализация — это отображение, представление чего-то. Это «что-то» — контекст, определяющий о чём речь. Получается, что тут главное — данные. Графика и данные — чувствуете разницу? :-)

2015   визуализация данных   динамизация