10 заметок с тегом

визуализация данных

Ось времени

В школе знакомят с общим видом двумерного графика функции и его полной версией:

И не рассказывают, что двумерный график — мощнейший инструмент визуализации. Он так и задуман — показывать зависимость двух параметров: каким будет игрек для выбранного икса, или как абсцисса относиться к ординате.

Интересно, что «отрицательные» квадранты двумерного графика используют реже других. Думаю, это отражает реальность.

Но не в случае со временем. Большинство данных описывают прошлое. Мизерная их часть — расчётные прогнозы. А настоящее на оси икс описано одной точкой — нолём:

Графикам, у которых на оси икс время, придумали своё называние — «временные ряды». Спецтермин — признак популярности формата. Кстати, в лаборатории вместо этой неуклюжего перевода, говорят «тайм-серии». Несмотря на популярность и обособленность формата, тайм-серии продолжают показывать в положительном квадранте, как другие графики.

Почему так не знаю. Аргумент о направлении чтения слева на право, слабее аргумента о первичном распознании всего изображения. Возможно, дань традиции. Верю, что традиции тленны. Естественным образом они уступают место новым. Поэтому считаю, что тайм-серии придут к своему естественному виду:

2017   визуализация данных   время   график

Разбор визуализации о смертности от огнестрела

Сегодня разберу работу Бена Кассельмана, Метью Козлина и Рубена Фишера-Баума для Файв Тсёти Эйт о смертности от огнестрельного оружия в США.

У визуализации сильный каркас. Не столбики с числом погибших мужчин и женщин, не круги рас, не график с возрастом, а наглядное полотно погибших. Данные без агрегации уложили в ряд по вертикали. Второе измерение (горизонталь) понадобилось из-за ограниченного разрешения глаз. Один столбик столько точек не воспринять. Этим ограничением формат похож на текстовый блок с текучими буквами и словами.

Хорошо выбран минимальный элемент — одна человеческая жизнь. Причины смерти, возраст, пол и раса кодируются цветом. Одна за другой потерянные жизни заполняют полотно, собираясь в группы. В лаборатории этот элемент называют элементарной частицей данных. Похожую частицу взяли авторы видеовизуализации о погибших во Второй мировой. Они оперируют не одной смертью, а тысячью.

В этих работах отличается визуальное кодирование частиц (визуальный атом). Во 2-й работе атом выбран нагляднее — пиктограмма человека. Такое кодирование помогает обойтись без пояснений. Плюс привлекает больше внимания, чем безликие квадратики.

«Смертность от огнестрельного оружия» получила золотую медаль крупнейшего международного конкурса инфографики «Малофей». По-моему, оценка завышена.

Визуализация разбита на 12 шагов. За каждое предложение зритель платит кликом и распознанием обучающих элементов. Я выделил не относящиеся к делу элементы.

Есть режим с фильтрами. Но в нём погибшие теряют исходные цвета и расположение, что затрудняет сравнение.

Моя версия — вариация на тему, потому что я не знаю задачи авторов. Свою сформулировал так: «как сделать сравнение выборок интересным и увлечь больше зрителей?»

Сначала я меняю визуальный атом с квадратика на сердечко — оно символизирует потерянную жизнь. Показываю все данные сразу. Обучение и шаги больше не нужны.

Потом меняю работу фильтров так, чтобы всегда было видно причины смерти в выборке и состав оставшейся части. Использую силу каркаса: как не настраивай выборки, число погибших останется, поменяются только цвета. Так почему бы не покрасить точки антивыборки, повысив информативность? Например, 1) разделили по полу, 2) потом выбрали «белых» старше 35 лет, 3) убрали деление по полу:

Получается, один жест настаивает несколько выборок, которые интереснее сравнивать.

Следующий разбор — в июле. Ещё хотел позвать на курс «Визуализация данных», который начнётся в субботу, но оказалось, что мест уже нет.

2017   визуализация данных   разбор

Разбор графиков с реальными объектами

В этот раз снова посмотрим на приём.

Работа Кевина Квили и Марго Сенгер-Кац для Нью-Йорк Таймс о пользе продуктов с точки зрения американцев и диетологов

Первыми распознаются продукты, которые заменяют точки на графике. Изображения реальных объектов быстро увлекают зрителя. Если на их месте будут цветные точки с легендой около графика, разглядывать станет скучно. В целом легенды вредны. Они заставляют зрителя держать в голове лишние соответствия. Если зритель забыл, что кодирует красный кружок, он вынужден возвращаться к легенде. Переключение внимания между содержанием и расшифровкой лишняя когнитивная нагрузка. В примере ниже понятно, что бургер — это бургер без лишних элементов.

Теперь, когда хлопья нас увлекли, интересно разобрать каркас — основу графика.
У него две оси:

  • по иксу отложен процент всех американцев, которые считают, что продукт полезен,
  • по игреку — процент диетологов, которые считают, что продукт полезен.

Сырые данные в таблице пришли бы в трёх колонках: продукты, мнение всех, мнение диетологов. В строках 1-й колонки — продукт, во 2-й и 3-й — оценки. И глядя на эту таблицу не всегда приходит в голову, что один и тот же параметр — оценки — можно разместить на перпендикулярных осях. Кажется, что их нужно ставить столбиками рядом.

Через весь график под 45° проходит пунктир. Он хорошо ложится в основной сценарий изучения. Все продукты делятся на три большие группы: американцы недооценивают пользу, переоценивают и видят её такой же, как диетологи. Пунктир как раз делит график на эти три группы: выше пунктира лежат недооценённые продукты, ниже — переоценённые, и на самом пунктире — с одинаковой оценкой. Если размыть все продукты в одно пятно, оно будет идти вдоль 45-градусной линии — оценки расходятся, но не сильно.

Поскольку оценки в процентах, икс и игрек получаются одной длины. А вся площадь графика делится на квадратики. Они упрощают поиск значений для конкретного продукта.

Меня удивило кокосовое масло, я, как и все американцы считал, что оно полезнее, чем считают эксперты. А попкорн, наоборот, специалисты считают полезней, чем все американцы, я думал он будет сильно ближе к левому нижнему углу.

График соотношения массы мозга и тела, который переоформил Эдвард Тафти для своей книги «Beautiful Evidence»

Тафти пишет, о пропорциональности объектов, обнажая побочный эффект: размеры объектов на графике могут не соотноситься с реальными. В идеале использовать пропорциональные объекты, особенно там, где важны физические характеристики объектов.

Визуализация характеристик танков из игры «Ворлд оф тенкс», которую сделали в Лабораторнии данных

В этом примере как раз соблюдены пропорции танков. Ещё примечательно, что информацию могут нести не только сами объекты, но и их части:

«Истории флагов» датского агентства «Фердио»

Приём с трудом подойдёт для сложных и плотных данных, из-за сложной формы объектов. Но если у объектов формы простых геометрических фигур, их можно собирать в графики достаточно плотно:

Диаграмма длиннейших рек и высочайших гор 1854 года

Тут автор идёт дальше и собирает из объектов столбчатые диаграммы, подчёркивая их природу:

Работа Тима Меко, Денисе Лу, Лазаро Гамио и Криса Алкантары для Вашингтон Пост о олимпийском инвентаре

Чтобы показать соотношения объектов, авторы используют прокрутку. Периодически напоминая о масштабе шкалами и объектами из повседневной жизни — коробкой с пиццей или самолётом:

Концентрирую: изображения реальных объектов делают визуализации увлекательнее и информативнее.

Предлагаю собрать в комментариях объекты и их свойства, которым под силу представлять самих себя. Я начну:

  • техника (размер, размер и форма видимых деталей),
  • деревья (высота, форма кроны, размер и форма листьев),
  • мебель (размер и форма),
  • смартфоны (размер, диагональ экрана),
  • здания (высота, форма, площадь фундамента, площадь остекления фасада)...

Следующий разбор — в мае, если успею.

P. S. Читайте Таню Бибикову о визуальных атомах: 1-я часть, 2-я и 3-я.

2017   визуализация данных   разбор
2017   визуализация данных

Разбор изохронов

В этот раз разберу нe отдельную работу, а прием.

Люди часто смотрят на географические карты и более-менее научились их считывать. Поэтому карты — понятный контекст для данных. Зритель мгновенно считывает, что карта — это карта, и переходит к изучению данных. Поэтому рассматривать карты так увлекательно.

Если совместить карту с цветами, которые показывают распределение данных, то получится фоновая картограмма или хороплет. Этот формат удивительно прост для восприятия.

Одно из применений хороплета — обозначить цветом время. Шаги получившейся шкалы называют изохронами. 1-м применением изохронов считают карту Френсиса Гальтона 1881 года:

Следующие примеры показывают возможности изохронов.

Рик Ноак и Лазаро Гамио визуализировали развитость сети пассажирских железных дорог в Европе для Вашингтон Пост:

В этом примере минимумом выразительных средств (6 оттенков одного цвета на контурной карте), которые легко считать. Видно, что в западной Европе и Скандинавии сообщение лучше, чем на востоке. А в Прибалтике и на востоке бывшей Югославии ситуация особенно грустная.

Визуализации можно объединить в одну интерактивную карту. Показывать зоны при наведении и фиксировать их при клике, чтобы следить за пересечениями.

Работа Бетси Мейсона для Нешинал Джиографик о плотности автодорог на Земле:

Тут много цветов:

  • отдельный бордовый цвет для зон с дорогами, между которыми по 1 км.
  • и градиент от оранжевого к синему для зон с 1-й дорогой на площадь от 0,01 до 4 816 087,1 км².

Судя по промежуточным значениям, шкала у градиента логарифмическая шкала. Про шкалы лучше написать отдельно, а пока — страничка со сравнением шкал.

На карте хорошо видно, что высокая плотность дорог в Европе, Японии и на востоке США. На фоне базового бездорожья отчётливо выделяются города в Африке, Южной Америке, Австралии и Канаде. Интересно, что при сравнимом климате, в Скандинавии дорог намного больше, чем в России, Канаде и на Аляске.

В этом примере тоже не хватает интерактивности, который помог бы понять значения для неподписанных цветов:

Проект московской студии «Урбика» о пешей и автомобильной доступность в мегаполисах, названный в честь Гальтона:

Эта работа похожа на 1-й пример, но гораздо функциональнее благодаря интерактивности. Два оттенка голубого показывают, куда можно дойти за 10 и 20 минут из текущего положения. Ещё есть автомобильный режим, который, увы, не учитывает пробки.

Следующий разбор — в апреле.

2017   визуализация данных   изохроны   разбор
Ранее Ctrl + ↓