Руководство пользователя
Вычислить кластеров точек
В этом руководстве говорится, как пространственно разделить слой точек на заданное количество (N) групп с помощью конструктора Epsilon Metrics. Анализ разделяет каждую точку на группу, поэтому точка находится ближе к центру каждой группы, чем центр любой другой группы.
Этот анализ создает новый столбец, cluster_no
(номер кластера). Каждая строка вашего набора данных будет классифицирована от 0 до n-1, где n - количество кластеров, выбранных в конструктору.
Пример
Чтобы определить расположение магазинов, анализ «Вычислить кластеров точек» демонстрирует группировку ближайших точек на основе заданных классификаций.
- Загрузите zip-файл на локальный компьютер. Извлеките zip-файл и просмотрите файлы .carto, импортируйте его в свою учетную запись. Конструктор открывается с «Кластерами клиентов» (Customer Clusters) в качестве первого и единственного слоя карты.
- Выберите слой карты «Кластеры клиентов».
- Нажмите на вкладку «АНАЛИЗ».
- Примените анализ «Вычислить кластеров точек», введя 6 в качестве КОЛИЧЕСТВА КЛАСТЕРОВ.
Результаты этого анализа показывают отдельные регионы в городе Портленд. Центры этих регионов, которые можно найти, применив к рабочему процессу анализ «Создание центроидов геометрии», представляют местоположения, которые по расстоянию являются оптимальными для магазина, чтобы обслуживать все точки, классифицированные по этому номеру кластера.
Совет по картографии
Для лучшей визуализации результатов анализа стилизуйте слой по значению cluster_no
и измените метод классификации группировки данных.
- На слое карты «Кластеры клиентов» нажмите на вкладку «СТИЛЬ».
- Нажмите на параметр «По значению».
- Выберите
cluster_no
. Применяется цветовая схема по умолчанию.
- Измените метод классификации, чтобы применить цветовые свойства с помощью категорий, как описано в следующих шагах. Выберите контекстное меню рядом с методом классификации по умолчанию, «Квантили». Это позволяет изменить классификацию для выбранного столбца. Выберите категорию.
Методы классификации объединяют данные в диапазоны. Epsilon Metrics поддерживает классификацию числовых полей для градуированных символов следующими способами:
-
Квантили: Квантильная классификация хорошо подходит для данных с линейным распределением. Каждый класс квантилей содержит равное количество функций. Там нет пустых классов или классов со слишком маленьким или слишком большим количеством значений. Иногда это может вводить в заблуждение, поскольку сходные функции могут быть помещены в соседние классы, или в одном классе могут находиться совершенно разные значения из-за группировки одинаковых чисел.
-
Jenks: Разбивает данные на классы на основе естественных группировок, присущих данным. Группы формируются путем уменьшения дисперсии внутри классов и увеличения дисперсии между разными классами - одномерного k-среднего. Jenks - это классификации, зависящие от данных, поэтому они бесполезны для сравнения нескольких карт, построенных на основе разных базовых данных.
-
Равный интервал: Разделяет диапазон значений атрибута на поддиапазоны одинакового размера. Разрывы класса задаются количеством выбранных сегментов. Обычно используется для процентных значений, но лучше всего применяется к обычным столбцам данных, таким как температура, отношения и другие относительные значения атрибутов.
-
Орел/Решка: Лучше всего подходит для данных, распределяющихся с тяжелыми хвостами, такими как экспоненциальное затухание или логарифмически нормальные кривые. Эта классификация осуществляется путем деления значений на большие (орел) и малые (решка) вокруг среднего арифметического. Процедура деления повторяется непрерывно до тех пор, пока не будет достигнуто заданное количество бинов или пока не останется только одно значение. Этот метод в большей степени, чем другие, помогает выявить лежащую в основе модель масштабирования гораздо большего числа малых значений, чем больших.
-
Категория: Классифицирует ограниченное (или фиксированное) количество возможных значений на основе атрибута конкретной группы или номинальной категории.
Расширенный стиль и фильтрация
Примените пользовательский EPSILONCSS, чтобы еще больше улучшить ваш стиль, и добавьте виджет «Категория» для фильтрации данных с вашей карты.
-
Переключите ползунок, расположенный в нижней части вкладки «СТИЛЬ», со «ЗНАЧЕНИЙ» на EPSILONCSS и примените следующий пользовательский стиль.
#layer { marker-width: 7; marker-fill: ramp([cluster_no], cartocolor(Pastel), category(6)); marker-line-width: 1; marker-line-color: #555; marker-line-opacity: 1; marker-allow-overlap: true; }
-
Добавьте столбец
cluster_no
как виджет. Нажмите на вкладку «ДАННЫЕ». Для столбцаcluster_no
установите флажок рядом с параметром «Добавить как виджет». Нажмите «РЕДАКТИРОВАТЬ» рядом с выбранным столбцом на вкладке «ДАННЫЕ». -
Отредактируйте сведения о виджете. Измените виджет «ТИП» на виджет «КАТЕГОРИЯ». Для столбца
cluster_no
измените «ОПЕРАЦИЮ» на «МАКС». Переименуйте виджет в «Номер кластера».
Попробуйте отфильтровать карту по выбранным номерам кластеров, чтобы визуализировать выбранные категории данных.
Ограничения
Этот анализ имеет ограничение на время, необходимое для выполнения анализа. Если анализ занимает более 5 минут, Epsilon Metrics выдаст ошибку тайм-аута.
Внешние ресурсы
- ClusterWithin в PostGIS
- DBSCAN в PostGIS
- k-средние значения в PostGIS для
ST_MakeLine
. Во всех анализах в разделе «Создание линий из точек» используются различные формы функцииST_MakeLine
.