Документация Engee

DBSCAN Clusterer

Обнаружение кластеров.

dbscan clusterer

Описание

Блок DBSCAN Clusterer выполняет кластеризацию данных сигнала на фоне шумов с помощью алгоритма, основанного на пространственной плотности точек (DBSCAN). Блок DBSCAN Clusterer может кластеризовать данные любого типа. Блок также может определять порог кластеризации (эпсилон) и устраняет неоднозначность данных в двух измерениях.

Порты

Вход

X — входные данные
вещественная матрица N на P

Входные данные, заданные в виде вещественной матрицы N на P, где N — количество точек данных для кластеризации. P — количество размерностей признаков.

Алгоритм DBSCAN может кластеризовать данные любого типа при соответствующих настройках Minimum number of points in a cluster и Cluster threshold epsilon.

Типы данных: Float16, Float32, Float64, Int8, Int16, Int32, Int64, UInt8, UInt16, UInt32, UInt64

Update — включить автоматическое обновление эпсилона
false (по умолчанию) | true

Включает автоматическое обновление оценки эпсилона, задается как false или true.

  • true — порог эпсилон сначала оценивается как среднее значение всех искривлений кривой поиска k-NN. Затем оценка добавляется в буфер размера L, задаваемого параметром Length of cluster threshold epsilon history. Окончательное значение эпсилона вычисляется как среднее значение буфера истории эпсилона длиной L. Если параметр Length of cluster threshold epsilon history установлен в единицу, то оценка производится без памяти. Отсутствие памяти означает, что каждая оценка эпсилона используется немедленно и не происходит сглаживания скользящего среднего.

  • false — используется предыдущая оценка эпсилона. Оценка эпсилона требует больших вычислительных затрат и не рекомендуется для больших наборов данных.

Зависимости

Чтобы использовать этот порт, установите для параметра Source of cluster threshold epsilon parameter значение Auto и задайте значение параметра Maximum number of points for 'Auto' epsilon.

Типы данных: bool

AmbLims — границы неоднозначности
вещественный вектор-строка 1 на 2 | вещественная матрица 2 на 2

Пределы неоднозначности, заданные в виде вещественного вектора-строки 1 на 2 или вещественной матрицы 2 на 2.

Для одной степени свободы укажите пределы в виде вектора 1 на 2 [MinAmbiguityLimitDimension1,MaxAmbiguityLimitDimension1]. Для двух степеней свободы укажите границы в виде матрицы 2 на 2 [MinAmbiguityLimitDimension1, MaxAmbiguityLimitDimension1; MinAmbiguityLimitDimension2, MaxAmbiguityLimitDimension2].

Кластеризация может происходить через границы, чтобы гарантировать, что неоднозначные обнаружения будут соответствующим образом кластеризованы для двух измерений. Столбцы интересов входных данных порта X определяются с помощью параметра Indices of ambiguous dimensions. Параметр AmbLims определяет минимальный и максимальный пределы неоднозначности в тех же единицах, которые используются в столбцах Indices of ambiguous dimensions входных данных X.

Зависимости

Чтобы использовать этот порт, установите флажок Enable disambiguation of dimensions.

Типы данных: Float16, Float32, Float64, Int8, Int16, Int32, Int64, UInt8, UInt16, UInt32, UInt64

Выход

Idx — индексы кластеров
целочисленный вектор-столбец N на 1

Индексы кластеров, возвращаемые в виде целочисленного вектора-столбца N на 1. Идентификаторы кластеров представляют результаты кластеризации алгоритма DBSCAN. Значение, равное '-1', означает точку шума DBSCAN. Положительные значения Idx соответствуют кластерам, удовлетворяющим критериям кластеризации DBSCAN.

Зависимости

Чтобы использовать этот порт, установите параметр Define outputs for block в значение Index или Index and ID.

Типы данных: Float16, Float32, Float64, Int8, Int16, Int32, Int64, UInt8, UInt16, UInt32, UInt64

Clusters — альтернативные идентификаторы кластеров
целочисленный вектор-строка 1 на N

Альтернативные идентификаторы кластеров, возвращаемые в виде целочисленного вектора 1 на N положительных чисел. Каждое значение представляет собой уникальный идентификатор, указывающий на гипотетический целевой кластер. Этот аргумент содержит уникальные положительные идентификаторы кластеров для всех точек, включая шум. В отличие от этого аргумента, выходной аргумент Idx маркирует шумовые точки значением -1.

Зависимости

Чтобы использовать этот порт, установите параметр Define outputs for block в значение Cluster ID или Index and ID.

Типы данных: Float16, Float32, Float64, Int8, Int16, Int32, Int64, UInt8, UInt16, UInt32, UInt64

Параметры

Define outputs for Engee block — тип вывода данных кластера
Index and ID (по умолчанию) | Cluster ID | Index

Тип вывода данных кластера, указывается как:

  • Index and ID — включает выходные порты Idx и Clusters.

  • Cluster ID — включает только порт вывода Clusters.

  • Index — включает только порт вывода Idx.

Source of cluster threshold epsilon — источник эпсилон
Property (по умолчанию) | Auto

Источник эпсилон для порога кластера:

  • Property — источником эпсилон является параметр Cluster threshold epsilon.

  • Auto — эпсилон рассчитывается автоматически с помощью поиска k-ближайших соседей (k-NN). Поиск рассчитывается с k в диапазоне от значения параметра Minimum number of points in a cluster минус один до значения параметра Maximum number of points for 'Auto' epsilon минус один. Вычитание единицы необходимо потому, что окрестность точки включает саму точку.

Cluster threshold epsilon — размер окрестности кластера
10.0 (по умолчанию) | положительный скаляр | положительный вещественный вектор-строка 1 на P

Размер окрестности кластера для поискового запроса, заданный в виде положительного скаляра или вещественного вектора строк 1 на P. P — количество измерений кластеризации во входных данных X.

Эпсилон определяет радиус вокруг точки, внутри которого следует подсчитывать количество обнаружений. Если эпсилон — скаляр, то одно и то же значение применяется ко всем измерениям признаков кластеризации. Вы можете задать разные значения эпсилон для разных измерений кластеризации, указав вещественную вектор-строку 1 на P. Использование вектора-строки создает многомерную эллиптическую область поиска, что полезно, когда столбцы данных имеют различные физические значения, такие как дальность и допплер.

Minimum number of points in a cluster — минимальное количество точек, необходимое для кластера
3 (по умолчанию) | положительное целое

Минимальное количество точек, необходимое для кластера, задается как целое положительное число. Этот параметр определяет минимальное количество точек в кластере при определении того, является ли точка опорной.

Maximum number of points for 'Auto' epsilon — максимальное количество точек, необходимое для кластера
10 (по умолчанию) | положительное целое

Максимальное количество точек в кластере, заданное как целое положительное число. Это свойство используется для оценки эпсилон, когда объект выполняет k-NN поиск.

Зависимости

Чтобы использовать этот параметр, установите для параметра Source of cluster threshold epsilon значение Auto.

Length of cluster threshold epsilon history — длина истории порога кластеризации (эпсилон)
10 (по умолчанию) | положительное целое

Длина сохраненной истории порога кластеризации (эпсилон), заданная как целое положительное число. Если установлено значение 1, история не требует памяти. Тогда каждая оценка эпсилона используется немедленно, и сглаживание скользящего среднего не происходит. Если значение больше единицы, значение эпсилона усредняется по заданной длине истории.

Пример: 5

Enable disambiguation of dimensions — включить однозначное измерение
выключено (по умолчанию) | включено

Флажок, позволяющий включить рассогласование измерений.

Если флажок установлен, кластеризация происходит по границам, определяемым значениями входного порта AmbLims при выполнении. Неоднозначные обнаружения соответствующим образом кластеризуются.

Используйте параметр Indices of ambiguous dimensions для указания индексов столбцов X, в которых могут возникать неоднозначности. Допускается до двух неоднозначных измерений. Не рекомендуется включать функцию рассогласования для больших наборов данных.

Indices of ambiguous dimensions — индексы неоднозначных измерений
1 (по умолчанию) | положительное целое | вектор положительных целых чисел 1 на 2

Индексы неоднозначных измерений, заданные в виде положительного целого числа или вектора положительных целых чисел 1 на 2.

Это свойство задает индексы столбцов данных входного порта X, в которых может происходить рассогласование. Положительное целое число соответствует одному неоднозначному измерению в матрице входных данных X. Вектор-строка 1 на 2 соответствует двум неоднозначным измерениям. Размер и порядок значений параметра Indices of ambiguous dimensions должны соответствовать значению входного порта AmbLims.

Пример: [3 4]

Зависимости

Чтобы использовать этот параметр, установите флажок Enable disambiguation of dimensions.