Análisis de conglomerados: su método y ámbito de aplicación. Descripción general de los algoritmos de agrupación de datos

¡Saludos!

En mi tesis revisé y análisis comparativo Algoritmos de agrupamiento de datos. Pensé que el material ya recopilado y procesado podría resultar interesante y útil para alguien.
Sashaeve habló sobre qué es la agrupación en clústeres en el artículo "Agrupación en clústeres: algoritmos k-means y c-means". Repetiré parcialmente las palabras de Alejandro y las agregaré parcialmente. También al final de este artículo, los interesados ​​pueden leer los materiales a través de los enlaces de la bibliografía.

También traté de llevar el estilo seco de presentación de “graduado” a uno más periodístico.

Concepto de agrupación

La agrupación (o análisis de conglomerados) es la tarea de dividir un conjunto de objetos en grupos llamados conglomerados. Dentro de cada grupo debe haber objetos “similares” y los objetos de diferentes grupos deben ser lo más diferentes posible. La principal diferencia entre agrupación y clasificación es que la lista de grupos no está claramente definida y se determina durante la operación del algoritmo.

La aplicación del análisis de conglomerados en general se reduce a los siguientes pasos:

  1. Selección de una muestra de objetos para agrupar.
  2. Definir un conjunto de variables mediante las cuales se evaluarán los objetos de la muestra. Si es necesario, normalice los valores de las variables.
  3. Cálculo de valores de medidas de similitud entre objetos.
  4. Aplicación del método de análisis de conglomerados para crear grupos de objetos similares (clústeres).
  5. Presentación de resultados de análisis.
Después de recibir y analizar los resultados, es posible ajustar la métrica seleccionada y el método de agrupamiento hasta obtener el resultado óptimo.

Medidas de distancia

Entonces, ¿cómo determinamos la “similitud” de los objetos? Primero, debe crear un vector de características para cada objeto; por regla general, es un conjunto de valores numéricos, por ejemplo, la altura y el peso de una persona. Sin embargo, también existen algoritmos que trabajan con características cualitativas (las llamadas categóricas).

Una vez que hayamos determinado el vector de características, se puede realizar la normalización para que todos los componentes contribuyan por igual al cálculo de la "distancia". Durante el proceso de normalización, todos los valores se llevan a un rango determinado, por ejemplo, [-1, -1] o .

Finalmente, para cada par de objetos, se mide la "distancia" entre ellos: el grado de similitud. Hay muchas métricas, estas son solo las principales:

La elección de la métrica recae enteramente en el investigador, ya que los resultados de la agrupación pueden diferir significativamente cuando se utilizan diferentes medidas.

Clasificación de algoritmos.

Por mi parte, he identificado dos clasificaciones principales de algoritmos de agrupamiento.
  1. Jerárquico y plano.
    Los algoritmos jerárquicos (también llamados algoritmos de taxonomía) construyen no solo una partición de la muestra en grupos separados, sino un sistema de particiones anidadas. Eso. Como resultado, obtenemos un árbol de racimos, cuya raíz es la muestra completa y las hojas son los racimos más pequeños.
    Los algoritmos planos construyen una partición de objetos en grupos.
  2. Claro y borroso.
    Los algoritmos claros (o no superpuestos) asignan a cada objeto de muestra un número de grupo, es decir, cada objeto pertenece a un solo grupo. Los algoritmos difusos (o de intersección) asignan a cada objeto un conjunto de valores reales que muestran el grado de relación del objeto con los grupos. Aquellos. cada objeto pertenece a cada grupo con una cierta probabilidad.

Fusionar clústeres

En el caso de utilizar algoritmos jerárquicos, surge la pregunta de cómo combinar grupos entre sí, cómo calcular las "distancias" entre ellos. Hay varias métricas:
  1. Enlace único (distancias de vecinos más cercanos)
    En este método, la distancia entre dos grupos está determinada por la distancia entre los dos objetos más cercanos (vecinos más cercanos) en diferentes grupos. Los grupos resultantes tienden a formar cadenas.
  2. Conectividad total (distancia de los vecinos más lejanos)
    En este método, las distancias entre grupos están determinadas por la distancia más grande entre dos objetos cualesquiera en diferentes grupos (es decir, los vecinos más distantes). Este método suele funcionar muy bien cuando los objetos provienen de grupos separados. Si los racimos tienen una forma alargada o su tipo natural es "cadena", entonces este método no es adecuado.
  3. Promedio por pares no ponderado
    En este método, la distancia entre dos grupos diferentes se calcula como la distancia promedio entre todos los pares de objetos que los contienen. El método es efectivo cuando los objetos forman diferentes grupos, pero funciona igualmente bien en casos de grupos extendidos (“tipo cadena”).
  4. Promedio ponderado por pares
    El método es idéntico al método de promedio por pares no ponderado, excepto que el tamaño de los grupos correspondientes (es decir, la cantidad de objetos que contienen) se utiliza como factor de ponderación en los cálculos. Por lo tanto, este método debe utilizarse cuando se esperan tamaños de conglomerados desiguales.
  5. Método del centroide no ponderado
    En este método, la distancia entre dos grupos se define como la distancia entre sus centros de gravedad.
  6. Método del centroide ponderado (mediana)
    Este método es idéntico al anterior, excepto que el cálculo utiliza ponderaciones para tener en cuenta las diferencias entre los tamaños de los conglomerados. Por lo tanto, si existen o se sospechan diferencias significativas en el tamaño de los conglomerados, este método es preferible al anterior.

Descripción general de los algoritmos

Algoritmos de agrupamiento jerárquico
Entre los algoritmos de agrupamiento jerárquico, existen dos tipos principales: algoritmos ascendentes y descendentes. Los algoritmos de arriba hacia abajo funcionan según un principio de arriba hacia abajo: al principio, todos los objetos se colocan en un grupo, que luego se divide en grupos cada vez más pequeños. Más comunes son los algoritmos ascendentes, que comienzan colocando cada objeto en un grupo separado y luego combinando los grupos en otros cada vez más grandes hasta que todos los objetos de la muestra estén contenidos en un solo grupo. De esta forma se construye un sistema de particiones anidadas. Los resultados de tales algoritmos generalmente se presentan en forma de árbol: un dendrograma. Un ejemplo clásico de este tipo de árbol es la clasificación de animales y plantas.

Para calcular distancias entre grupos, todo el mundo suele utilizar dos distancias: un enlace único o un enlace completo (consulte la descripción general de las medidas de distancia entre grupos).

Una desventaja de los algoritmos jerárquicos es el sistema de particiones completas, que puede resultar innecesario en el contexto del problema que se está resolviendo.

Algoritmos de error cuadrático
Se puede considerar que el problema de agrupamiento consiste en construir una partición óptima de objetos en grupos. En este caso, la optimización se puede definir como el requisito de minimizar el error cuadrático medio de la partición:

Dónde cj- “centro de masa” del cúmulo j(punto con características promedio para un conglomerado determinado).

Los algoritmos de error cuadrático son un tipo de algoritmos planos. El algoritmo más común en esta categoría es el método k-medias. Este algoritmo construye un número determinado de grupos ubicados lo más lejos posible entre sí. El trabajo del algoritmo se divide en varias etapas:

  1. seleccionar aleatoriamente k puntos que son los “centros de masa” iniciales de los cúmulos.
  2. Asigne cada objeto al grupo con el "centro de masa" más cercano.
  3. Recalcular los “centros de masa” de los cúmulos según su composición actual.
  4. Si no se cumple el criterio de parada del algoritmo, regrese al paso 2.
El cambio mínimo en el error cuadrático medio generalmente se elige como criterio para detener el algoritmo. También es posible detener el algoritmo si en el paso 2 no hubo objetos que se movieran de un grupo a otro.

Las desventajas de este algoritmo incluyen la necesidad de especificar la cantidad de clústeres para la partición.

Algoritmos difusos
El algoritmo de agrupamiento difuso más popular es el algoritmo c-means. Es una modificación del método k-medias. Pasos del algoritmo:

Este algoritmo puede no ser adecuado si se desconoce de antemano el número de grupos o si es necesario asignar inequívocamente cada objeto a un grupo.
Algoritmos basados ​​en la teoría de grafos.
La esencia de tales algoritmos es que una selección de objetos se representa en forma de gráfico. GRAMO=(V, mi), cuyos vértices corresponden a objetos y cuyas aristas tienen un peso igual a la “distancia” entre objetos. Las ventajas de los algoritmos de agrupación de gráficos son la claridad, la relativa facilidad de implementación y la capacidad de introducir diversas mejoras basadas en consideraciones geométricas. Los algoritmos principales son el algoritmo para identificar componentes conectados, el algoritmo para construir un árbol de expansión mínimo y el algoritmo de agrupación capa por capa.
Algoritmo para identificar componentes conectados.
En el algoritmo para identificar componentes conectados, se especifica el parámetro de entrada. R y en el gráfico se eliminan todos los bordes para los cuales las “distancias” son mayores R. Sólo los pares de objetos más cercanos permanecen conectados. El objetivo del algoritmo es seleccionar dicho valor. R, que se encuentra en el rango de todas las "distancias" en las que el gráfico "se desmorona" en varios componentes conectados. Los componentes resultantes son clusters.

Para seleccionar un parámetro R Por lo general, se construye un histograma de distribuciones de distancias por pares. En tareas con una estructura de grupos de datos bien definida, el histograma tendrá dos picos: uno corresponde a distancias dentro de grupos y el segundo, a distancias entre grupos. Parámetro R se selecciona de la zona mínima entre estos picos. Al mismo tiempo, es bastante difícil controlar el número de grupos utilizando un umbral de distancia.

Algoritmo de árbol de expansión mínimo
El algoritmo del árbol de expansión mínima primero construye un árbol de expansión mínimo en un gráfico y luego elimina secuencialmente los bordes con mayor peso. La figura muestra el árbol de expansión mínimo obtenido para nueve objetos.

Quitando el enlace etiquetado CD con una longitud de 6 unidades (el borde con la distancia máxima), obtenemos dos grupos: (A, B, C) y (D, E, F, G, H, I). El segundo grupo se puede dividir posteriormente en dos grupos más eliminando el borde EF, que tiene una longitud de 4,5 unidades.

Agrupación capa por capa
El algoritmo de agrupamiento capa por capa se basa en identificar componentes gráficos conectados a un cierto nivel de distancias entre objetos (vértices). El nivel de distancia lo establece el umbral de distancia. C. Por ejemplo, si la distancia entre objetos , Eso .

El algoritmo de agrupamiento capa por capa genera una secuencia de subgrafos del gráfico. GRAMO, que reflejan relaciones jerárquicas entre grupos:

,

Dónde G t = (V, E t)- gráfico de nivel con t,
,
con t– umbral de distancia t-ésimo,
m – número de niveles jerárquicos,
GRAMO 0 = (V, o), o es el conjunto vacío de aristas del gráfico obtenido por t 0 = 1,
sol = sol, es decir, un gráfico de objetos sin restricciones de distancia (la longitud de los bordes del gráfico), ya que t m = 1.

Cambiando los umbrales de distancia ( s 0 , ..., s metro), donde 0 = desde 0 < de 1 < …< con M= 1, es posible controlar la profundidad de la jerarquía de los clusters resultantes. Por lo tanto, el algoritmo de agrupamiento capa por capa es capaz de crear una partición de datos tanto plana como jerárquica.

Comparación de algoritmos

Complejidad computacional de los algoritmos.

Tabla de comparación de algoritmos
Algoritmo de agrupamiento Forma de racimo Datos de entrada resultados
Jerárquico gratis Número de clústeres o umbral de distancia para truncar la jerarquía Árbol de clúster binario
k-significa hiperesfera Número de conglomerados Centros de cluster
c-significa hiperesfera Número de grupos, grado de borrosidad. Centros cluster, matriz de membresía
Seleccionar componentes conectados gratis Umbral de distancia R
Árbol de expansión mínimo gratis Número de grupos o umbral de distancia para eliminar bordes Estructura de árbol de clusters.
Agrupación capa por capa gratis Secuencia de umbrales de distancia. Estructura de árbol de clusters con diferentes niveles de jerarquía.

Un poco sobre la aplicación.

En mi trabajo necesitaba seleccionar áreas individuales de estructuras jerárquicas (árboles). Aquellos. Básicamente, fue necesario cortar el árbol original en varios árboles más pequeños. Dado que un árbol dirigido es un caso especial de gráfico, entonces naturalmente Son adecuados los algoritmos basados ​​en la teoría de grafos.

A diferencia de un gráfico completamente conectado, en un árbol dirigido no todos los vértices están conectados por aristas y el número total de aristas es n–1, donde n es el número de vértices. Aquellos. En relación con los nodos del árbol, el trabajo del algoritmo para identificar los componentes conectados se simplificará, ya que eliminar cualquier número de bordes "dividirá" el árbol en componentes conectados (árboles individuales). El algoritmo del árbol de expansión mínima en este caso coincidirá con el algoritmo para seleccionar componentes conectados: al eliminar los bordes más largos, el árbol original se divide en varios árboles. En este caso, es obvio que se omite la fase de construcción del árbol de expansión mínima.

Si se utilizaran otros algoritmos, tendrían que tener en cuenta por separado la presencia de conexiones entre objetos, lo que complica el algoritmo.

Por otra parte, me gustaría decir que para lograr mejor resultado es necesario experimentar con la elección de las medidas de distancia y, a veces, incluso cambiar el algoritmo. No existe una solución única.

Hasta la fecha se han desarrollado más de cien algoritmos de agrupamiento diferentes. Como resultado del uso de diferentes métodos de agrupamiento, se pueden obtener diferentes resultados: grupos de diferentes formas, cantidad diferente o la composición de los clusters. Esto es normal y es una característica del funcionamiento de un algoritmo en particular.

Por ejemplo, los grupos de tipo "cadena" son posibles, cuando los grupos están representados por "cadenas" largas, grupos alargados, etc., y algunos métodos pueden crear grupos de forma arbitraria.

Varios métodos pueden intentar crear grupos de tamaños específicos (por ejemplo, pequeños o grandes) o asumir que hay grupos de diferentes tamaños en el conjunto de datos.

Algunos métodos de análisis de conglomerados son particularmente sensibles al ruido o a los valores atípicos, otros no tanto.

Los resultados obtenidos requieren una mayor interpretación, investigación y estudio de las propiedades y características de los objetos para poder describir con precisión los grupos formados.

El proceso de agrupamiento y su resultado dependen del método elegido y del método para determinar la medida de distancia.

Los métodos de análisis de conglomerados se pueden dividir en dos grupos:

    jerárquico;

    no jerárquica.

Cada uno de estos grupos incluye muchos enfoques y algoritmos.

10.5.1 Métodos de análisis de conglomerados jerárquicos

La esencia de la agrupación jerárquica es combinar secuencialmente grupos más pequeños en otros más grandes (métodos aglomerativos) o dividir grupos grandes en grupos más pequeños (métodos divisibles).

Los métodos de aglomeración jerárquica (Agglomerative Nesting, AGNES) se caracterizan por la combinación secuencial de elementos iniciales y la correspondiente reducción en el número de clusters. Al comienzo del algoritmo, todos los objetos son grupos separados. En el primer paso, los dos objetos más similares se combinan en un grupo. En los pasos siguientes, la fusión continúa hasta que todos los objetos forman un grupo.

Los métodos jerárquicos divisibles (divisibles) (DIvisive ANAlysis, DIANA) son el opuesto lógico de los métodos aglomerativos. Al comienzo del algoritmo, todos los objetos pertenecen a un grupo, que en pasos posteriores se divide en grupos más pequeños, lo que da como resultado una secuencia de grupos divididos.

La esencia de estos métodos se ilustra mediante un dendrograma en la Fig. 10.4.

Arroz. 10.4 Dendrograma de métodos aglomerativos y divisionales

La implementación software de algoritmos de análisis de conglomerados está ampliamente representada en diversas herramientas de minería de datos, que permiten resolver problemas de una dimensión bastante grande. Por ejemplo, los métodos aglomerativos se implementan en el paquete SPSS, los métodos divisionales, en el paquete Statgraf.

La ventaja de los métodos de agrupamiento jerárquico es su claridad. Sin embargo, los métodos de análisis de conglomerados jerárquicos se utilizan para conjuntos de datos pequeños.

Los algoritmos jerárquicos están asociados con la construcción de dendrogramas (del griego dendron - "árbol"), que son el resultado del análisis de conglomerados jerárquicos. Un dendrograma describe la proximidad de puntos individuales y grupos entre sí y representa en forma gráfica la secuencia de unificación (separación) de los grupos.

Dendrograma: un diagrama de árbol que contiene niveles, cada uno de los cuales corresponde a uno de los pasos en el proceso de consolidación secuencial de conglomerados. Un dendrograma también se denomina diagrama de árbol, árbol de conglomerados o árbol de estructura jerárquica. Un dendrograma es una agrupación anidada de objetos que cambia en diferentes niveles de la jerarquía.

Hay muchas formas de construir dendogramas. En un dendrograma, los objetos se pueden organizar vertical u horizontalmente. En la figura 2 se muestra un ejemplo de dendrograma horizontal. 10.4, dendograma vertical - en la Fig. 10.5.

Arroz. 10.5. dendograma vertical

En la Fig. 10.5, en el primer paso, cada observación representa un grupo (línea vertical), en el segundo paso observamos la unión de tales observaciones: 11 y 10; 3, 4 y 5; 8 y 9; 2 y 6. En el segundo paso, continúa el agrupamiento: observaciones 11, 10, 3, 4, 5 y 7, 8, 9. Este proceso continúa hasta que todas las observaciones se combinan en un solo grupo.

La unión se lleva a cabo utilizando uno de los métodos discutidos en la cláusula 10.4: el método del vecino más cercano, el método del vecino distante, el método de Ward, el método del promedio por pares, el método del centroide, etc.

Análisis de conglomerados(ClA) es un conjunto de métodos de clasificación multidimensional, cuyo propósito es formar grupos (clusters) de objetos similares. A diferencia de las agrupaciones tradicionales consideradas en la teoría general de la estadística, la ClA conduce a una división en grupos teniendo en cuenta todas las características de la agrupación simultáneamente.

Los métodos KLA le permiten resolver los siguientes problemas:

Realizar clasificación de objetos teniendo en cuenta muchas características;

Verificar las suposiciones hechas sobre la presencia de alguna estructura en el conjunto de objetos estudiado, es decir buscar una estructura existente;

Construcción de nuevas clasificaciones para fenómenos poco estudiados, cuando es necesario establecer la presencia de conexiones dentro de una población e intentar introducir estructura en la misma.

Para registrar algoritmos KLA formalizados, se utiliza lo siguiente: simbolos:

– un conjunto de objetos de observación;

i-ésima observación en el espacio de características m-dimensional ();

– distancia entre los objetos -ésimo y -;

– valores normalizados de las variables originales;

– matriz de distancias entre objetos.

Para implementar cualquier método KLA, es necesario introducir el concepto de "similitud de objetos". Además, durante el proceso de clasificación, cada grupo debe incluir objetos que sean más similares entre sí en términos de variables observadas.

Para cuantificar la similitud se introduce el concepto de métrica. Cada objeto se describe mediante características y se representa como un punto en el espacio dimensional. La similitud o diferencia entre objetos clasificados se establece en función de la distancia métrica entre ellos. Normalmente, se utilizan las siguientes medidas de distancia entre objetos:

distancia euclidiana ;

Distancia euclidiana ponderada ;

Distancia manzana-ciudad ;

distancia de Mahalanobis,

¿Dónde está la distancia entre el ésimo y el ésimo objeto?

, son los valores de la variable y, respectivamente, de los objetos -ésimo y -ésimo;

, – vectores de valores variables para los objetos -ésimo y -ésimo;

– matriz de covarianza general;

– peso asignado a la variable número 1.

Todos los métodos KLA se pueden dividir en dos grupos: jerárquicos (aglomerativos y divisionales) e iterativos (método de promedios, método de búsqueda de condensaciones).

Análisis de conglomerados jerárquicos. De todos los métodos de análisis de conglomerados, el más común es el algoritmo de clasificación aglomerativa. La esencia de Aggrogrit es que en el primer paso, cada objeto de muestra se considera como un grupo separado. El proceso de fusión de grupos se produce de forma secuencial: basándose en la matriz de distancia o matriz de similitud, se combinan los objetos más cercanos. Si la matriz de distancia inicialmente tiene dimensión (), entonces todo el proceso de fusión se completa en pasos (). Como resultado, todos los objetos se combinarán en un solo grupo.

La secuencia de asociación se puede representar como un dendrograma, como se muestra en la Figura 3.1. El dendrograma muestra que en el primer paso el segundo y el tercer objeto se combinaron en un grupo con una distancia entre ellos de 0,15. En el segundo paso, el primer objeto se unió a ellos. La distancia desde el primer objeto hasta el grupo que contiene el segundo y tercer objeto es 0,3, etc.

Muchos métodos de análisis de conglomerados jerárquicos difieren en sus algoritmos de combinación (similitud), de los cuales los más comunes son: el método de enlace único, el método de enlace completo, el método de enlace promedio y el método de Ward.

Método de enlace completo– la inclusión de un nuevo objeto en un grupo se produce sólo si la similitud entre todos los objetos no es inferior a un cierto nivel especificado de similitud (Figura 1.3).


b)


Método de enlace promedio– cuando se incluye un nuevo objeto en un grupo existente, se calcula el valor promedio de la medida de similitud, que luego se compara con un nivel de umbral específico. Si hablamos de combinar dos grupos, entonces se calcula una medida de similitud entre sus centros y se compara con un valor umbral determinado. Consideremos un ejemplo geométrico con dos grupos (Figura 1.4).

Figura 1.4. Combinando dos grupos usando el método de enlace promedio:

Si la medida de similitud entre los centros de los conglomerados () no es inferior a un nivel determinado, entonces los conglomerados se combinarán en uno solo.

El método de Ward.– en el primer paso, cada grupo consta de un objeto. Inicialmente, los dos grupos más cercanos se fusionan. Para ellos se determinan los valores medios de cada característica y se calcula la suma de las desviaciones al cuadrado.

, (1.1)

donde está el número de grupo, es el número de objeto, es el número de característica; – el número de características que caracterizan a cada objeto; número de objetos en - mcluster.

Posteriormente, en cada paso del algoritmo, se combinan aquellos objetos o clusters que dan el menor incremento de valor.

El método de Ward da como resultado grupos de tamaños aproximadamente iguales con una variación mínima dentro del grupo.

El algoritmo de análisis de conglomerados jerárquico se puede representar como una secuencia de procedimientos:

Normalización de valores iniciales de variables;

Cálculo de una matriz de distancias o una matriz de medidas de similitud;

Determinar un par de objetos más cercanos (grupos) y combinarlos según el algoritmo seleccionado;

Repitiendo los primeros tres procedimientos hasta que todos los objetos se combinen en un grupo.

La medida de similitud para combinar dos grupos se determina mediante los siguientes métodos:

Método del “vecino más cercano”: el grado de similitud entre conglomerados se evalúa por el grado de similitud entre los objetos más similares (más cercanos) de estos conglomerados;

El método del “vecino distante” – el grado de similitud se evalúa por el grado de similitud entre los objetos más distantes (disimilares) de los grupos;

Método de conexión promedio: el grado de similitud se estima como valor promedio grados de similitud entre objetos del grupo;

Método de enlace mediano: distancia entre cualquier grupo S y un nuevo cluster, que surgió de la fusión de clusters R Y q, definido como la distancia desde el centro del grupo S hasta la mitad del segmento que conecta los centros del grupo R Y q.

Método de búsqueda de condensación. Uno de los métodos de clasificación iterativos es el algoritmo de búsqueda de conglomerados. La esencia del algoritmo iterativo. este método Consiste en utilizar una hiperesfera de un radio determinado, que se mueve en el espacio de características de clasificación para buscar concentraciones locales de objetos.



El método de búsqueda de condensaciones requiere, en primer lugar, calcular una matriz de distancias (o una matriz de medidas de similitud) entre objetos y seleccionar el centro inicial de la esfera. Normalmente, en el primer paso, el centro de la esfera es el objeto (punto) en cuyas inmediaciones se encuentra el mayor número de vecinos. Basado en un radio de esfera dado (R) Se determina un conjunto de puntos que caen dentro de esta esfera y para ellos se calculan las coordenadas del centro (vector de valores promedio de las características).

Cuando el siguiente recálculo de las coordenadas del centro de la esfera conduce al mismo resultado que en el paso anterior, el movimiento de la esfera se detiene y los puntos que caen dentro de ella forman un grupo y quedan excluidos del proceso de agrupación posterior. Los procedimientos anteriores se repiten para todos los puntos restantes. El algoritmo se completa en un número finito de pasos y todos los puntos se distribuyen entre grupos. El número de cúmulos formados se desconoce de antemano y depende en gran medida del radio de la esfera.

Para evaluar la estabilidad de la partición resultante, es aconsejable repetir el proceso de agrupación varias veces para diferentes significados radio de la esfera, cambiando el radio una pequeña cantidad cada vez.

Hay varias formas de seleccionar el radio de una esfera. Si es la distancia entre el ésimo y el ésimo objeto, entonces elija , y el límite superior del radio se puede definir como .

Si inicia el algoritmo con un valor y lo cambia por un valor pequeño cada vez que se repite, entonces puede identificar los valores de los radios que conducen a la formación del mismo número de grupos, es decir, a una partición estable.

Ejemplo 1. Con base en los datos del Cuadro 1.1, es necesario clasificar cinco empresas mediante un análisis de conglomerados aglomerativo jerárquico.

Tabla 1.1

Aquí: – costo promedio anual de los activos fijos activos de producción, mil millones de rublos; – costes de materiales por rublo de productos manufacturados, kopeks; – volumen de productos producidos, miles de millones de rublos.

Solución. Antes de calcular la matriz de distancias, normalizamos los datos originales usando la fórmula

La matriz de valores de variables normalizadas se verá así

.

Realizaremos la clasificación mediante el método aglomerativo jerárquico. Para construir la matriz de distancias, usaremos la distancia euclidiana. Entonces, por ejemplo, la distancia entre el primer y segundo objeto será

La matriz de distancias caracteriza las distancias entre objetos, cada uno de los cuales, en el primer paso, representa un grupo separado.

.

Como puede verse en la matriz, los objetos más cercanos son y. Combinémoslos en un grupo y asignémosle un número. . Volvamos a calcular las distancias de todos los objetos restantes (grupos) al grupo y obtengamos una nueva matriz de distancias.

.

En la matriz, las distancias entre grupos se determinan utilizando el algoritmo de "vecino lejano". Entonces la distancia entre el objeto y el grupo es

En la matriz volvemos a encontrar los clusters más cercanos. Estos serán y , . Por tanto, en este paso también combinamos los clusters; obtenemos un nuevo grupo que contiene objetos. Asignémosle un número. . Ahora tenemos tres grupos (1,3), (2,5), (4).

.

A juzgar por la matriz, en el siguiente paso combinamos grupos y en un grupo y le asignamos un número. Ahora tenemos sólo dos grupos:

.

Y finalmente, en el último paso combinaremos los clusters a una distancia de 3.861.


Presentemos los resultados de la clasificación en forma de dendrograma (Figura 1.5). El dendrograma indica que el cúmulo es más homogéneo en la composición de los objetos entrantes, ya que en él la unión se produjo a distancias más cortas que en el cúmulo.

Figura 3.5 Dendrograma de agrupamiento de cinco objetos.

Ejemplo 2. Con base en los datos que figuran a continuación, clasifique las tiendas según tres criterios: – área de ventas, m2, – facturación por vendedor, sala de estar. unidades, – nivel de rentabilidad, %.

Número de tienda Número de tienda

Para clasificar tiendas, utilice el método de búsqueda de clústeres (debe seleccionar el primer clúster).

Solución. 1. Calcula las distancias entre objetos usando la métrica euclidiana.

,

donde , son los valores estandarizados de las variables iniciales para el ésimo y ésimo objeto, respectivamente; t– número de signos.

.

2. Basándonos en la matriz Z, calculamos una matriz simétrica cuadrada de distancias entre objetos () .

El análisis de la matriz de distancias ayuda a determinar la posición del centro inicial de la esfera y seleccionar el radio de la esfera.

En este ejemplo, la mayoría de las distancias "pequeñas" están en la primera línea, es decir el primer objeto tiene bastantes vecinos "cercanos". Por tanto, el primer objeto puede tomarse como centro de la esfera.

3. Establece el radio de la esfera. En este caso, los objetos cuya distancia al primer objeto es inferior a 2 caen en la esfera.

Para seis puntos (objetos 1, 2, 3, 6, 7, 8) determinamos las coordenadas del centro de gravedad: .

4. En el siguiente paso del algoritmo, colocamos el centro de la esfera en un punto y determinamos la distancia de cada objeto al nuevo centro.

, administración pública, filología, antropología, marketing, sociología, geología y otras disciplinas. Sin embargo, la universalidad de su aplicación ha llevado a la aparición de una gran cantidad de términos, métodos y enfoques incompatibles, lo que dificulta el uso inequívoco y la interpretación coherente del análisis de conglomerados.

YouTube enciclopédico

  • 1 / 5

    El análisis de conglomerados realiza las siguientes tareas principales:

    • Desarrollo de una tipología o clasificación.
    • Una exploración de esquemas conceptuales útiles para agrupar objetos.
    • Generar hipótesis a partir de la exploración de datos.
    • Pruebas de hipótesis o investigaciones para determinar si los tipos (grupos) identificados de una forma u otra están realmente presentes en los datos disponibles.

    Independientemente del tema de estudio, el uso del análisis de conglomerados implica los siguientes pasos:

    • Seleccionar una muestra para agrupar. La implicación es que tiene sentido agrupar sólo datos cuantitativos.
    • Determinar el conjunto de variables mediante las cuales se evaluarán los objetos de la muestra, es decir, el espacio de características.
    • Cálculo de los valores de una medida particular de similitud (o diferencia) entre objetos.
    • Utilizar el método de análisis de conglomerados para crear grupos de objetos similares.
    • Comprobación de la fiabilidad de los resultados de la solución de clúster.

    Puede encontrar una descripción de dos requisitos fundamentales para los datos: homogeneidad e integridad. La homogeneidad requiere que todas las entidades agrupadas sean de la misma naturaleza y estén descritas por un conjunto similar de características. Si el análisis de conglomerados va precedido de un análisis factorial, entonces no es necesario "reparar" la muestra; los requisitos establecidos se cumplen automáticamente mediante el propio procedimiento de modelado factorial (hay otra ventaja: la estandarización z sin consecuencias negativas para la muestra; si se realiza directamente para el análisis de conglomerados, puede conllevar una disminución en la claridad de la división de grupos). De lo contrario, será necesario ajustar la muestra.

    Tipología de problemas de agrupamiento.

    Tipos de entrada

    En la ciencia moderna, se utilizan varios algoritmos para procesar datos de entrada. El análisis mediante la comparación de objetos según sus características (más común en las ciencias biológicas) se denomina q-tipo de análisis, y en el caso de comparar características, basado en objetos - R-tipo de análisis. Hay intentos de utilizar tipos híbridos de análisis (por ejemplo, RQ-análisis), pero esta metodología aún no se ha desarrollado adecuadamente.

    Objetivos de la agrupación

    • Comprender los datos identificando la estructura del cluster. Dividir la muestra en grupos de objetos similares permite simplificar el procesamiento de datos y la toma de decisiones al aplicar un método de análisis diferente a cada grupo (la estrategia de “divide y vencerás”).
    • Compresión de datos. Si la muestra original es excesivamente grande, se puede reducir, dejando un representante más típico de cada grupo.
    • Detección de novedades. Se identifican objetos atípicos que no se pueden adjuntar a ninguno de los grupos.

    En el primer caso, intentan reducir el número de conglomerados. En el segundo caso, es más importante garantizar un alto grado de similitud de los objetos dentro de cada grupo, y puede haber cualquier número de grupos. En el tercer caso, los más interesantes son los objetos individuales que no encajan en ninguno de los grupos.

    En todos estos casos, se puede utilizar la agrupación jerárquica, cuando los grupos grandes se dividen en otros más pequeños, que a su vez se dividen en otros aún más pequeños, etc. Estos problemas se denominan problemas de taxonomía. La taxonomía da como resultado una estructura jerárquica en forma de árbol. En este caso, cada objeto se caracteriza por enumerar todos los clusters a los que pertenece, normalmente de mayor a menor.

    Métodos de agrupación

    No existe una clasificación generalmente aceptada de métodos de agrupamiento, pero se pueden distinguir varios grupos de enfoques (algunos métodos se pueden clasificar en varios grupos a la vez y, por lo tanto, se propone considerar esta tipificación como una aproximación a la clasificación real de métodos de agrupamiento). ):

    1. Enfoque probabilístico. Se supone que cada objeto considerado pertenece a una de las k clases. Algunos autores (por ejemplo, A.I. Orlov) creen que este grupo no tiene ninguna relación con la agrupación y se oponen a ella bajo el nombre de "discriminación", es decir, la elección de asignar objetos a uno de los grupos conocidos (muestras de entrenamiento).
    2. Enfoques basados ​​en sistemas de inteligencia artificial: un grupo muy condicional, ya que existen muchos métodos y son metodológicamente muy diferentes.
    3. Enfoque lógico. El dendrograma se construye utilizando un árbol de decisión.
    4. Enfoque teórico de grafos.
    5. Enfoque jerárquico. Se supone la presencia de grupos anidados (agrupaciones de diferentes órdenes). Los algoritmos, a su vez, se dividen en aglomerativos (unificadores) y divisionales (separadores). Según el número de características, a veces se distinguen métodos de clasificación monotéticos y politéticos.
      • Agrupación divisional jerárquica o taxonomía. Los problemas de agrupación se abordan en una taxonomía cuantitativa.
    6. Otros metodos. No incluido en grupos anteriores.
      • Algoritmos de agrupamiento estadístico
      • Conjunto de clusterizadores
      • Algoritmos de la familia KRAB
      • Algoritmo basado en el método de tamizado.

    Los enfoques 4 y 5 a veces se combinan bajo el nombre de enfoque estructural o geométrico, que tiene un concepto más formalizado de proximidad. A pesar de las diferencias significativas entre los métodos enumerados, todos se basan en el original " hipótesis de compacidad": en el espacio de objetos, todos los objetos cercanos deben pertenecer al mismo grupo y, en consecuencia, todos los objetos diferentes deben estar en grupos diferentes.

    Formulación formal del problema de agrupamiento.

    Dejar X (\displaystyle X)- muchos objetos, Y (\displaystyle Y)- un conjunto de números (nombres, etiquetas) de grupos. Se especifica la función de distancia entre objetos. ρ (x , x ′) (\displaystyle \rho (x,x")). Hay una muestra de entrenamiento finita de objetos. X m = ( x 1 , … , x m ) ⊂ X (\displaystyle X^(m)=\(x_(1),\dots ,x_(m)\)\subset X). Es necesario dividir la muestra en subconjuntos disjuntos llamados grupos, de modo que cada grupo consta de objetos que son similares en métrica ρ (\displaystyle \rho ), y los objetos de diferentes grupos eran significativamente diferentes. Al mismo tiempo, cada objeto x yo ∈ X m (\displaystyle x_(i)\in X^(m)) se asigna el número de grupo y yo (\displaystyle y_(i)).

    Algoritmo de agrupamiento es una función a: X → Y (\displaystyle a\dos puntos X\a Y), que a cualquier objeto x ∈ X (\displaystyle x\en X) coincide con el número de grupo y ∈ Y (\displaystyle y\en Y). Un montón de Y (\displaystyle Y) en algunos casos se sabe de antemano, pero más a menudo la tarea es determinar el número óptimo de conglomerados, desde el punto de vista de uno u otro. criterios de calidad agrupamiento.

    En general, vale la pena señalar que históricamente, las medidas de similitud en lugar de medidas de diferencia (distancia) se utilizan a menudo como medidas de proximidad en biología.

    En sociología

    Al analizar los resultados de la investigación sociológica, se recomienda realizar el análisis utilizando los métodos de la familia aglomerativa jerárquica, es decir, el método de Ward, en el que se optimiza la dispersión mínima dentro de los conglomerados, creando en última instancia conglomerados de tamaños aproximadamente iguales. El método de Ward es el más adecuado para analizar datos sociológicos. Una mejor medida de la diferencia es la distancia euclidiana cuadrática, que ayuda a aumentar el contraste de los grupos. El principal resultado del análisis de conglomerados jerárquico es un dendrograma o "diagrama de carámbano". Al interpretarlo, los investigadores se enfrentan al mismo tipo de problema que al interpretar los resultados del análisis factorial: la falta de criterios inequívocos para identificar conglomerados. Se recomienda utilizar dos métodos principales: análisis visual del dendrograma y comparación de los resultados de agrupación realizados mediante diferentes métodos.

    El análisis visual del dendrograma implica "recortar" el árbol en Nivel óptimo similitudes de los elementos de la muestra. Es aconsejable “cortar la rama de uva” (la terminología de M. S. Oldenderfer y R. K. Blashfield) en el nivel 5 de la escala Rescaled Distance Cluster Combine, de esta manera se logrará un nivel de similitud del 80%. Si resulta difícil identificar grupos utilizando esta etiqueta (varios grupos pequeños se fusionan en uno grande), puede seleccionar otra etiqueta. Esta técnica es propuesta por Oldenderfer y Blashfield.

    Ahora surge la cuestión de la sostenibilidad de la solución de clúster adoptada. En esencia, comprobar la estabilidad de la agrupación se reduce a comprobar su fiabilidad. Aquí hay una regla general: se conserva una tipología estable cuando cambian los métodos de agrupación. Los resultados del análisis de conglomerados jerárquico se pueden verificar mediante un análisis de conglomerados iterativo utilizando el método k-medias. Si las clasificaciones comparadas de grupos de encuestados tienen una tasa de coincidencia de más del 70% (más de 2/3 de las coincidencias), entonces se toma una decisión de grupo.

    Es imposible comprobar la adecuación de una solución sin recurrir a otro tipo de análisis. Al menos en términos teóricos, este problema no se ha resuelto. El artículo clásico de Oldenderfer y Blashfield, Análisis de conglomerados, analiza en detalle y, en última instancia, rechaza cinco métodos de prueba de robustez adicionales:

    1. correlación cofenética: no recomendada y de uso limitado;
    2. pruebas de significancia (análisis de varianza): siempre dan un resultado significativo;
    3. la técnica del muestreo repetido (aleatorio), que, sin embargo, no prueba la validez de la decisión;
    4. pruebas de significancia para signos externos adecuado sólo para mediciones repetidas;
    5. Los métodos de Monte Carlo son muy complejos y sólo son accesibles para matemáticos experimentados. (ing. detección de bordes) o reconocimiento de objetos.
    6. Análisis inteligente de datos (inglés: minería de datos): la agrupación en minería de datos adquiere valor cuando actúa como una de las etapas del análisis de datos y la construcción de una solución analítica completa. A menudo es más fácil para un analista identificar grupos de objetos similares, estudiar sus características y construir un modelo separado para cada grupo que crear un modelo general para todos los datos. Esta técnica se utiliza constantemente en marketing, identificando grupos de clientes, compradores, productos y desarrollando una estrategia separada para cada uno de ellos.

    A menudo en la mayoría Varias áreas En nuestras actividades tenemos que abordar una gran cantidad de temas respecto de los cuales es necesario tomar medidas.

    Y ni siquiera podemos comprender todo este volumen, y mucho menos entenderlo.

    ¿Dónde está la salida? Bueno, por supuesto, "poner todo en orden". En este caso, la sabiduría popular adquiere una formulación científica muy definida.

    El análisis de conglomerados es el estudio de objetos combinándolos en grupos homogéneos con características similares. Sus métodos son aplicables literalmente en todas las áreas: desde la medicina hasta el comercio de divisas, desde los seguros de automóviles hasta la arqueología. Y para los especialistas en marketing y recursos humanos es simplemente insustituible.

    Más detalles sobre esto en el artículo.

    ¿Qué es un clúster?

    El análisis de conglomerados está diseñado para dividir un conjunto de objetos en grupos homogéneos (clústeres o clases). Este es un problema de clasificación de datos multidimensional.


    Existen alrededor de 100 algoritmos de agrupamiento diferentes, sin embargo, los más utilizados son:

    1. análisis de conglomerados jerárquicos,
    2. k-significa agrupación.

    ¿Dónde se utiliza el análisis de conglomerados?

    • En marketing, esta es la segmentación de competidores y consumidores.
    • En la gestión:
      1. dividir al personal en grupos de diferentes niveles de motivación,
      2. clasificación de proveedores,
      3. identificación de situaciones de producción similares en las que se producen defectos.
    • En medicina: clasificación de síntomas, pacientes, fármacos.
    • En sociología, la división de los encuestados en grupos homogéneos.

    De hecho, el análisis de conglomerados ha demostrado su eficacia en todas las esferas de la vida humana. La belleza de este método es que funciona incluso cuando hay pocos datos y no se cumplen los requisitos de normalidad de las distribuciones de variables aleatorias y otros requisitos. métodos clásicos análisis estadístico.

    Expliquemos la esencia del análisis de conglomerados sin recurrir a una terminología estricta.

    Supongamos que realizó una encuesta a los empleados y desea determinar cómo administrar el personal de manera más efectiva. Es decir, desea dividir a los empleados en grupos y resaltar las palancas de gestión más efectivas para cada uno de ellos. Al mismo tiempo, las diferencias entre grupos deben ser obvias y dentro del grupo los encuestados deben ser lo más similares posible.

    Para resolver el problema, se propone utilizar el análisis de conglomerados jerárquico. Como resultado, obtendremos un árbol, al observar el cual debemos decidir en cuántas clases (clústeres) queremos dividir el personal. Supongamos que decidimos dividir al personal en tres grupos, luego, al estudiar a los encuestados que se encuentran en cada grupo, obtendremos una tabla con aproximadamente el siguiente contenido:


    Expliquemos cómo se forma la tabla anterior. La primera columna contiene el número del grupo, el grupo cuyos datos se reflejan en la línea. Por ejemplo, el primer grupo está formado por un 80% de hombres. El 90% del primer grupo pertenece a la categoría de edad de 30 a 50 años y el 12% de los encuestados cree que los beneficios son muy importantes. Etcétera.

    Intentemos crear retratos de los encuestados de cada grupo:

    1. El primer grupo está formado principalmente por hombres maduros que ocupan puestos de liderazgo. No les interesa el paquete social (MED, LGOTI, TIME-free time). Prefieren recibir un buen salario que la ayuda de un empleador.
    2. El grupo dos, por el contrario, da preferencia al paquete social. Está formado principalmente por personas "mayores" que ocupan puestos bajos. El salario es ciertamente importante para ellos, pero hay otras prioridades.
    3. El tercer grupo es el "más joven". A diferencia de los dos anteriores, existe un evidente interés por las oportunidades de aprendizaje y desarrollo profesional. Esta categoría de empleados tiene buenas posibilidades de unirse pronto al primer grupo.

    Así, al planificar una campaña de implementación métodos efectivos Gestión de personal, es obvio que en nuestra situación es posible incrementar el paquete social del segundo grupo en detrimento, por ejemplo, de los salarios. Si hablamos de qué especialistas deberían enviarse a recibir formación, definitivamente podemos recomendar que presten atención al tercer grupo.

    Fuente: "nickart.spb.ru"

    El análisis de clusters es la clave para entender el mercado

    Un grupo es el precio de un activo durante un cierto período de tiempo durante el cual se realizaron transacciones. El volumen resultante de compras y ventas se indica mediante un número dentro del grupo. Una barra de cualquier período de tiempo suele contener varios grupos. Esto le permite ver en detalle los volúmenes de compras, ventas y su saldo en cada barra individual, en cada nivel de precios.


    Construyendo un gráfico de conglomerados

    Un cambio en el precio de un activo implica inevitablemente una cadena de movimientos de precios en otros instrumentos. En la mayoría de los casos, comprender un movimiento de tendencia ocurre ya en el momento en que se está desarrollando rápidamente, y entrar al mercado siguiendo la tendencia corre el riesgo de terminar en una onda correctiva.

    Para que las transacciones sean exitosas, es necesario comprender la situación actual y poder anticipar los movimientos futuros de los precios. Esto se puede aprender analizando el gráfico de conglomerados. Mediante el análisis de conglomerados, puede ver la actividad de los participantes del mercado incluso dentro de la barra de precios más pequeña.

    Este es el análisis más preciso y detallado, ya que muestra la distribución puntual de los volúmenes de transacciones en cada nivel de precio de los activos. Existe un conflicto constante entre los intereses de vendedores y compradores en el mercado. Y cada pequeño movimiento de precios (tick) es un movimiento hacia un compromiso -un nivel de precios- que actualmente conviene a ambas partes.

    Pero el mercado es dinámico, el número de vendedores y compradores cambia constantemente. Si en un momento el mercado estuvo dominado por los vendedores, en el momento siguiente lo más probable es que haya compradores. El número de transacciones completadas en niveles de precios adyacentes tampoco es el mismo.

    Y, sin embargo, la situación del mercado se refleja primero en el volumen total de transacciones y sólo después en el precio. Si observa las acciones de los participantes dominantes en el mercado (vendedores o compradores), entonces puede predecir el movimiento del precio en sí.

    Para utilizar con éxito el análisis de conglomerados, primero debe comprender qué son un conglomerado y un delta:

    • Un grupo es un movimiento de precios que se divide en niveles en los que se realizaron transacciones con volúmenes conocidos.
    • Delta muestra la diferencia entre las compras y ventas que ocurren en cada grupo.


    Gráfico de conglomerados

    Cada cluster, o grupo de deltas, permite entender si los compradores o vendedores dominan el mercado en un momento dado. Basta con calcular el delta total sumando ventas y compras. Si el delta es negativo, entonces el mercado está sobrevendido y hay transacciones de venta redundantes. Cuando el delta es positivo, los compradores dominan claramente el mercado.

    El delta mismo puede tomar un valor normal o crítico. El valor del volumen delta por encima de lo normal en el grupo está resaltado en rojo. Si el delta es moderado, esto caracteriza un estado plano en el mercado. En valor normal delta en el mercado hay un movimiento de tendencia, pero un valor crítico es siempre un presagio de una reversión del precio.

    Comercio de divisas utilizando CA

    Para obtener el máximo beneficio, es necesario poder determinar la transición del delta de un nivel moderado a uno normal. De hecho, en este caso, podrá notar el comienzo de la transición del movimiento plano al de tendencia y podrá obtener el mayor beneficio.

    Un gráfico de grupos es más visual; en él se pueden ver niveles significativos de acumulación y distribución de volúmenes, y trazar niveles de soporte y resistencia.

    Esto permite al comerciante encontrar la entrada exacta a la operación. Con la ayuda del delta se puede juzgar el predominio de las ventas o compras en el mercado. El análisis de conglomerados le permite observar transacciones y rastrear sus volúmenes dentro de una barra de cualquier TF. Esto es especialmente importante cuando se acerca a niveles significativos de soporte o resistencia. Los juicios de grupo son la clave para comprender el mercado.

    Fuente: "orderflowtrading.ru"

    Áreas y características de aplicación del análisis de conglomerados.

    El término análisis de conglomerados (acuñado por primera vez por Tryon, 1939) en realidad incluye un conjunto de diferentes algoritmos de clasificación. Pregunta general La pregunta que se plantean los investigadores de muchos campos es cómo organizar los datos observados en estructuras visuales, es decir, ampliar las taxonomías.

    Por ejemplo, los biólogos se propusieron dividir a los animales en diferentes tipos describir significativamente las diferencias entre ellos. Según el sistema moderno adoptado en biología, los humanos pertenecen a primates, mamíferos, amniotas, vertebrados y animales.

    Tenga en cuenta que en esta clasificación, cuanto mayor sea el nivel de agregación, menor será la similitud entre los miembros de la clase correspondiente. Los humanos tienen más similitudes con otros primates (es decir, simios) que con miembros "periféricos" de la familia de los mamíferos (es decir, perros), etc.

    Tenga en cuenta que la discusión anterior se refiere a algoritmos de agrupamiento, pero no menciona nada sobre las pruebas de significación estadística. De hecho, el análisis de conglomerados no es tanto un método estadístico ordinario como un "conjunto" de varios algoritmos para "distribuir objetos en conglomerados".

    Existe la opinión de que, a diferencia de muchos otros procedimientos estadísticos, los métodos de análisis de conglomerados se utilizan en la mayoría de los casos cuando no se tienen hipótesis a priori sobre las clases, pero aún se encuentran en la etapa descriptiva del estudio. Debe entenderse que el análisis de conglomerados determina la “solución significativa más probable”.

    Por lo tanto, la prueba de significación estadística no es realmente aplicable aquí, incluso en los casos en los que se conocen los niveles p (como en el método K-medias).

    Las técnicas de agrupamiento se utilizan en una amplia variedad de campos. Hartigan (1975) hizo una excelente revisión de muchos estudios publicados que contenían resultados obtenidos utilizando métodos de análisis de conglomerados. Por ejemplo, en el campo de la medicina, la agrupación de enfermedades, tratamientos para enfermedades o síntomas de enfermedades conduce a taxonomías ampliamente utilizadas.

    En el campo de la psiquiatría, el diagnóstico correcto de grupos de síntomas como paranoia, esquizofrenia, etc. es crucial para una terapia exitosa. En arqueología, mediante el análisis de conglomerados, los investigadores intentan establecer taxonomías de herramientas de piedra, objetos funerarios, etc.

    Existen aplicaciones generalizadas del análisis de conglomerados en investigación de mercado. En general, siempre que es necesario clasificar “montañas” de información en grupos adecuados para su posterior procesamiento, el análisis de conglomerados resulta muy útil y eficaz.

    Agrupación de árboles

    El propósito de un algoritmo de unión (agrupación de árboles) es combinar objetos (por ejemplo, animales) en grupos suficientemente grandes utilizando alguna medida de similitud o distancia entre objetos. El resultado típico de este tipo de agrupamiento es un árbol jerárquico.

    Considere un diagrama de árbol horizontal. El diagrama comienza con cada objeto de la clase (en el lado izquierdo del diagrama). Ahora imagina que poco a poco (en pasos muy pequeños) “relajas” tu criterio sobre qué objetos son únicos y cuáles no. En otras palabras, se reduce el umbral relacionado con la decisión de combinar dos o más objetos en un grupo.


    Como resultado, vinculas más y más objetos y agregas (combinas) más y más grupos que consisten en elementos cada vez más diferentes. Finalmente, en el último paso, todos los objetos se combinan.

    En estos diagramas, los ejes horizontales representan la distancia de unión (en los diagramas de árbol vertical, los ejes verticales representan la distancia de unión). Entonces, para cada nodo en el gráfico (donde se forma un nuevo grupo), puede ver el valor de distancia para el cual los elementos correspondientes están asociados en un nuevo grupo único.

    Cuando los datos tienen una "estructura" clara en términos de grupos de objetos que son similares entre sí, es probable que esta estructura se refleje en el árbol jerárquico mediante diferentes ramas. Como resultado de un análisis exitoso utilizando el método de fusión, es posible detectar grupos (ramas) e interpretarlos.

    Medidas de distancia

    El método de unión o agrupamiento de árboles se utiliza para formar grupos de disimilitud o distancia entre objetos. Estas distancias se pueden definir en un espacio unidimensional o multidimensional. Por ejemplo, si tuviera que agrupar tipos de comida en una cafetería, podría tener en cuenta la cantidad de calorías que contiene, el precio, el sabor subjetivo, etc.

    La forma más directa de calcular distancias entre objetos en un espacio multidimensional es calcular distancias euclidianas. Si tiene un espacio bidimensional o tridimensional, entonces esta medida es la distancia geométrica real entre objetos en el espacio (como si las distancias entre objetos se midieran con una cinta métrica).

    Sin embargo, al algoritmo de agrupación no le "importa" si las distancias "proporcionadas" para esa distancia son las reales o alguna otra medida de distancia derivada, que sea más significativa para el investigador; y la tarea de los investigadores es seleccionar método correcto para aplicaciones específicas.

    1. Distancia euclidiana.
    2. Esto parece ser lo más tipo general distancias. Es simplemente una distancia geométrica en el espacio multidimensional y se calcula de la siguiente manera:

      Tenga en cuenta que la distancia euclidiana (y su cuadrado) se calcula a partir de los datos originales, no de los datos estandarizados. Esta es una forma común de calcularlo, que tiene ciertas ventajas (por ejemplo, la distancia entre dos objetos no cambia cuando se introduce en el análisis un nuevo objeto que puede ser un valor atípico).

      Sin embargo, las distancias pueden verse muy influenciadas por las diferencias entre los ejes a partir de los cuales se calculan las distancias.

      Por ejemplo, si uno de los ejes se mide en centímetros y luego lo convierte a milímetros (multiplicando los valores por 10), entonces la distancia euclidiana final (o el cuadrado de la distancia euclidiana) calculada a partir de las coordenadas cambiará. enormemente y, como resultado, los resultados del análisis de conglomerados pueden diferir mucho de los anteriores.

    3. Distancia euclidiana al cuadrado.
    4. A veces es posible que desees elevar al cuadrado la distancia euclidiana estándar para dar más peso a los objetos que están más separados. Esta distancia se calcula de la siguiente manera:

    5. Distancia a una cuadra de la ciudad (distancia de Manhattan).
    6. Esta distancia es simplemente el promedio de las diferencias sobre las coordenadas. En la mayoría de los casos, esta medida de distancia produce los mismos resultados que la distancia euclidiana ordinaria.

      Sin embargo, observamos que para esta medida la influencia de las grandes diferencias individuales (valores atípicos) se reduce (ya que no están al cuadrado). La distancia de Manhattan se calcula mediante la fórmula:

    7. Distancia de Chebyshev.
    8. Esta distancia puede resultar útil cuando se quiere definir dos objetos como "diferentes" si difieren en alguna coordenada (en cualquier dimensión). La distancia de Chebyshev se calcula mediante la fórmula:

    9. Distancia de poder.

      A veces se desea aumentar o disminuir progresivamente un peso relacionado con una dimensión para la cual los objetos correspondientes son muy diferentes. Esto se puede lograr utilizando la distancia de ley de potencia. La distancia de potencia se calcula mediante la fórmula:

      donde r y p son parámetros definidos por el usuario.

      Unos cuantos cálculos de ejemplo pueden mostrar cómo “funciona” esta medida:

      • El parámetro p es responsable de sopesar gradualmente las diferencias a lo largo de coordenadas individuales.
      • El parámetro r se encarga de sopesar progresivamente grandes distancias entre objetos.
      • Si ambos parámetros r y p son iguales a dos, entonces esta distancia coincide con la distancia euclidiana.
    10. Porcentaje de desacuerdo.
    11. Esta medida se utiliza cuando los datos son categóricos. Esta distancia se calcula mediante la fórmula:

    Reglas de asociación o conexión

    En el primer paso, cuando cada objeto es un grupo separado, las distancias entre estos objetos están determinadas por la medida seleccionada. Sin embargo, cuando se unen varios objetos, surge la pregunta: ¿cómo se deben determinar las distancias entre los grupos?

    En otras palabras, se necesita una regla de unión o conexión para los dos clusters. Hay varias posibilidades: Por ejemplo, puede vincular dos grupos cuando dos objetos cualesquiera en dos grupos están más cerca entre sí que la distancia de enlace correspondiente.

    En otras palabras, se utiliza la "regla del vecino más cercano" para determinar la distancia entre grupos; este método se llama método de enlace único. Esta regla forma grupos "fibrosos", es decir. grupos “unidos entre sí” sólo por elementos individuales que resultan estar más cercanos entre sí.

    Alternativamente, puede utilizar vecinos en grupos que estén más alejados entre sí por todos los demás pares de objetos. Este método se denomina método de enlace completo. También existen muchos otros métodos para combinar clusters similares a los discutidos.

    • Enlace único (método del vecino más cercano).
    • Como se describió anteriormente, en este método, la distancia entre dos grupos está determinada por la distancia entre los dos objetos más cercanos (vecinos más cercanos) en diferentes grupos.

      Esta regla debe, en cierto sentido, encadenar objetos para formar grupos, y los grupos resultantes tienden a estar representados por largas "cadenas".

    • Enlace completo (método de los vecinos más lejanos).
    • En este método, las distancias entre grupos están determinadas por la distancia más grande entre dos objetos cualesquiera en diferentes grupos (es decir, "vecinos más distantes").

      Este método suele funcionar muy bien cuando los objetos provienen de "arboledas" realmente diferentes.

      Si los racimos tienen una forma algo alargada o su tipo natural es “cadena”, entonces este método no es adecuado.

    • Promedio por pares no ponderado.
    • En este método, la distancia entre dos grupos diferentes se calcula como la distancia promedio entre todos los pares de objetos que los contienen. El método es efectivo cuando los objetos realmente forman diferentes “arboledas”, pero funciona igualmente bien en casos de grupos extendidos (“tipo cadena”).

      Tenga en cuenta que en su libro, Sneath y Sokal (1973) introducen la abreviatura UPGMA para referirse a este método como el método de grupos de pares no ponderados que utiliza promedios aritméticos.

    • Promedio ponderado por pares.
    • El método es idéntico al método de promedio por pares no ponderado, excepto que el tamaño de los grupos correspondientes (es decir, la cantidad de objetos que contienen) se utiliza como factor de ponderación en los cálculos. Por lo tanto, el método propuesto debe utilizarse cuando se esperan tamaños de conglomerados desiguales.

      El libro de Sneath y Sokal (1973) introduce la abreviatura WPGMA para referirse a este método como método de grupos de pares ponderados que utiliza promedios aritméticos.

    • Método del centroide no ponderado.
    • En este método, la distancia entre dos grupos se define como la distancia entre sus centros de gravedad.

      Sneath y Sokal (1973) utilizan la abreviatura UPGMC para referirse a este método como el método de grupos de pares no ponderados que utiliza el promedio del centroide.

    • Método del centroide ponderado (mediana).
    • Este método es idéntico al anterior, excepto que el cálculo utiliza pesos para tener en cuenta la diferencia entre los tamaños de los grupos (es decir, la cantidad de objetos que contienen).

      Por lo tanto, si existen (o se sospecha) diferencias significativas en el tamaño de los conglomerados, este método es preferible al anterior.

      Sneath y Sokal (1973) utilizaron la abreviatura WPGMC para referirse a él como método de grupos de pares ponderados utilizando el promedio centroide.

    • El método de Ward.
    • Este método es diferente de todos los demás métodos porque utiliza técnicas de análisis de varianza para estimar las distancias entre grupos. El método minimiza la suma de cuadrados (SS) para dos grupos (hipotéticos) cualesquiera que se puedan formar en cada paso.

      Los detalles se pueden encontrar en Ward (1963). En general, el método parece muy eficaz, pero tiende a crear pequeños grupos.

    Combinación de dos entradas

    Este método se analizó anteriormente en términos de los "objetos" que deben agruparse. En todos los demás tipos de análisis, la cuestión de interés para el investigador suele expresarse en términos de observaciones o variables. Resulta que la agrupación, tanto por observaciones como por variables, puede conducir a resultados bastante interesantes.

    Por ejemplo, imagine que un investigador médico está recopilando datos sobre diversas características (variables) de las condiciones (casos) de los pacientes que padecen una enfermedad cardíaca. Es posible que un investigador desee agrupar observaciones (pacientes) para identificar grupos de pacientes con síntomas similares.

    Al mismo tiempo, es posible que el investigador desee agrupar variables para identificar grupos de variables que estén asociadas con condiciones físicas similares. Después de esta discusión sobre si agrupar observaciones o variables, uno podría preguntarse: ¿por qué no agrupar en ambas direcciones?

    El módulo Análisis de conglomerados contiene una eficiente rutina de unión bidireccional que le permite hacer precisamente eso. Sin embargo, la agrupación bidireccional se utiliza (relativamente raramente) en circunstancias en las que se espera que tanto las observaciones como las variables contribuyan simultáneamente al descubrimiento de grupos significativos.

    Así, volviendo al ejemplo anterior, podemos suponer que un investigador médico necesita identificar grupos de pacientes que son similares en relación con ciertos grupos de características de condición física.

    La dificultad para interpretar los resultados obtenidos surge del hecho de que las similitudes entre diferentes grupos pueden surgir de (o ser la causa de) algunas diferencias en subconjuntos de variables. Por tanto, los grupos resultantes son de naturaleza heterogénea.

    Esto puede parecer un poco confuso al principio; de hecho, en comparación con otros métodos de análisis de conglomerados descritos, la unión bidireccional es probablemente el método menos utilizado. Sin embargo, algunos investigadores creen que ofrece un medio poderoso de análisis exploratorio de datos (para más información, consulte la descripción de este método que hace Hartigan (1975).

    K significa método

    Este método de agrupación difiere significativamente de métodos de aglomeración como la Unión (agrupación de árboles) y la Unión bidireccional. Supongamos que ya tiene hipótesis sobre el número de conglomerados (basadas en observaciones o variables).

    Puede indicarle al sistema que forme exactamente tres grupos para que sean lo más distintos posible. Este es exactamente el tipo de problema que resuelve el algoritmo K-means. En general, el método K-medias construye exactamente K grupos diferentes ubicados a la mayor distancia posible entre sí.

    En el ejemplo de la condición física, un investigador médico podría tener una “corazonada” a partir de su experiencia clínica de que sus pacientes generalmente se clasifican en tres categorías diferentes. A continuación, es posible que desee saber si su intuición puede confirmarse numéricamente, es decir, ¿el análisis de conglomerados de K-medias realmente produce tres grupos de pacientes como se esperaba?

    Si este es el caso, entonces los promedios de las diversas medidas de parámetros físicos para cada grupo proporcionarán una forma cuantitativa de representar las hipótesis del investigador (por ejemplo, los pacientes en el grupo 1 tienen un parámetro 1 alto, un parámetro 2 bajo, etc.) .

    Desde un punto de vista computacional, puedes considerar este método como un análisis de varianza a la inversa.

    El programa comienza con K grupos seleccionados aleatoriamente y luego cambia la membresía de los objetos en ellos para que:

    1. minimizar la variabilidad dentro de los grupos,
    2. maximizar la variabilidad entre conglomerados.

    Este método es similar al ANOVA inverso en que la prueba de significancia en ANOVA compara la variabilidad entre grupos y dentro del grupo al probar la hipótesis de que las medias de los grupos difieren entre sí.

    En el agrupamiento de K-medias, el programa mueve objetos (es decir, observaciones) de un grupo (grupo) a otro para obtener el resultado más significativo al realizar un análisis de varianza (ANOVA). Normalmente, una vez que se obtienen los resultados de un análisis de conglomerados de K-medias, se pueden calcular las medias de cada conglomerado a lo largo de cada dimensión para evaluar qué tan diferentes son los conglomerados entre sí.

    Lo ideal sería obtener medias muy variables para la mayoría, si no todas, las mediciones utilizadas en el análisis. Los valores del estadístico F obtenidos para cada dimensión son otro indicador de qué tan bien la dimensión correspondiente discrimina entre conglomerados.

    Fuente: "biometrica.tomsk.ru"

    Clasificación de objetos según sus características.

    El análisis de conglomerados es un conjunto de métodos estadísticos multidimensionales para clasificar objetos según las características que los caracterizan, dividir un conjunto de objetos en grupos homogéneos que son similares en la definición de criterios e identificar objetos de un determinado grupo.

    Un grupo es un grupo de objetos identificados como resultado de un análisis de grupos basado en una medida determinada de similitud o diferencia entre objetos. Objeto: estos son objetos de investigación específicos que deben clasificarse. Los objetos de clasificación son, por regla general, observaciones. Por ejemplo, consumidores de productos, países o regiones, productos, etc.

    Aunque es posible realizar análisis de conglomerados por variables. La clasificación de objetos en el análisis de conglomerados multidimensional se realiza según varios criterios simultáneamente, que pueden ser variables tanto cuantitativas como categóricas, según el método de análisis de conglomerados. Entonces, el objetivo principal del análisis de conglomerados es encontrar grupos de objetos similares en la muestra.

    El conjunto de métodos estadísticos multivariados de análisis de conglomerados se puede dividir en métodos jerárquicos (aglomerativos y divisivos) y no jerárquicos (método k-medias, análisis de conglomerados en dos etapas).

    Sin embargo, no existe una clasificación de métodos generalmente aceptada y los métodos de análisis de conglomerados a veces también incluyen métodos para construir árboles de decisión, redes neuronales, análisis discriminante y regresión logística.

    El ámbito de uso del análisis de conglomerados, debido a su versatilidad, es muy amplio. El análisis de conglomerados se utiliza en economía, marketing, arqueología, medicina, psicología, química, biología, administración pública, filología, antropología, sociología y otros campos.

    A continuación se muestran algunos ejemplos del uso del análisis de conglomerados:

    • medicina – clasificación de enfermedades, sus síntomas, métodos de tratamiento, clasificación de grupos de pacientes;
    • marketing: tareas de optimizar la línea de productos de la empresa, segmentar el mercado por grupos de bienes o consumidores, determinar consumidor potencial;
    • sociología: dividir a los encuestados en grupos homogéneos;
    • psiquiatría: el diagnóstico correcto de los grupos de síntomas es decisivo para el éxito de la terapia;
    • biología: clasificación de organismos por grupo;
    • Economía: clasificación de las entidades constituyentes de la Federación de Rusia según su atractivo para la inversión.

    Fuente: "statmethods.ru"

    Comprender el análisis de conglomerados

    El análisis de conglomerados incluye un conjunto de diferentes algoritmos de clasificación. Una pregunta común que hacen los investigadores en muchos campos es cómo organizar los datos observados en estructuras visuales.

    Por ejemplo, los biólogos pretenden clasificar los animales en diferentes especies para poder describir de manera significativa las diferencias entre ellos.

    La tarea del análisis de conglomerados es dividir el conjunto inicial de objetos en grupos de objetos similares que estén cerca unos de otros. Estos grupos se llaman clusters.

    En otras palabras, el análisis de conglomerados es una de las formas de clasificar objetos según sus características. Es deseable que los resultados de la clasificación tengan una interpretación significativa.

    Los resultados obtenidos mediante métodos de análisis de conglomerados se utilizan en diversos campos:

    1. En marketing, esta es la segmentación de competidores y consumidores.
    2. En psiquiatría, el diagnóstico correcto de síntomas como paranoia, esquizofrenia, etc. es decisivo para el éxito de una terapia.
    3. En la gestión, es importante clasificar a los proveedores e identificar situaciones de producción similares en las que ocurren defectos.
    4. En sociología, la división de los encuestados en grupos homogéneos.
    5. En la inversión de cartera, es importante agrupar los valores por similitud en las tendencias de rentabilidad para crear, a partir de la información obtenida sobre el mercado de valores, una cartera de inversión óptima que le permita maximizar el rendimiento de la inversión con un determinado grado de riesgo.

    De hecho, el análisis de conglomerados ha demostrado su eficacia en todas las esferas de la vida humana. En general, siempre que sea necesario clasificar una gran cantidad de información de este tipo y presentarla en una forma adecuada para su posterior procesamiento, el análisis de conglomerados resulta muy útil y eficaz.

    El análisis de conglomerados le permite considerar una cantidad bastante grande de información y comprimirla en gran medida. grandes matrices información socioeconómica, hacerlos compactos y visuales.

    El análisis de conglomerados es de gran importancia en relación con conjuntos de series temporales que caracterizan el desarrollo económico (por ejemplo, las condiciones económicas y de productos básicos generales).

    Aquí se pueden resaltar períodos en los que los valores de los indicadores correspondientes eran bastante cercanos, así como determinar grupos de series temporales cuya dinámica es más similar. En las tareas de previsión socioeconómica, la combinación del análisis de conglomerados con otros métodos resulta muy prometedora. Métodos cuantitativos(por ejemplo, con análisis de regresión).

    Ventajas y desventajas

    El análisis de conglomerados permite una clasificación objetiva de cualquier objeto que se caracterice por una serie de características. Hay una serie de beneficios que se pueden derivar de esto:

    • Los grupos resultantes se pueden interpretar, es decir, pueden describir qué grupos existen realmente.
    • Se pueden descartar grupos individuales. Esto es útil en los casos en que se cometieron ciertos errores durante la recopilación de datos, como resultado de lo cual los valores de los indicadores para objetos individuales se desvían marcadamente. Al aplicar el análisis de conglomerados, dichos objetos se incluyen en un grupo separado.
    • Sólo aquellos conglomerados que tengan las características de interés pueden seleccionarse para un análisis más detallado.

    Como cualquier otro método, el análisis de conglomerados tiene ciertas desventajas y limitaciones. En particular:

    1. la composición y el número de grupos dependen de los criterios de partición seleccionados,
    2. al reducir la matriz de datos original a una forma más compacta, pueden ocurrir ciertas distorsiones,
    3. Las características individuales de objetos individuales pueden perderse reemplazándolas con las características de valores generalizados de los parámetros del grupo.

    Métodos

    Actualmente se conocen más de cien algoritmos de agrupamiento diferentes. Su diversidad se explica no sólo por los diferentes métodos computacionales, sino también por los diferentes conceptos subyacentes al clustering. Es posible dar recomendaciones para elegir uno u otro método de agrupación solo en bosquejo general, y el principal criterio de selección es la utilidad práctica del resultado.

    El paquete Statistica implementa los siguientes métodos de agrupación:

    • Algoritmos jerárquicos: agrupación de árboles. Los algoritmos jerárquicos se basan en la idea de agrupamiento secuencial. En el paso inicial, cada objeto se considera como un grupo separado. En el siguiente paso, algunos de los grupos más cercanos entre sí se combinarán en un grupo separado.
    • Método K-medias. Este método se utiliza con mayor frecuencia. Pertenece al grupo de los denominados métodos de referencia del análisis de conglomerados. El número de grupos K lo especifica el usuario.
    • Combinación de dos entradas. Cuando se utiliza este método, la agrupación se realiza simultáneamente tanto por variables (columnas) como por observaciones (filas).

    El procedimiento de agrupación bidireccional se utiliza en los casos en los que se puede esperar que la agrupación simultánea de variables y observaciones produzca resultados significativos.

    Los resultados del procedimiento son estadísticas descriptivas de las variables y observaciones, así como un gráfico de colores bidimensional en el que los valores de los datos están codificados por colores. A partir de la distribución de los colores, puedes hacerte una idea de los grupos homogéneos.

    Normalización de variables

    Dividir el conjunto inicial de objetos en grupos implica calcular las distancias entre objetos y seleccionar objetos cuya distancia sea la más pequeña de todas las posibles. La más utilizada es la distancia euclidiana (geométrica) que todos conocemos. Esta métrica corresponde a ideas intuitivas sobre la proximidad de los objetos en el espacio (como si las distancias entre objetos se midieran con una cinta métrica).

    Pero para una métrica determinada, la distancia entre objetos puede verse muy afectada por cambios en las escalas (unidades de medida). Por ejemplo, si una de las características se mide en milímetros y luego su valor se convierte a centímetros, la distancia euclidiana entre objetos cambiará mucho. Esto conducirá al hecho de que los resultados del análisis de conglomerados pueden diferir significativamente de los anteriores.

    Si las variables se miden en diferentes unidades de medida, entonces se requiere su normalización preliminar, es decir, una transformación de los datos originales que los convierta en cantidades adimensionales.

    La normalización distorsiona en gran medida la geometría del espacio original, lo que puede cambiar los resultados de la agrupación. En el paquete Statistica, la normalización de cualquier variable x se realiza mediante la fórmula:

    Para hacer esto, haga clic derecho en el nombre de la variable y seleccione la secuencia de comandos en el menú que se abre: Rellenar/Estandarizar bloque/Estandarizar columnas. Los valores de la variable normalizada serán iguales a cero y la varianza será igual a uno.

    Método K-medias en el programa Statistica

    El método K-medias divide un conjunto de objetos en un número dado K de diferentes grupos ubicados a las mayores distancias posibles entre sí. Normalmente, una vez que se obtienen los resultados de un análisis de conglomerados de K-medias, se pueden calcular las medias de cada conglomerado a lo largo de cada dimensión para evaluar qué tan diferentes son los conglomerados entre sí.

    Lo ideal sería obtener medias muy variables para la mayoría de las mediciones utilizadas en el análisis. Los valores del estadístico F obtenidos para cada dimensión son otro indicador de qué tan bien la dimensión correspondiente discrimina entre conglomerados.

    Como ejemplo, consideremos los resultados de una encuesta realizada a 17 empleados de una empresa sobre su satisfacción con los indicadores de calidad de su carrera. La tabla proporciona respuestas a las preguntas de la encuesta en una escala de diez puntos (1 es la puntuación mínima, 10 es la máxima).

    Los nombres de las variables corresponden a las respuestas a las siguientes preguntas:

    1. SLC: una combinación de objetivos personales y objetivos organizacionales;
    2. OSO – sentido de equidad en la remuneración;
    3. TBD: proximidad territorial al hogar;
    4. OEB – sensación de bienestar económico;
    5. KR – crecimiento profesional;
    6. ZhSR – deseo de cambiar de trabajo;
    7. RSD – sensación de bienestar social.


    A partir de estos datos, es necesario dividir a los empleados en grupos e identificar las palancas de gestión más eficaces para cada uno de ellos. Al mismo tiempo, las diferencias entre grupos deben ser obvias y dentro del grupo los encuestados deben ser lo más similares posible.

    Hoy en día, la mayoría de las encuestas sociológicas proporcionan sólo porcentaje votos: se considera el número principal de quienes respondieron positivamente, o el porcentaje de insatisfechos, pero este tema no se considera sistemáticamente. La mayoría de las veces, la encuesta no muestra una tendencia en la situación.

    Los procedimientos de análisis de conglomerados se pueden utilizar para identificar, basándose en datos de encuestas, algunas relaciones de características realmente existentes y generar su tipología sobre esta base. La presencia de hipótesis a priori de un sociólogo cuando opera procedimientos de análisis de conglomerados no es una condición necesaria.

    En Statistica, el análisis de conglomerados se realiza de la siguiente manera.

    1. Crea un archivo de datos.
    2. Seleccione el módulo Estadística/Técnicas exploratorias multivariables/Análisis de conglomerados. Haga clic en Aceptar, lo que hará que aparezca un cuadro de diálogo:

    3. En la ventana que aparece, seleccione el método de agrupación en clústeres K-medias y haga clic en Aceptar.
    4. En el cuadro de diálogo que aparece, debe establecer las siguientes configuraciones:


      • Seleccione variables usando el botón Variables.
      • Seleccione objetos de agrupación: pueden ser variables - columnas (Variables сolumns)) u observaciones - filas (Casos (Filas)). Primero, agrupemos por filas (Casos (filas)).
      • Seleccione el número de grupos.
        Esta elección la realiza el usuario basándose en sus propias suposiciones sobre el número de grupos de objetos similares.

        Al elegir la cantidad de grupos, guíese por lo siguiente:

        1. El número de grupos, si es posible, no debería ser demasiado grande.
        2. La distancia a la que se combinaron los objetos de un grupo determinado debería, si es posible, mucho menor que la distancia a la que algo más se une a este grupo.
        Al elegir el número de grupos, la mayoría de las veces hay varias soluciones correctas al mismo tiempo. Nos interesa, por ejemplo, cómo se comparan las respuestas a las preguntas de la encuesta entre los empleados ordinarios y la dirección de la empresa. Por tanto elegimos K=2. Para una mayor segmentación, puede aumentar el número de clústeres.
      • A continuación, debe seleccionar la división inicial de los objetos en grupos (centros de grupo iniciales). El paquete Estadística ofrece:
        1. seleccionar observaciones con la distancia máxima entre los centros de los conglomerados;
        2. ordenar distancias y seleccionar observaciones a intervalos regulares (configuración predeterminada);
        3. tome las primeras observaciones como centros y adjunte los objetos restantes a ellos.

        La primera opción es adecuada para nuestros propósitos.

    Muchos algoritmos de agrupamiento a menudo “imponen” una estructura antinatural a los datos y desorientan al investigador. Por lo tanto, es extremadamente necesario aplicar varios algoritmos de análisis de conglomerados y sacar conclusiones basadas en una evaluación general de los resultados de los algoritmos.

    Los resultados del análisis se pueden ver en el cuadro de diálogo que aparece:

    Si selecciona la pestaña Gráfico de medias, se construirá un gráfico de las coordenadas de los centros de los conglomerados:


    Cada línea discontinua en este gráfico corresponde a uno de los grupos:

    • Cada división en el eje horizontal del gráfico corresponde a una de las variables incluidas en el análisis.
    • El eje vertical corresponde a los valores promedio de las variables de los objetos incluidos en cada uno de los clusters.

    Se puede observar que existen diferencias significativas en la actitud de los dos grupos de personas hacia sus carreras en casi todas las cuestiones. Sólo hay total unanimidad en una cuestión: la sensación de bienestar social (SSW), o más bien, la falta del mismo (2,5 puntos sobre 10).

    Se puede suponer que:

    1. El grupo 1 muestra trabajadores,
    2. grupo 2 – liderazgo:
      • Los gerentes están más satisfechos con el crecimiento profesional (CG), la combinación de metas personales y metas organizacionales (CLO).
      • Tienen niveles más altos de bienestar económico percibido (SEW) y equidad salarial percibida (SPE).
      • Están menos preocupados por la proximidad territorial al hogar (TPH) que los trabajadores, probablemente debido a menos problemas con el transporte.
      • Además, los directivos tienen menos ganas de cambiar de trabajo (JSR).

    A pesar de que los trabajadores se dividen en dos categorías, responden a la mayoría de las preguntas de manera relativamente igualitaria. En otras palabras, si algo no conviene al conjunto general de empleados, tampoco conviene a la alta dirección, y viceversa.

    La coordinación de horarios nos permite sacar conclusiones de que el bienestar de un grupo se refleja en el bienestar de otro.

    El grupo 1 no está satisfecho con la proximidad territorial a su hogar. Este grupo constituye el grueso de los trabajadores que llegan principalmente a la empresa con lados diferentes ciudades. Por tanto, es posible proponer a la dirección principal destinar parte de los beneficios a la construcción de viviendas para los empleados de la empresa.

    Existen diferencias significativas en la actitud de los dos grupos de personas hacia sus carreras:

    1. Aquellos empleados que están satisfechos con su crecimiento profesional, que tienen un alto nivel de concordancia entre sus metas personales y las metas de la organización, no tienen deseos de cambiar de trabajo y se sienten satisfechos con los resultados de su trabajo.
    2. Por el contrario, los empleados que quieren cambiar de trabajo y no están satisfechos con los resultados de su trabajo no están satisfechos con los indicadores indicados.

    La alta dirección debe contactar Atención especial a la situación actual.

    Los resultados del análisis de varianza para cada característica se muestran al hacer clic en el botón Análisis de varianza:

    Salidas:

    • suma de desviaciones al cuadrado de objetos desde los centros de los grupos (SS dentro),
    • suma de desviaciones al cuadrado entre centros de conglomerados (SS Between),
    • valores del estadístico F,
    • niveles de significancia p.
    Para nuestro ejemplo, los niveles de significancia de dos variables son bastante grandes, lo que se explica por el pequeño número de observaciones. En la versión completa del estudio, que se puede encontrar en el trabajo, la hipótesis sobre la igualdad de medias para los centros de conglomerados se rechaza en niveles de significancia inferiores a 0,01.

    El botón Guardar clasificaciones y distancias muestra la cantidad de objetos incluidos en cada grupo y las distancias de los objetos al centro de cada grupo.

    La composición de cada grupo y la distancia de los objetos al centro.

    La tabla muestra los números de observación (CASE_NO), los grupos constituyentes con números de CLUSTER y la distancia desde el centro de cada grupo (DISTANCIA).

    La información sobre los objetos que pertenecen a grupos se puede escribir en un archivo y utilizar en análisis posteriores. En este ejemplo, una comparación de los resultados obtenidos con los cuestionarios mostró que el grupo 1 está formado principalmente por trabajadores comunes y el grupo 2 por gerentes.

    Así, se puede observar que al procesar los resultados de la encuesta, el análisis de conglomerados resultó ser un método poderoso que nos permite sacar conclusiones a las que no se puede llegar construyendo un histograma de promedios o calculando el porcentaje de personas satisfechas con varios indicadores. de la calidad de vida laboral.

    La agrupación de árboles es un ejemplo de un algoritmo jerárquico, cuyo principio es combinar secuencialmente en un grupo, primero los elementos más cercanos y luego cada vez más distantes entre sí. La mayoría de estos algoritmos parten de una matriz de similitud (distancia) y cada elemento individual se considera primero como un grupo separado.

    Después de cargar el módulo de análisis de conglomerados y seleccionar Unirse (agrupación de árboles), en la ventana para ingresar los parámetros de agrupación puede cambiar siguientes parámetros:

    1. Datos iniciales (Entrada). Pueden tener la forma de una matriz de los datos en estudio (Datos sin procesar) y la forma de una matriz de distancias (Matriz de distancias).
    2. Agrupación de observaciones (Casos (sin procesar)) o variables (Variable (columnas)) que describen el estado de un objeto.
    3. Medida de distancia. Aquí podrás elegir entre las siguientes medidas:
      • distancias euclidianas,
      • Distancias euclidianas al cuadrado,
      • distancia de manzanas de la ciudad (distancia de Manhattan, distancia de manzana (Manhattan)), métrica de distancia de Chebychev,
      • distancia de poder (Poder...;),
      • Porcentaje de desacuerdo.
    4. Método de agrupación (regla de fusión (vinculación)).
      Aquí son posibles las siguientes opciones:
      • enlace único (método del vecino más cercano) (enlace único),
      • vinculación completa (método de los vecinos más distantes),
      • promedio no ponderado de grupos de pares,
      • promedio ponderado por pares y grupos,
      • método del centroide no ponderado (centroide de grupo de pares no ponderado),
      • método del centroide (mediana) de grupos de pares ponderados,
      • El método de Ward.

    Como resultado de la agrupación, se construye un dendrograma horizontal o vertical, un gráfico en el que se determinan las distancias entre objetos y grupos cuando se combinan secuencialmente.

    La estructura de árbol del gráfico le permite definir grupos según el umbral seleccionado: una distancia específica entre grupos.

    Además, se muestra una matriz de distancias entre los objetos originales (Matriz de distancias); desviaciones promedio y estándar para cada objeto fuente (estadísticas distiptivas). Para el ejemplo considerado, realizaremos un análisis de conglomerados de variables con configuración predeterminada. El dendrograma resultante se muestra en la figura:


    El eje vertical del dendrograma muestra las distancias entre objetos y entre objetos y grupos. Por tanto, la distancia entre las variables OEB y OSD es cinco. En el primer paso, estas variables se combinan en un grupo.

    Los segmentos horizontales del dendrograma se dibujan en niveles correspondientes a los valores de distancia umbral seleccionados para un paso de agrupación determinado.

    El gráfico muestra que la pregunta “deseo de cambiar de trabajo” (MTS) forma un grupo separado. En general, el deseo de ir a cualquier parte visita a todos en igualmente. A continuación, un grupo aparte es la cuestión de la proximidad territorial al hogar (TDP).

    En términos de importancia, ocupa el segundo lugar, lo que confirma la conclusión sobre la necesidad de construcción de viviendas realizada con base en los resultados del estudio mediante el método K-medias.

    La percepción de bienestar económico (SEW) y la equidad salarial (WFE) se combinan: este es un bloque de cuestiones económicas. También se combinan el desarrollo profesional (CR) y la combinación de objetivos personales y organizacionales (LOG).

    Otros métodos de agrupamiento, así como la elección de otros tipos de distancias, no provocan un cambio significativo en el dendrograma.

    resultados

    1. El análisis de conglomerados es una poderosa herramienta para el análisis exploratorio de datos y investigación estadística en cualquier área temática.
    2. El programa Statistica implementa métodos jerárquicos y estructurales de análisis de conglomerados. Las ventajas de este paquete estadístico provienen de sus capacidades gráficas. Se proporcionan visualizaciones gráficas bidimensionales y tridimensionales de los clusters resultantes en el espacio de las variables estudiadas, así como los resultados del procedimiento jerárquico para agrupar objetos.
    3. Es necesario aplicar varios algoritmos de análisis de conglomerados y sacar conclusiones basadas en una evaluación general de los resultados de los algoritmos.
    4. El análisis de conglomerados se puede considerar exitoso si se completa diferentes caminos, se compararon los resultados y se encontraron patrones generales, y se encontraron grupos estables independientemente del método de agrupación.
    5. El análisis de conglomerados le permite identificar situaciones problemáticas y delinear formas de resolverlas. En consecuencia, este método de estadística no paramétrica puede considerarse como una parte integral del análisis de sistemas.