Perspectiva colectiva en la era del Big Data
Veamos primero un ejemplo sencillo. Creamos un grupo designado para los usuarios activos de ayer. El personal de producto quiere analizar si la proporción de usuarios masculinos es mayor que la proporción de usuarias y utilizar técnicas de análisis relevantes para obtener un mapa de distribución.
Los usuarios desconocidos no han completado su información de género (también se puede completar automáticamente usando información de identificación o identificado por otras reglas y modelos).
Después de leer esto, creo que todo el mundo tiene una cierta comprensión de lo que es la perspectiva colectiva. Entonces, ¿por qué practicas clarividencia colectiva? Primero déjame describirte una escena. Después de ver estos datos, deberíamos descubrir inmediatamente qué lo está causando. Primero, el operador confirmará la tasa de retención de cada canal (dividiendo la población según el canal de drenaje) y descubrirá que el número de registros de nuevos usuarios en un determinado canal ha aumentado rápidamente, pero la tasa de retención finalmente ha disminuido drásticamente; Se descubrió que el personal de colocación del canal coloca anuncios para grupos específicos de personas, pero estos usuarios se dan por vencidos porque el producto en sí no puede brindarles satisfacción y placer.
Lo anterior es un análisis de la escena desde la perspectiva de la multitud de superficial a profunda. Si existieran tales herramientas de análisis de datos, ¿no sería genial completar la mayor parte del trabajo de análisis de datos sin analistas de datos profesionales?
Actualmente hay muchas escenas desde la perspectiva de la multitud. Analice y compare los efectos de diferentes actividades y encuentre el punto de decisión óptimo en función de las tendencias del producto y los vínculos de crecimiento.
Los estudiantes que están familiarizados con big data o modelos de almacén de datos ciertamente están familiarizados con las tablas de hechos y las tablas de dimensiones. Las tablas de hechos hacen referencia al comportamiento empresarial en un área temática específica, mientras que las tablas de dimensiones registran información descriptiva sobre las entidades. La tabla de comportamiento registrado es una tabla de hechos, mientras que la tabla de retrato de usuario o tabla de productos puede denominarse tabla de dimensiones. La perspectiva de la multitud es seleccionar valores apropiados según la tabla de dimensiones de atributos del usuario para ver el rendimiento en la tabla comercial fáctica. Vea la distribución de los tipos de consumo de las mujeres de Hangzhou, donde "mujeres de Hangzhou" es un atributo de la tabla de dimensiones y el tipo de consumo es un registro de la tabla de hechos del registro de consumo.
En primer lugar, aclarar los indicadores de negocio que queremos analizar. Tomando los canales como ejemplo, queremos analizar el crecimiento de nuevos usuarios, las tasas de conversión de registro y inicio de sesión de cada canal. Primero, cree una tabla de hechos para definir la granularidad del almacenamiento y el conjunto de campos comerciales.
Según el canal, debemos analizar los clics diarios del espacio publicitario, el número de dispositivos recién activados, el número de nuevos usuarios registrados, el número de nuevos usuarios registrados, la tasa de conversión de activación de dispositivos, tasa de conversión de activación de registro, tasa de conversión de usuario de registro activo, costo de activación por canal, costo de registro, costo activo, costo total.
Los indicadores suelen ser numéricos y sus reglas de cálculo deben cumplir con los requisitos de acumulación, como suma, máximo, mínimo, cnt, y la función debe satisfacer la siguiente relación:
F (A) = f (a, A-a), donde A es un conjunto y A es un elemento en A, es decir, el cálculo del conjunto se puede iterar.
Por ejemplo, la media y la varianza no son funciones de resumen acumulativas.
El análisis de la perspectiva de la multitud primero requiere seleccionar grupos de masas según los círculos de atributos. Esta es una categoría de consulta de índice invertido. El servicio de índice invertido más utilizado en el mercado es El Eastern Search. En primer lugar, podemos utilizar su capacidad de consulta invertida para consultar rápidamente la lista de ID de usuario.
La consulta de indicador es un proceso de consulta de índice y el registro correspondiente se encuentra en función del ID del usuario. Las herramientas de consulta multidimensionales más utilizadas incluyen Kylin, Druid, Presto, ES, etc. Los pros y los contras de cada marco se comparan a continuación.
Debido a que la conversión de la mayoría de los servicios requiere una cierta cantidad de tiempo para acumularse, la mayoría de los datos pueden satisfacer consultas T+1. Al mismo tiempo, los datos T+1 se pueden utilizar directamente para el cálculo resumido utilizando datos de varios almacenes. Si el modelo de un indicador de análisis empresarial es fijo, los datos se pueden analizar y almacenar directamente con Kylin. Si el índice de consulta es interactivo y flexible, puede utilizar métodos de consulta de almacenamiento como ES y Presto. Por ejemplo, el modelo de análisis de canal anterior se puede almacenar directamente usando Kylin.
Objetivo: satisfacer el trabajo de análisis diario de los analistas que no son de big data, ayudar a identificar problemas más rápido, proponer la dirección y prioridad de los problemas y resolverlos. Además, se proporciona un marco estándar para facilitar a los usuarios la importación de modelos de análisis apropiados.
Según el ciclo de vida, se puede dividir en cinco capas, a saber, la definición de índice de masas, recopilación y procesamiento de datos, almacenamiento de datos, consulta de datos y visualización de gráficos de datos.
Según los módulos funcionales, podemos obtener el siguiente diagrama de arquitectura.
Requisitos de escenarios, aclarar los escenarios de negocio y las fuentes de datos a observar y analizar. El análisis de conversión de registro de canales debe recopilar clics ocultos en anuncios, clics ocultos en aplicaciones, eventos de registro de usuarios, estadísticas de costos de clics, etc. Finalmente, con la ayuda del almacén de datos, se procesa en una tabla de hechos de conversión de canales. La información de la tabla de dimensiones para canales se construye de la misma manera.
Multitud: conjunto de usuarios que cumplen con un determinado valor de atributo. Por ejemplo, el grupo de usuarios de préstamos y el grupo de usuarios de gestión financiera.
Multitud: combinación de multitudes. Por lo general, primero comparamos diferentes grupos de personas, como comparar grupos de usuarios de préstamos en Hangzhou y Beijing, y qué dimensiones se pueden seleccionar para la gestión del grupo, como ubicación geográfica, género, etc. Los usuarios de grupos de personal crean análisis multidimensionales y las columnas de atributos que dividen los grupos son dimensiones. Algunos atributos de columnas numéricas continuas se pueden clasificar por valores de intervalo.
El tipo de indicador suele ser una función agregada de valores numéricos, y la función agregada debe satisfacer la aditividad.
La más utilizada es contar. La función de contar no necesita basarse en ningún índice y, a menudo, se utiliza para contar el número de un determinado grupo de personas.
Suma: Conjunto de valores para la columna.
Máximo/Mínimo: valor estadístico máximo/mínimo.
Recuento distinto: Cuenta el número de duplicados eliminados.
Primero puede seleccionar una columna de indicador clara de acuerdo con la tabla (solo puede ser una columna numérica, el valor predeterminado de recuento es 1) y luego verificar la función de agregación correspondiente. Aquí puede seleccionar diferentes columnas numéricas de diferentes tablas.
La selección de una determinada dimensión tiene en cuenta la proporción de toda la población, como la compra de casas por parte de personas de altos ingresos en Hangzhou.
Proporciona una capa común para la gestión de estructuras de tablas y bases de datos, proporciona un conjunto unificado de SQL a la capa de aplicación y lo traduce en planes de consulta física específicos basados en medios de almacenamiento de tablas físicas específicos. Las solicitudes y respuestas de la interfaz de consulta se empaquetan en resultados unificados y los detalles de almacenamiento específicos no se revelan al público.
La administración del panel puede crear plantillas de análisis específicas para grupos específicos de personas y también puede agregar, modificar y eliminar íconos.
Tipo de gráfico: admite gráficos unidimensionales y gráficos bidimensionales. Los gráficos unidimensionales suelen ser cantidades, como gráficos circulares, gráficos de barras y paneles.
Funciones avanzadas: seleccione un gráfico, verifique las dimensiones que se mostrarán (las dimensiones pueden provenir de tablas de dimensiones o tablas de hechos, por ejemplo, el tiempo puede provenir de tablas de hechos) y los indicadores, y cree un gráfico bidimensional. o incluso un gráfico multidimensional.