Investigación sobre predicción de acciones basada en big data de WeChat
Investigación sobre predicción de acciones basada en big data de WeChat
Big data ha sido un tema candente en los últimos años, con gran influencia tanto a nivel internacional como nacional. La economía, las ciencias políticas, la sociología y muchas disciplinas científicas sufrirán cambios y desarrollos enormes o incluso esenciales, que afectarán los sistemas de valores, los sistemas de conocimientos y los estilos de vida humanos. La economía global genera actualmente una cantidad de datos sin precedentes. Es absolutamente correcto comparar la gran cantidad de datos que se generan cada día con la gran inundación de tiempos míticos. Este torrente de datos es algo que nunca antes habíamos visto. Es completamente nuevo y poderoso. , y por supuesto, que también da miedo pero resulta tremendamente emocionante.
El tema que compartí es exactamente cómo utilizar la tecnología de big data para realizar investigaciones sobre predicción de acciones en el entorno de Internet. – Hoy quiero compartir cuatro puntos que creo que son significativos.
1. Previsión de negocios bajo big data
Según big data, podemos predecir eficazmente fallas, flujo de personas, tráfico, consumo de electricidad, mercado de valores, prevención de enfermedades, transporte, pronósticos de alimentos. sobre distribución, oferta y demanda industrial, etc. Lo que nos preocupa en este artículo es la predicción del mercado de valores.
El núcleo del big data es la predicción, que se basa en el análisis de datos. Entonces, ¿el método de análisis está diseñado en función de los resultados del muestreo aleatorio? ¿Tal método de análisis tendrá errores?
Desde el punto de vista tradicional, debido a las limitaciones de los recursos y la tecnología, como los recursos humanos e informáticos limitados y la potencia de procesamiento de la computadora, es imposible procesar todos los datos para obtener los resultados que interesan a las personas. . Por lo tanto, el muestreo aleatorio surgió cuando los tiempos lo requieren, y los individuos seleccionados se utilizan para representar a toda la población. Por ejemplo, el muestreo aleatorio se utiliza para hacer que los resultados de la inferencia sean más científicos. Pero dado que se menciona big data, se trata de una nueva comprensión que surge cuando los recursos se desarrollan hasta cierto punto y la tecnología se desarrolla hasta cierto punto. Así como la aparición de la electricidad ha llevado a la humanidad a una etapa de rápido desarrollo, también lo hace el big data. Su significado es la muestra completa y se hacen inferencias a partir de la muestra completa. El significado de big data en este artículo es la información del flujo de todas las acciones en toda la red social. En términos de fuentes de datos, este artículo no utiliza datos de todas las redes sociales. Solo analiza WeChat, la red social más representativa. la fuente de información.
Los datos interactivos pueden reflejar las emociones de los usuarios y los datos de búsqueda pueden reflejar las preocupaciones e intenciones de los usuarios. ¿Cuál de estos dos tipos de datos tiene más valor de referencia a la hora de predecir el mercado de valores?
Creo que ambos son valiosos. Los datos de interacción reflejan los gustos y disgustos del usuario por una acción específica, que puede describirse simplemente como si la operación de la acción es continuar manteniéndola o vendiéndola durante la búsqueda. los datos representan El proceso de recopilación de información sobre las acciones por parte de los usuarios es un concepto de atención. Un alto grado de búsqueda de una determinada acción significa que las noticias son muy influyentes. La interacción representa la dirección y la búsqueda representa la amplitud.
Sabemos que las conclusiones extraídas de estos dos tipos de datos serán diferentes. ¿Cómo se equilibran las situaciones reflejadas por estos dos tipos de datos para hacer predicciones?
Como se mencionó en la pregunta anterior, si se trata de recomendación de acciones, compra o venta, etc., se deben considerar los datos interactivos, pero si ya se ha comprado, los datos de búsqueda pueden proporcionar un concepto. del rango, similar a las calificaciones de bonos A, AA, AAA, etc., para referencia de los inversores, porque diferentes inversores tienen diferentes tolerancias al riesgo.
Completar noticias sobre acciones y mercados en mensajes cortos de 140 palabras para su publicación, ¿significa esto que el principal canal de publicación es Weibo? Las cuentas públicas de WeChat son muy populares ahora. ¿Ha considerado publicar noticias a través de este canal?
De hecho, hay muchas formas de difundir información. Como nuevo medio, la influencia de WeChat no puede subestimarse. Sin embargo, la inversión tecnológica actual con la menor inversión es a través del correo electrónico, mensajes de texto, etc. En el futuro, consideraremos el uso de cuentas públicas para impulsar las acciones y la información del mercado.
Si los mensajes se envían a través de la cuenta oficial de WeChat en el futuro, ¿se recopilarán nuevamente los mensajes enviados como fuente de datos? ¿Qué impacto tendrá esto?
Se recopilará, pero la cantidad diaria de información sobre acciones individuales en Internet será muy grande. Este impulso aumentará el peso de las acciones recomendadas en 1 punto, y el peso de cada acción será de cientos. o miles, por lo que el impacto es extremadamente pequeño.
La fuente de datos es la cuenta oficial de WeChat. Además de las consideraciones de precisión, ¿ha considerado también que recopilar datos de esta manera infringirá menos la privacidad personal?
Desde una perspectiva legal, buscar en WeChat u otros registros de chat personales viola los derechos de privacidad personal. Por lo tanto, si Tencent abre dicha interfaz, todos los ciudadanos pueden quejarse y protestar contra tal comportamiento, o incluso iniciar procedimientos legales hasta. corrigen sus faltas y compensan las pérdidas.
¿Significa esto que incluso si hay un comportamiento ilegal, las consecuencias recaerán sobre Tencent y nosotros, como usuarios de los datos, no tenemos que asumir ninguna responsabilidad legal?
En toda la sociedad, como proveedor de tecnología de sistemas, debemos cumplir con la ética del big data y cumplir con las leyes nacionales. Si se viola la privacidad personal, el sistema no la recopilará. "Google no haga el mal". Lo mismo ocurre con los sistemas mencionados en este artículo.
2. Experimento de recomendación de acciones basado en big data
La puntualidad de las acciones refleja la puntualidad de los artículos de WeChat. Cuanto mayor sea la puntualidad, mayor será el valor de los datos.
La popularidad de una acción refleja la frecuencia actual de atención sobre una determinada acción. Cuanto mayor sea la frecuencia de atención, mayor será la posibilidad de subir.
Integridad de los datos: utilizamos un método circular para guardar los resultados de la búsqueda en el sitio web de búsqueda WeChat para aproximadamente 2236 acciones emitidas en Shenzhen y Shanghai (excepto la versión empresarial).
Coherencia de los datos: el formato del archivo lo determina el programa responsable de guardar el archivo de datos, y un único proceso garantiza la coherencia del archivo.
Exactitud de los datos: dado que los artículos de la cuenta de suscripción analizados son proporcionados por la cuenta pública de la plataforma pública *** WeChat, se evita en cierta medida el daño al sistema de predicción causado por noticias falsas.
Puntualidad de los datos: teniendo en cuenta la lectura y escritura del disco y el ancho de banda de la red del programa de recopilación, así como el blindaje del programa de recopilación por parte del motor de búsqueda, hay un intervalo de 5 segundos entre las dos piezas de información recopilada en el programa, por lo que teóricamente se necesitan 11180 segundos (3,1 horas) para recopilar los datos necesarios para las recomendaciones del día. Para cada día de negociación, todos los datos se recopilan entre las 9:00 y las 9:30 y se necesitan más de 7 dispositivos para lograr los mejores resultados. Esta prueba está limitada por el equipo de prueba en un dispositivo, la recopilación de datos comienza a las 6 a.m. todos los días de negociación, lo que también cumple con los requisitos de puntualidad.
Análisis de datos: verifique los precios de apertura y cierre de tres acciones de alta prioridad ese día y luego compárelos con el índice compuesto de Shanghai ese día (2015-4-8) para obtener los ingresos. Este algoritmo es mejor que el rendimiento de la diferencia de precio de las acciones de las acciones generales del Índice Compuesto de Shanghai como muestra.
Conclusión experimental: Según el método anterior, el sistema recomienda las acciones del día todos los días, las compra en la apertura y las vende el segundo día de negociación. Después de 21 días hábiles en un mes (2015-3-1 a 2015-3-31), los ingresos del sistema son 20/mes. La búsqueda de cuentas públicas en WeChat para predecir las tendencias del mercado y los sentimientos de inversión muestra una correlación positiva, por lo que puede utilizarse como factor en la selección de acciones.
3. La tendencia de desarrollo del big data en la predicción de acciones
Los datos de red se dividen en tres tipos:
El primero son los datos de navegación, utilizados principalmente por los consumidores. en el campo del comercio electrónico, el análisis de comportamiento y los datos de navegación reflejan cada paso del acceso del usuario, describen con más detalle la ruta de acceso del usuario, analizan la probabilidad de salto de diferentes páginas, etc.
El segundo son los datos de búsqueda, que se refieren principalmente a datos de series temporales de la frecuencia de búsquedas de palabras clave registradas por los motores de búsqueda, que pueden reflejar los intereses, preocupaciones e intenciones de cientos de millones de usuarios.
El tercero son los datos interactivos, principalmente datos de Weibo, WeChat y sitios de redes sociales, que reflejan las tendencias y los factores emocionales de los usuarios.
Las opiniones de Robert Shiller, ganador del Premio Nobel de Economía 2013, han sido citadas por innumerables entrevistados. El modelo de inversión diseñado por Shiller en los años 80 sigue siendo hoy elogiado por la industria. En su modelo se hace referencia a tres variables principales: el flujo de caja previsto del proyecto de inversión, el coste estimado del capital de la empresa y la reacción del mercado de valores ante la inversión (sentimiento del mercado). Él cree que el mercado en sí tiene factores de juicio subjetivos, el sentimiento de los inversores afectará el comportamiento de inversión y el comportamiento de inversión afecta directamente los precios de los activos.
Las computadoras extraen información útil analizando noticias, informes de investigación, información social, comportamiento de búsqueda, etc., con la ayuda de métodos de procesamiento del lenguaje natural, con la ayuda de análisis inteligente de aprendizaje automático, inversión cuantitativa en el pasado; Solo podría cubrir docenas de estrategias, la inversión en big data puede cubrir miles de estrategias.
La investigación de predicción económica basada en datos de búsqueda en Internet y comportamiento social se ha convertido gradualmente en un nuevo punto de acceso académico y ha logrado ciertos resultados en la investigación en los campos de la economía, la sociedad y la salud. En aplicaciones del mercado de capitales, las investigaciones han descubierto que los datos de búsqueda pueden predecir eficazmente cambios en la actividad futura del mercado de valores (medida por indicadores de volumen de operaciones) y las tendencias de los precios de las acciones.
Para datos de búsqueda: el mecanismo de correlación entre el comportamiento de búsqueda en Internet y el mercado de valores. Esta investigación pertenece a la intersección de las finanzas conductuales e Internet. Su principio es: el ajuste del volumen y el precio de las acciones es la reacción del comportamiento de los inversores en el mercado de valores, y el comportamiento de los inversores también tiene sus correspondientes signos de comportamiento en Internet; Mercado de búsqueda que tenemos que hacer La respuesta es: encontrar los indicadores de comportamiento que están por delante del comercio de acciones en el mercado de búsqueda de Internet, combinar los principales indicadores de búsqueda de muchos inversores y hacer predicciones sobre el comercio de acciones en el futuro.
Al igual que el pronóstico del tiempo, el modelo se optimiza constantemente, se vierte una gran cantidad de información y se dan los resultados. Y entre la información procesada, el 80% son datos "no estructurados", como documentos de políticas, eventos naturales, entorno geográfico, innovación tecnológica, etc. Este tipo de información suele ser difícil de digerir para las computadoras y los modelos. Utilizando un método de análisis semántico, el diálogo financiero en los datos interactivos se puede cuantificar en sugerencias de inversión entre "-1 (extremadamente bajista)" y "1 (extremadamente alcista) analizando el texto de los datos interactivos, como una acción". señal de inversión del mercado.
4. El futuro que está sucediendo
El big data no es un mundo frío lleno de algoritmos y máquinas, y el papel de los humanos aún no puede ser reemplazado por completo. Lo que nos proporciona big data no es la respuesta final, sino solo una respuesta de referencia. La ayuda es temporal, pero aún habrá mejores métodos y respuestas en el futuro cercano.
El big data tiene un amplio impacto a nivel práctico y resuelve una gran cantidad de problemas cotidianos. Los macrodatos están aún más en juego: remodelarán la forma en que vivimos, trabajamos y pensamos. En cierto modo, nos enfrentamos a un callejón sin salida mayor que la dramática expansión en el alcance y la escala de la información de la sociedad causada por otras innovaciones de época. El suelo bajo nuestros pies se mueve. Se ponen en duda cosas que en el pasado eran ciertas. Los macrodatos requieren un debate renovado sobre la naturaleza de la toma de decisiones, el destino y la justicia. Tener conocimiento alguna vez significó dominar el pasado; ahora significa ser capaz de predecir el futuro.
Big data no es un mundo frío lleno de algoritmos y máquinas, en el que los humanos todavía deben desempeñar un papel importante. Las debilidades, las ilusiones y los errores exclusivamente humanos son necesarios porque en el otro extremo de estos rasgos se encuentran la creatividad, la intuición y el talento humanos. Esto sugiere que deberíamos estar dispuestos a aceptar imprecisiones similares, porque la inexactitud es parte de lo que nos hace humanos. Es como si aprendiéramos a lidiar con datos confusos porque sirven a un propósito más amplio. El caos debe constituir la esencia del mundo y la naturaleza del cerebro humano, ya sea el caos del mundo o el caos del cerebro humano, sólo aprendiendo a aceptarlos y aplicarlos podremos beneficiarnos.
Creo que al utilizar datos básicos, datos de búsqueda, datos interactivos y luego realizar cálculos ponderados, se pueden utilizar big data para seleccionar todas las acciones y proporcionar recomendaciones de inversión. Creo que nuestros cuerpos acaban de entrar en la era de los grandes datos, pero nuestros espíritus todavía están atrapados en los datos pequeños y el pensamiento de muestreo. Aquellos que sean los primeros en utilizar la racionalidad para aplastar el pensamiento inherente también serán los primeros en cosechar los beneficios. grandes datos.