Los macrodatos no tratarán favorablemente a los diferentes grupos sociales.
Los macrodatos no tratarán favorablemente a los diferentes grupos sociales.
Los defensores del big data quieren que la gente crea que detrás de las líneas de código y de las enormes bases de datos hay conocimientos sobre los patrones de comportamiento humano. , información generalizada sobre los patrones de gasto de los consumidores, la actividad criminal o terrorista, los hábitos de salud o la productividad de los empleados. Pero muchos evangelistas del big data no están dispuestos a afrontar sus deficiencias. Los números no pueden hablar por sí solos y los conjuntos de datos, sin importar su tamaño, siguen siendo producto del diseño humano.
Las herramientas de big data, como el marco de software Apache Hadoop, no pueden liberar a las personas de malentendidos, barreras y estereotipos falsos. Estos factores se vuelven especialmente importantes cuando los big data intentan reflejar el mundo social en el que vive la gente, pero la gente a menudo cree tontamente que estos resultados son siempre más objetivos que las opiniones humanas. Los sesgos y los puntos ciegos existen en los macrodatos del mismo modo que existen en los sentimientos y experiencias individuales. Pero existe la creencia cuestionable de que contar con datos más grandes siempre es mejor y que la correlación es lo mismo que la causalidad.
Por ejemplo, las redes sociales son una fuente común de información para el análisis de big data y, sin duda, hay mucha información que se puede extraer de ellas. A la gente se le dijo que los datos de Twitter mostraban que las personas eran más felices cuando estaban más lejos de casa y estaban más deprimidas los jueves por la noche. Pero hay muchas razones para cuestionar el significado de estos datos.
En primer lugar, la gente aprendió por el Pew Research Center que sólo el 16% de los adultos en línea en los Estados Unidos usan Twitter, por lo que definitivamente no son una muestra representativa; en comparación con la población general, sí. más gente joven y de mediana edad y residentes urbanos.
Además, se sabe que muchas cuentas de Twitter son programas automatizados conocidos como "bots", cuentas falsas o sistemas "cyborg" (es decir, cuentas controladas por humanos y asistidas por bots). Estimaciones recientes sugieren que puede haber hasta 20 millones de cuentas falsas. Entonces, antes de que alguien quiera adentrarse en el campo minado metodológico de cómo evaluar el sentimiento de los usuarios de Twitter, es importante preguntarse si estos sentimientos provienen de personas reales o de sistemas algorítmicos automatizados.
“Los macrodatos harán que nuestras ciudades sean más inteligentes y eficientes”.
Los macrodatos pueden proporcionar información valiosa que puede ayudar a mejorar las ciudades, pero solo pueden ayudar hasta cierto punto a las personas. Debido a que no todos los datos se generan o recopilan por igual, los grandes conjuntos de datos sufren de “problemas de señalización”, es decir, ciertas personas y comunidades son ignoradas o subrepresentadas, lo que se conoce como zonas oscuras de datos o áreas de sombra. Por lo tanto, el uso de big data en la planificación urbana depende en gran medida de la comprensión de los datos y sus limitaciones por parte de los funcionarios municipales.
Por ejemplo, la aplicación StreetBump de Boston es una forma inteligente de recopilar información a bajo costo. El programa recopila datos de los teléfonos inteligentes de los conductores que pasan sobre baches. Están surgiendo más aplicaciones similares. Pero si las ciudades comienzan a depender únicamente de la información de los usuarios de teléfonos inteligentes, entonces esos ciudadanos son sólo una muestra autoseleccionada; inevitablemente, se perderán datos de los vecindarios con menos usuarios de teléfonos inteligentes, que generalmente incluyen a los ciudadanos mayores y menos privilegiados.
Aunque la nueva Oficina Mecánica de la Ciudad de Boston ha hecho varios esfuerzos para remediar estas posibles deficiencias de datos, los funcionarios públicos menos responsables pueden pasar por alto estos remedios y terminar con resultados desiguales, exacerbando así aún más las injusticias sociales existentes. Sólo hay que mirar retrospectivamente las Tendencias de la gripe de Google de 2012, que sobrestimaron la incidencia anual de la gripe, para darse cuenta del impacto que depender de big data defectuosos puede tener en los servicios públicos y las políticas públicas.
La misma situación existe para los proyectos de "gobierno abierto" que divulgan datos de departamentos gubernamentales en línea, como el sitio web Data.gov y el "Proyecto de Gobierno Abierto de la Casa Blanca". Más datos no necesariamente mejorarán ninguna función del gobierno, incluidas la transparencia y la rendición de cuentas, a menos que existan mecanismos que puedan mantener al público y a las instituciones públicas comprometidas, y mucho menos mejorar la capacidad del gobierno para interpretar los datos y responder con recursos adecuados. Nada de esto es fácil. La verdad es que no hay muchos científicos de datos altamente capacitados. Actualmente, las universidades están luchando por definir la profesión, desarrollar planes de estudio y satisfacer la demanda del mercado.
“Big data no tratará favorablemente a los diferentes grupos sociales.
"No es así.
Otra expectativa de la supuesta objetividad de los big data es que se reduzca la discriminación contra los grupos minoritarios, porque los datos brutos siempre están libres de sesgos sociales, lo que permite que el análisis. Sin embargo, porque los big data pueden hacer inferencias sobre cómo los grupos se comportan de manera diferente, a menudo se usan exactamente para este propósito, es decir, para clasificar diferentes individuos en diferentes categorías. Por ejemplo, un artículo reciente sugirió que los científicos permitieron que sus propios prejuicios raciales influyeran en la investigación de big data sobre genómica.
Los macrodatos podrían utilizarse para realizar discriminación de precios, lo que plantea serias preocupaciones en materia de derechos civiles. Esta práctica se ha denominado históricamente "línea roja", según un estudio reciente de la Universidad de Cambridge sobre 58.000 personas. Las etiquetas "me gusta" de Facebook se utilizaron para predecir información personal extremadamente sensible de los usuarios, como orientación sexual, raza y género, opiniones religiosas y políticas, rasgos de personalidad, inteligencia, felicidad, uso de drogas adictivas, estado civil de los padres, edad y género. , etc.
El periodista Tom Formsky dijo sobre el estudio: " Esta información altamente sensible y de fácil acceso puede ser utilizada por empleadores, propietarios, agencias gubernamentales, instituciones educativas y organizaciones privadas para discriminar y castigar a las personas. Y la gente no tiene medios para resistir. ”
Finalmente, considere las implicaciones para la aplicación de la ley. Desde Washington hasta el condado de New Castle, Delaware, la policía está recurriendo a big data para modelos de “vigilancia policial predictiva”, con la esperanza de proporcionar ideas para resolver casos sin resolver. incluso puede ayudar a prevenir delitos futuros.
Sin embargo, centrar los esfuerzos policiales en "puntos calientes" específicos descubiertos por big data corre el riesgo de reforzar la sospecha de la policía sobre grupos sociales con mala reputación y hacerlos menos propensos a cometer delitos. La razón por la que la policía diferenciada se vuelve institucional, como escribió un jefe de policía, es que aunque los sistemas de algoritmos policiales predictivos no tienen en cuenta factores como la raza y el género, los resultados reales del uso de tales sistemas pueden ser nefastos si no se tiene en cuenta el impacto diferencial "Conducirá a un deterioro de las relaciones entre la policía y la comunidad, creará una percepción pública de falta de proceso judicial, dará lugar a acusaciones de discriminación racial y amenazará la legitimidad de la policía. ”
“El big data es anónimo, por lo que no invade nuestra privacidad. "Eso está totalmente equivocado.
Si bien muchos proveedores de big data trabajan arduamente para eliminar las identidades de las personas en sus conjuntos de datos basados en humanos, el riesgo de reidentificación sigue siendo alto. Los datos de los teléfonos móviles parecen bastante anónimos. pero un estudio reciente de un conjunto de datos de 1,5 millones de usuarios de teléfonos móviles en Europa mostró que sólo cuatro factores de referencia eran suficientes para identificar al 95% de las personas individualmente, los investigadores observaron que los caminos que la gente tomaba en la ciudad existían, lo que los hace personales. La privacidad es una "preocupación creciente" dada la cantidad de información que se puede inferir utilizando grandes conjuntos de datos públicos.
Pero las preocupaciones sobre la privacidad de los grandes datos van mucho más allá de la identidad normal. Identificar el alcance de los datos médicos que se venden actualmente. a las empresas de análisis podrían utilizarse para rastrear las identidades de los individuos, con la esperanza de que en el futuro se puedan desarrollar medicamentos y otros tratamientos como estos para los individuos. Los medicamentos y terapias elaborados a partir del propio ADN de un paciente son una perspectiva maravillosa en términos de mejora. La eficacia de la medicina, pero se basan esencialmente en la identificación de individuos a nivel molecular y genético. Esta información plantea riesgos importantes si se utiliza incorrectamente o se filtra. Aunque las aplicaciones de recopilación de datos de salud personal como RunKeeper y Nike+ se han desarrollado rápidamente, en la práctica se utilizan. Los big data para mejorar los servicios médicos siguen siendo sólo un deseo, más que una realidad.
Los conjuntos de big data altamente personales se convertirán en el objetivo principal de los piratas informáticos o los filtradores. grandes violaciones de datos en los últimos años. Como se vio con la violación masiva de datos en la industria financiera extraterritorial del Reino Unido, el 1% más rico del mundo es tan vulnerable a que su información personal quede expuesta como todos los demás. Los datos son el futuro de la ciencia. "En parte es cierto, pero necesita algo de crecimiento.
Los macrodatos ofrecen nuevas vías para la ciencia. No hace falta mirar más allá del descubrimiento del bosón de Higgs, la red más grande de la historia. Producto de un proyecto informático en CERN utiliza el sistema de archivos distribuido Hadoop para gestionar todos los datos.
Pero a menos que la gente reconozca y comience a abordar algunas de las deficiencias inherentes de los macrodatos a la hora de reflejar la vida humana, es posible que se tomen importantes decisiones de política pública y de negocios basadas en estereotipos erróneos.
Para resolver este problema, los científicos de datos están empezando a colaborar con los científicos sociales. Con el tiempo, esto significará encontrar nuevas formas de combinar estrategias de big data con investigación de big data. Esto iría mucho más allá de las prácticas utilizadas en publicidad o marketing, como grupos focales o pruebas A/B (es decir, mostrar a los usuarios dos versiones de un diseño o resultados para determinar cuál funciona mejor). Más bien, el nuevo enfoque híbrido preguntará a las personas por qué hacen ciertas cosas, en lugar de simplemente contar con qué frecuencia sucede algo. Esto significa aprovechar el análisis sociológico y los conocimientos etnográficos, además de la recuperación de información y el aprendizaje automático.
Las empresas de tecnología se han dado cuenta desde hace tiempo de que los científicos sociales pueden ayudarlas a obtener una comprensión más profunda de cómo y por qué las personas se relacionan con sus productos. Por ejemplo, el centro de investigación de Xerox Corporation contrató al antropólogo pionero Lu West Suchman. La siguiente fase será enriquecer aún más la colaboración entre informáticos, estadísticos y científicos sociales de muchos tipos, no sólo para probar los resultados de sus propias investigaciones, sino también para formular diferentes tipos de preguntas con mayor rigor.
Dada la cantidad de información que se recopila sobre las personas cada día (incluidos los clics en Facebook, los datos del Sistema de Posicionamiento Global (GPS), las recetas médicas y las colas de suscripción a Netflix), tarde o temprano las personas tendrán que decidir a quién enviar la información. se confía y para qué se utiliza. No se puede obviar el hecho de que los datos no son en absoluto neutrales y difícilmente pueden permanecer anónimos. Pero las personas pueden aprovechar la experiencia en diversos campos para identificar mejor los prejuicios, fallas y estereotipos y enfrentar nuevos desafíos a la privacidad y la justicia.