¿Cómo hacer que la gente hable de datos no estructurados?
Los comentarios libres, artículos de prensa, tweets y otros discursos son ricos en un tema que es difícil de entender, si no es mediante la lectura y comprensión del mismo. Sin embargo, las marcas y organizaciones se ven obligadas, especialmente con la explosión de las redes sociales, a interesarse por él para dominar los temas tratados y las ideas emitidas dentro de estos contenidos, con el fin de tratar de regularlos, e incluso guiarlos.
Entonces, ¿cómo pasar de un tema rico y no estructurado, sujeto a interpretación y controversia, a indicadores claros y legibles, capaces de racionalizar la lectura, sin perder la experiencia de la inmersión en materia prima, es decir el texto original?
Para responder a esta problemática, hemos desarrollado métodos y softwares para combinar el análisis textual y semántico ―lo que hace posible entender el significado del texto y reducir el volumen de información― con la visualización de datos y el data storytelling para devolver los resultados e interactuar con los datos, y así comprometer al lector en un proceso de inmersión.
Análisis semántico para categorizar contenidos
Gracias al uso de tesauros (árbol de conocimiento que recopila los contenidos según su campo léxico), podemos identificar automáticamente los temas tratados en los comentarios de los individuos y agruparlos en conceptos. Este primer enfoque ofrece la ventaja de limitar a priori la experiencia y la sensibilidad del lector, basándose en un enfoque racional impulsado por universos léxicos.
Por ejemplo, en un estudio de los posts publicados por estudiantes de Science Po en las redes sociales (enlace a la visualización en francés a continuación), podemos observar que la gran mayoría de los elementos se comunican a través de fotos y están relacionados con la intimidad (cuerpo desnudo y la vida de una pareja) y la vida de fiesta estudiantil (fiestas, amigos, drogas...).
Clasificación para definir tipos de discurso
Al movilizar los métodos de clasificación, buscamos agrupar a los individuos más cercanos, de acuerdo con las proximidades léxicas de sus contenidos. Esto nos permite reducir considerablemente el volumen de información e identificar personae representativas de comportamientos típicos. Así, en el estudio sobre las motivaciones de los chalecos amarillos para apoyar su movimiento (artículo publicado en Le Monde, edición del 27 de enero de 2019), surgen 4 clases, impulsadas por los elementos relacionados con la crisis de la política, el poder de vivir (con dignidad), la sed de justicia y el movimiento popular. Esta reducción a 4 clases se puede asociar con elementos contextuales (ubicación geográfica, categoría socio-profesional, ingresos...) para explicarlos e ilustrarlos mejor.
Nubes de expresiones para sumergirse en los contenidos
La clasificación o el análisis semántico tienen el mérito de reducir el nivel de información para que sea más legible, pero a veces puede estar muy lejos del modo de expresión para permitir que uno se sumerja completamente en la "atmósfera" y en el clima de comentarios. Las agrupaciones léxicas, cuando se realizan en nivel de expresiones (una serie de palabras consecutivas) ofrecen un enfoque del modo de comunicación de los individuos, a la vez que dan un primer nivel de síntesis. Representados en forma de nubes de palabras interactivas, estos verbatim "reducidos" se presentan como un medio para viajar y sumergirse en los comentarios, ofreciendo una alternativa efectiva a la lectura exhaustiva de los verbatim. Así, en el análisis de los comentarios de los chalecos amarillos, uno podrá encontrar "el poder del pueblo", "el aumento de los salarios" o "hartazgo general", que suenan como ecos de la revuelta y dan un poco más el tono que se le da a este movimiento.
De la visualización de datos al data storytelling
La multiplicación de los indicadores y las representaciones gráficas son muy tentadores desde que los contenidos textuales se han estructurado. El uso de la interactividad permite vivir una experiencia real de lectura y navegación. Haz clic, filtra, ilustra, ¡qué bueno es jugar con los datos! Sin embargo, sin una historia, la visualización se puede ver como un cómic lleno de burbujas vacías, por lo que es difícil aferrarse a un escenario para mantener el hilo de la historia. Es por eso que naturalmente evolucionamos de la visualización de datos a la narración de datos: construyendo escenarios de lectura con una trama, actores y decorado.
El análisis de los 32.000 tweets de Trump, por su variedad y abundancia, nos llevó a este ejercicio: movilizar texto, imágenes y guiones para contar al lector la historia de los 140 caracteres del pajarito.
Un mundo de posibilidades para quien lo quiera
Desde datos no estructurados e ilegibles hasta una historia intrigante de la que el lector puede ser el héroe, solo hay un paso. La parte difícil probablemente será tener la imaginación del autor y el rigor del científico, pero por lo demás, es decir, los algoritmos y la inteligencia del software para procesar los datos ya nos lo ofrece la tecnología y su nombre es DATAVIV 'by Sphinx.
Comments