Codificar textos abiertos

EL PROCESAMIENTO DE TEXTOS Y SU RELEVANCIA EN LA INVESTIGACION POR ENCUESTAS


Una de las tareas importantes que se realiza en el marco de un Estudio de investigación por encuestas, es el procesamiento de los textos capturados, sean estos textos cortos repetitivos o textos largos de opinión. Típicamente esta tarea es realizada en las empresas de investigación de mercados por una o varias personas, cuyo rol en la organización ha sido denominado CODIFICADOR. La tarea del codificador (o clasificador) es transformar los diversos textos colectados en categorías cerradas, como si se tratase de preguntas de selección simple. A pesar de que pareciera ser una tarea sencilla, el codificador debe tener la capacidad intelectual, heurística y la intuición para poder clasificar las diversas respuestas en categorías cerradas que engloben y reflejen la opinión de los encuestados.

PROCEDIMIENTO HUMANO PARA CODIFICAR TEXTOS DE OPINION DE LA ENCUESTA

A la hora de clasificar los textos de una encuesta, el codificador debe hacer una lectura rápida y diagonal de todos los textos capturados, o por lo menos de una muestra representativa de ellos seleccionados al azar. Así, por ejemplo, si tenemos una encuesta realizada a una muestra de 5.000 personas, leer todas y cada una de las respuestas para saber cuáles son los temas más relevantes en términos de repetición y frecuencias de ideas, podría ser pues una tarea muy larga y frustrante. Por lo cual el investigador debe primero seleccionar un grupo de textos aleatoriamente, que sean manejables para el ojo humano, como por ejemplo 100 de ellos, luego de esta lectura diagonal rápida, el codificador debe anotar las descripciones generales de lo que ha leído. Tratando de visualizar las posibles categorías a las cuales atribuir esos textos. Seguidamente el codificador debe leer cada texto, uno por uno y ubicarlo dentro de una de las categorías cerradas que había visualizado inicialmente, si el texto leído no cae dentro de ninguna de las categorías, se creara una nueva categoría para ubicarlo.

PROBLEMAS TIPICOS ENCONTRADOS EN EL PROCESAMIENTO DE TEXTOS DE ENCUESTAS

Existen múltiples problemas e inconvenientes relacionados con la codificación manual de textos explicada em el párrafo anterior. El primero de ellos es el manejo de gran volumen de datos que se colectan en la encuesta, problema que se puede reducir mediante la incorporación de varias personas al equipo de trabajo, es decir que, en lugar de asignar todo el trabajo de codificación a una sola persona, este se podría distribuir entre codificadores, de esta manera se recortaría el tiempo de procesamiento y se puede organizar mejor la faena para cumplir con los tiempos de entrega pautados en cronograma del estudio. Aparte del volumen y la velocidad de procesamiento, el segundo problema que observamos en la codificación manual es poder asignar el texto a múltiples categorías, esto suele ocurrir porque al tratarse los textos de opiniones amplias, es posible que existan dos o más ideas contenidas en el mismo texto, y no solo una como podría esperarse, de esta manera el codificador debe asignar el texto de opinión a múltiples categorías cerradas predefinidas, generando de esta manera, no una variable de selección simple, sino una variable de selección múltiple, cuyo procesamiento podrías ser un tanto más complejo.

El tercer problema encontrado aparte de los ya mencionados, es que hacer cuando el texto que estamos codificando procede de una pregunta de selección simple o múltiple. Por ejemplo, Si en la encuesta se había preguntado “Cuál es su sabor de helado preferido?”, siendo las opciones de respuesta CHIOCOLATE, MANTECADO, FRESA Y OTROS ESPECIFIQUE, y vamos a suponer que estamos clasificando los textos que vienen de ese OTROS ESPECIFIQUE, allí encontraremos sabores como mandarina, tamarindo, coco, etc., Pero qué pasa cuando leemos el texto CHOCOLATE OSCURO?, es ese caso deberíamos eliminar ese texto de la base de datos y aumentar la cuenta de la opción cerrada CHOCOLATE. Esta situación es un verdadero karma para los codificadores, pues su trabajo debe coordinarse con el equipo de digitación y campo para realizar las correcciones a la base de datos, de forma que se permita solventar esta situación de borde.

SOFTWARES Y HERRAMIENTAS PARA CLASIFICAR O CODIFICAR LOS TEXTOS DE ENCUESTAS

Desde antes de los años 70 del siglo pasado la industria del software ha estado pensando en algoritmos y herramientas de software que permitan realizar el duro trabajo de la codificación de textos abiertos que se generan en una encuesta de opción para convertirlos en categorías cerradas de la forma más rápida, amigable y eficientemente posible (todo ello en el marco de un proyecto de investigación de la opinión pública llevada a cabo por una firma de investigación de mercados). Sin embargo, en la actualidad y ya en entrando en la década del año 2020, es poco lo que se ha logrado en este sentido, más allá de diversos utilitarios que permiten dar velocidad y optimizar el proceso de codificación. Sin embargo, hoy en día la tarea de codificación es hecha en gran medida de una manual o semiautomática. Así, pues la herramienta SPSS ha sido una de las pocas herramientas de software que se ha atrevido a ofrecer opciones automáticas para clasificar grandes volúmenes de textos, empleando para ellos algoritmos de construcción de árboles de decisión y de análisis de clúster (cluster analysis), así como otras técnicas estadísticas que ya habían sido usadas en la década de los 90s para la creación de taxonomías, análisis de grupos y segmentación de mercados, etc. mediante la aplicación de algoritmos estadísticos avanzadas.

El resultado que genera la aplicación SPSS Modeler Text Analytics a una muestra de 10,000 textos colectados en un estudio de opinión, en verdad es pobre cuando se compara con el trabajo hecho manualmente por un humano, o por lo menos así has sido el resultado en idioma español. Cuando los textos colectados están en idioma ingles se pudo obtener una mejor codificación automática mediante dicho software, por tanto alguinos usuarios de SPSS Text Analytics optaron por traducir todos los textos de la encuesta al idioma inglés de forma masiva y de allí lo pasaron al SPSS Text Analytics. El resultado de este experimento es que el trabajo automático es mala calidad, al compararse con el trabajo manual hecho por codificadores humanos. Todo ello ha hecho que las empresas continúen usando sistemas de codificación manual, pero ahora con ayudas avanzadas como la clasificación en lotes de RotatorSurvey que permiten reducir los tiempos de trabajo y aumentar la eficiencia y velocidad del trabajo manual.


Software para clasificar textos de encuesta

Vista de pantalla del módulo Rotator Clasificador 2020

LA INTELIGENCIA ARTIFICIAL APLICADA AL PROCESAMIENTO DE TEXTOS DE ENCUESTAS DE OPINION

La siguiente etapa que veremos en década próxima es la aplicación de algoritmos heurísticos propios de la inteligencia artificial (AI), autómatas inteligentes que sean capaces de analizar en segundos grandes volúmenes de contenido textual, poder aprender la lógica humana y poder proponer múltiples alternativas de clasificación, todo ello con una lógica irrefutable, similar o superior al de un experto humano. En vista de este panorama prometedor, el trabajo del codificador se reducirá a hacer revisiones de calidad y ajustar los parámetros de los sistemas, así como a entrenar a los sistemas expertos para que aprendan.


Documentos para ampliar la discución



Video: Introducción al SPSS Text Analytics


Video: Usando el IBM SPSS Modeler con Text Analytics


Video: El futuro de la analítica: Machine Learning y analisis de datos