Codificar textos abertos

PROCESSAMENTO DE TEXTOS E SUA RELEVÂNCIA NAS PESQUISAS DE OPINIÃO

Uma das tarefas mais importantes que é realizada no âmbito de um Estudo de Pesquisa é o processamento de textos capturados, sejam eles textos curtos repetitivos ou textos de opinião longos. Normalmente, essa tarefa é realizada nas empresas de pesquisa de mercado por uma ou mais pessoas, cujo papel na organização tem sido chamado de codificador. A tarefa do codificador é transformar os vários textos coletados em categorias fechadas, como se fossem perguntas de unica escolha. Embora pareça ser uma tarefa simples, o codificador deve ter a capacidade intelectual, heurística e intuição para ser capaz de classificar as várias respostas em categorias fechadas que englobem e refletem a opinião dos entrevistados.

PROCEDIMENTO HUMANO PARA CODIFICAR TEXTOS DE OPINIÃO NA PESQUISA

Ao codificar os textos de uma pesquisa, o codificador deve fazer uma leitura rápida e diagonal de todos os textos coletados, ou pelo menos a partir de uma amostra representativa deles selecionados aleatoriamente. Assim, por exemplo, se tivermos um levantamento de uma amostra de 5.000 pessoas, lendo cada resposta para saber quais tópicos são mais relevantes em termos de repetição e frequência de ideias, poderia portanto, ser uma tarefa muito longa e frustrante. Portanto, o pesquisador deve primeiro selecionar um grupo de textos aleatoriamente, que forem gerenciáveis para o olho humano, como por exemplo 100 deles, após esta rápida leitura diagonal, o codificador deve escrever as descrições gerais do que ele leu. Tentando visualizar as possíveis categorias onde atribuem esses textos. O codificador deve então ler cada texto, um por um, e colocá-lo dentro de uma das categorias fechadas que tinha visto inicialmente, se o texto lido não se enquadrar em nenhuma das categorias definidas, entao pode criar uma nova categoria criada para classificar ele.

PROBLEMAS TIPICOS ENCONTRADOS NO PROCESSAMENTO DE TEXTOS DE UMA PESQUISA DE OPINIÃO

Existem vários problemas e desvantagens relacionadas à codificação manual dos textos explicada no parágrafo anterior. O primeiro é o procesamento de um alto volume de dados coletados na pesquisa, um problema que pode ser reduzido adicionando várias pessoas à equipe de trabalho, isto é, em lugar de atribuir todo o trabalho de codificação a uma única pessoa, ele poderia ser distribuído entre diversos codificadores, reduzindo assim o tempo de processamento e organizando melhor o trabalho para atender aos prazos de entrega programados no estudo. Além do volume e da velocidade de processamento, o segundo problema que vemos na codificação manual tem a ver com a capacidade de atribuir o texto a várias categorias, isso geralmente acontece porque quando temos textos de opiniões amplas, pode haver duas ou mais ideias contidas no mesmo texto, e não apenas um como você poderia esperar, de modo que o codificador deve colocar o texto lido em várias categorias fechadas predefinidas, gerando assim não uma variável de unica escolha, mas uma variável múltipla, cuja tratamento pode ser um tanto mais complexo.

O terceiro problema encontrado além daqueles já mencionados, é o que fazer quando o texto que estamos codificando vem de uma pergunta de unica ou múltipla escolha. Por exemplo, se na pesquisa você perguntou "Qual é o seu sabor favorito de sorvete?", sendo as opções fechadas de resposta CHOCOLATE, MORANGO, COCO e OUTROS ESPECIFIQUE, e vamos supor que estamos classificando os textos que vêm desse OUTRO ESPECIFIQUE, lá vamos encontrar sabores como tangerina, tamarindo, mango, etc, Mas o que acontece quando lemos o texto CHOCOLATE ESCURO?, Nesse caso, devemos remover esse texto do banco de dados e aumentar a contagem da opção fechada CHOCOLATE. Esta situação é um karma real para os codificadores, porque seu trabalho deve ser coordenado com a equipe de procesamento e campo para fazer correções ao banco de dados, de modo que esta situação possa ser resolvida.

SOFTWARE E FERRAMENTAS PARA CODIFICAR (OU CLASSIFICAR) TEXTOS DA PESQUISA

Desde antes dos anos 70 do século passado, a indústria do software tem pensado em algoritmos e ferramentas que permitam realizar o trabalho árduo de codificação de textos abertos que são gerados em uma pesquisa de opção para transformá-los em as categorias fechadas o mais rapidamente possível (tudo no âmbito de um projeto de investigação da opinião pública realizado por uma empresa de investigação de mercado). No entanto, agora e já entrando na década do ano de 2020, pouco foi alcançado a este respeito, além de vários utilitários que permitem dar velocidade e otimizar o processo de codificação. No entanto, hoje em dia, a tarefa de codificação é feita em grande parte a partir de um procesamento manual ou semi-automático. Assim, a ferramenta SPSS (IBM) tem sido uma das poucas ferramentas de software que se atreveu a oferecer opções automáticas para codificar grandes volumes de texto, utilizando algoritmos de construção de árvores de decisão e análise de cluster (Cluster Analysis), bem como outras técnicas estatísticas que já haviam sido utilizadas na década de 1990 para a criação de taxonomias, análise de grupos e segmentação de mercados, etc. por meio da aplicação de algoritmos estatísticos avançados.

O resultado gerado pelo aplicativo SPSS Modeler Text Analytics para uma amostra de 10.000 textos coletados em um estudo de opinião, na verdade é ruim quando ele e comparado com o trabalho feito manualmente por um ser humano, ou pelo menos tem sido assim na língua portuguesa. Quando os textos coletados estão na língua inglesa, uma melhor codificação automática opde ser obtida usando esse software, assim alguns usuários do SPSS Text Analytics optaram por traduzir todos os textos da pesquisa para o inglês e de lá de volta para o SPSS Text Analytics. O resultado deste experimento é que o trabalho automático é de má qualidade, quando comparado ao trabalho manual feito por codificadores humanos. Tudo isso fez com que as empresas continuassem a usar sistemas de codificação manuais, mas agora com opcoes avançadas, como a codificação em lotes do RotatorSurvey, o qual reduze os tempos de trabalho e aumentam a eficiência e a velocidade do trabalho manual.


Software para codificar textos de pesquisa

Tela do módulo Rotator Codificador 2020

A INTELIGÊNCIA ARTIFICIAL APLICADA AO PROCESSAMENTO DE TEXTOS DE PESQUISAS DE OPINIÃO

A próxima etapa que veremos na próxima década é a aplicação de algoritmos heurísticos típicos da inteligência artificial (IA), autômatos inteligentes que são capazes de analisar em segundos grandes volumes de conteúdo textual, ser capaz de aprender a lógica do humano e ser capaz de propor múltiplas alternativas de classificação, tudo com uma lógica irrefutável, simular ou superior ao de um especialista humano. Tendo em vista este quadro promissor, o trabalho do codificador será reduzido a fazer revisões de qualidade e ajustar parâmetros no sistema, bem como dar treinamento para a computadora aprender. Apesar dessa expectativa e do atual estado da arte da inteligência artificial, a verdade é que a substituição da mente humana para fechar perguntas abertas em uma pesquisa não será possível a médio ou longo prazo, o motivo é porque os sistemas de inteligência artificial, por definição, exigem milhares (ou milhões) de registros de dados para se autotreinarem. E se não tivermos grandes estudos anteriores ao nosso, que contenham toda a variabilidade das informações desejadas, acabaremos com um estudo de codificação ruim. Em resumo, ainda há uma enorme lacuna tecnológica para obter categorias automáticas sem nenhuma ou mínima intervenção humana e com uma interpretação perfeita dos fenômenos socioculturais que normalmente são estudados em pesquisas.


Documentos para ampliar a discussão



Vídeo: Começando com o SPSS Text Analytics


Vídeo: Usando o IBM SPSS Modeler para a análise de textos


Video: Inteligência artificial e Aprendizado de Máquina: Estado Atual, Tendências e Aspectos Sociais