Codage des textes ouverts

LE TRAITEMENT DE TEXTE ET SA PERTINENCE DANS LA RECHERCHE PAR SONDAGES ?

L'une des tâches importantes réalisées dans le cadre d'une Etude de recherche par sondages, est le traitement des textes saisis, qu'il s'agisse de textes courts répétitifs ou de longs textes d'opinion. Cette tâche est généralement effectuée dans les sociétés d'études de marché par une ou plusieurs personnes, dont le rôle dans l'organisation a été appelé CODEUR. La tâche du codeur (ou classificateur) consiste à transformer les différents textes collectés en catégories fermées, comme s'il s'agissait de simples questions de sélection. Bien que cela semble être une tâche simple, le codeur doit avoir la capacité intellectuelle, l'heuristique et l'intuition nécessaires pour pouvoir classer les différentes réponses dans des catégories fermées qui englobent et reflètent l'opinion des répondants.

PROCÉDURE HUMAINE DE CODAGE DES TEXTES D'OPINION DES SONDAGES

Lors de la classification des textes d'un sondage, le codeur doit effectuer une lecture rapide et diagonale de tous les textes saisis, ou au moins d'un échantillon représentatif de ceux-ci sélectionné au hasard. Ainsi, par exemple, si nous faisons un sondage sur un échantillon de 5.000 personnes, lire chacune des réponses pour savoir quels sont les thèmes les plus pertinents en termes de répétition et de fréquence des idées, pourrait être une tâche très longue et frustrante. Par conséquent, le chercheur doit d'abord sélectionner un groupe aléatoire de textes qui sont gérables pour l'ÿil humain, par exemple 100 d'entre eux, et après cette lecture rapide en diagonale, le codeur doit noter les descriptions générales de ce qu'il a lu. En essayant de visualiser les catégories possibles auxquelles attribuer ces textes. Ensuite, le codeur doit lire chaque texte, un par un, et le placer dans l'une des catégories fermées qui avaient été initialement visualisées. Si le texte lu n'entre dans aucune des catégories, une nouvelle catégorie sera créée pour le placer.

PROBLÈMES TYPIQUES RENCONTRÉS DANS LE TRAITEMENT DES TEXTES DE SONDAGE

Le codage manuel des textes expliqué dans le paragraphe précédent pose de multiples problèmes et présente de nombreux inconvénients. La première concerne le traitement du grand volume de données collectées dans le sondage, un problème qui peut être réduit en intégrant plusieurs personnes à l'équipe de travail, c'est-à-dire qu'au lieu d'assigner tout le travail de codage à une seule personne, celui-ci pourrait être réparti entre les codeurs, ce qui réduirait le temps de traitement et permettrait de mieux organiser la tâche pour respecter les délais de livraison fixés dans le calendrier de l'étude. Outre le volume et la vitesse de traitement, le deuxième problème que nous avons observé dans le codage manuel est de pouvoir affecter le texte à plusieurs catégories, cela se produit généralement parce que les textes sont des avis généraux, il est possible qu'il y ait deux ou plusieurs idées contenues dans le même texte, et pas seulement une comme on pourrait s'y attendre, le codeur doit donc affecter le texte de l'avis à plusieurs catégories fermées prédéfinies, générant ainsi, non pas une variable de sélection unique, mais une variable de sélection multiple, dont le traitement pourrait être un peu plus complexe.

Le troisième problème rencontré, en dehors de ceux déjà mentionnés, est de savoir quoi faire lorsque le texte que nous codons provient d'une question à choix unique ou multiple. Par exemple, si le sondage avait demandé "Quelle est votre saveur de glace préférée?", les réponses étant les options CHOCOLAT, VANILLE, FRAISE ET AUTRES SPÉCIFICATIONS, et nous allons supposer que nous classons les textes qui proviennent de cette AUTRE SPÉCIFICATION, nous y trouverons des saveurs tels que la mandarine, le tamarin, la noix de coco, etc., Mais que se passe-t-il lorsque nous lisons le texte DARK CHOCOLATE, dans ce cas nous devrions supprimer ce texte de la base de données et augmenter le nombre de l'option fermée CHOCOLAT. Cette situation est un véritable karma pour les codeurs, car leur travail doit être coordonné avec l'équipe de digitation et de terrain pour apporter des corrections à la base de données, afin de résoudre cette situation frontalière.

DES LOGICIELS ET DES OUTILS DE CLASSIFICATION OU DE CODIFICATION DES TEXTES DE SONDAGE

Depuis les années 70 du siècle dernier, l'industrie du logiciel a réfléchit à des algorithmes et des outils logiciels qui permettent de coder les textes ouverts générés dans un sondage de choix pour les convertir en catégories fermées le plus rapidement, le plus facilement et le plus efficacement possible (tout cela dans le cadre d'un projet de recherche sur l'opinion publique mené par une société d'études de marché). Cependant, à l'heure actuelle et déjà à l'aube des années 2020, peu de choses ont été réalisées à cet égard, en dehors des divers utilitaires qui permettent d'accélérer et d'optimiser le processus de codage. Cependant, aujourd'hui, la tâche de codage est en grande partie effectuée manuellement ou semi automatiquement. Ainsi, l'outil SPSS a été l'un des rares logiciels à oser offrir des options automatiques pour la classification de grands volumes de textes, en utilisant des algorithmes pour la construction d'arbres de décision et l'analyse par grappes (cluster analysis), ainsi que d'autres techniques statistiques déjà utilisées dans les années 1990 pour la création de taxonomies, l'analyse de groupes et la segmentation de marchés, etc. par l'application d'algorithmes statistiques avancés.

Le résultat généré par l'application SPSS Modeler Text Analytics sur un échantillon de 10,000 textes recueillis dans le cadre d'un sondage d'opinion, est vraiment médiocre si on le compare au travail effectué manuellement par un humain, ou du moins, c’est comme cela que le résultat a été en espagnol. Lorsque les textes collectés sont en anglais, un meilleur codage automatique pourrait être obtenu par le logiciel, c'est pourquoi certains utilisateurs de SPSS Text Analytics ont choisi de traduire tous les textes de sondage en anglais en vrac et de là vers SPSS Text Analytics. Le résultat de cette expérience est que le travail automatique est de mauvaise qualité par rapport au travail manuel effectué par les codeurs humains. Tout cela a conduit les entreprises à continuer à utiliser des systèmes de codage manuels, mais désormais avec des aides avancées telles que le tri par lots de RotatorSurvey pour réduire les temps de travail et augmenter l'efficacité et la rapidité du travail manuel.


Logiciel de tri des textes d'enquete

Vue d'écran du module Rotator Classificateur 2020

L'INTELLIGENCE ARTIFICIELLE APPLIQUÉE AU TRAITEMENT DES TEXTES DES SONDAGES D'OPINION

La prochaine étape que nous verrons dans la prochaine décennie est l'application d'algorithmes heuristiques issus de l'intelligence artificielle (IA), des automates intelligents capables d'analyser en quelques secondes de grands volumes de contenu textuel, d'apprendre la logique humaine et de proposer de multiples alternatives de classification, le tout avec une logique irréfutable, similaire ou supérieure à celle d'un expert humain. Compte tenu de ces perspectives prometteuses, le travail du codeur se réduira à effectuer des examens de qualité et à ajuster les paramètres des systèmes, ainsi que pour entrainer à les systèmes experts pour qu’ils apprennent. Malgré cette attente et l'état actuel de l'intelligence artificielle, la vérité est que le remplacement de l'esprit humain pour répondre aux questions ouvertes d'une enquête ne sera pas possible à moyen ou à long terme, parce que les systèmes d'intelligence artificielle, par définition, ont besoin de milliers (ou de millions) d'enregistrements de données pour s'auto-former. Et si nous ne disposons pas de grandes études antérieures à la nôtre, qui contiennent toute la variabilité de l'information souhaitée, nous aurons une mauvaise codification de l'étude. En résumé, il existe encore un énorme fossé technologique pour obtenir des catégories automatiques sans intervention humaine ou avec une intervention humaine minimale et avec une interprétation parfaite des phénomènes socioculturels typiquement étudiés dans les enquêtes.


Documents pour la suite de la discussion



Vidéo : Introduction à SPSS Text Analytics


Vidéo : Utilisation d'IBM SPSS Modeler avec Text Analytics


Vidéo : L'avenir de l'analyse : Machine Learning et l'analyse des données