Coding open texts

PEMPROSESAN TEKS DAN PERKAITANNYA DENGAN PENYELIDIKAN SURVEI

Salah satu tugas penting yang dijalankan dalam tinjauan penyelidikan ialah pemprosesan teks yang dikumpulkan, baik dalam bentuk teks berulang pendek dan teks pendapat panjang. Biasanya tugas ini dilakukan di syarikat penyelidikan pasaran oleh satu atau beberapa orang yang peranannya dalam organisasi dipanggil CODER. Tugas pengekod atau pengelas adalah untuk menukar pelbagai teks yang dikumpulkan ke dalam kategori tertutup, seolah-olah mereka adalah soalan pilihan tunggal. Walaupun ia mungkin kelihatan seperti tugas yang mudah, pengekod mesti mempunyai keupayaan intelektual dan heuristik serta intuisi untuk dapat mengklasifikasikan pelbagai respons ke dalam kategori tertutup yang merangkumi dan mencerminkan pendapat responden.

PROSEDUR PENGEKODAN TINJAUAN TEKS PENDAPAT

Apabila mengklasifikasikan teks tinjauan, pengekod mesti membuat bacaan cepat dan menyerong bagi semua teks, atau sekurang-kurangnya sampel wakil daripadanya dipilih secara rawak. Sebagai contoh, jika kita menjalankan kaji selidik mengenai sampel 5,000 orang, membaca setiap respons untuk mengetahui tema mana yang paling relevan dari segi pengulangan dan kekerapan idea akan mengambil masa yang sangat lama dan tugas yang mengecewakan. Oleh itu, penyelidik mesti terlebih dahulu memilih kumpulan teks rawak yang boleh ditentukan oleh mata, seperti 100 teks. Selepas bacaan pepenjuru cepat ini, pengekod mesti menulis penerangan umum tentang apa yang telah dibacanya. Cuba bayangkan kategori yang mungkin dikaitkan dengan teks ini. Kemudian pengekod mesti membaca setiap teks, satu demi satu dan meletakkannya di dalam salah satu kategori tertutup yang pada asalnya divisualisasikan. Jika teks yang dibaca tidak tergolong dalam mana-mana kategori, maka perlu membuat kategori baru untuk meletakkannya.

MASALAH YANG DITEMUI DALAM TINJAUAN DENGAN PEMPROSESAN TEKS

Terdapat banyak masalah dan kekurangan yang berkaitan dengan pengekodan teks manual yang diterangkan dalam perenggan sebelumnya. Yang pertama ialah pengendalian sejumlah besar data yang dikumpulkan dalam tinjauan. Masalah ini boleh dikurangkan dengan menggabungkan beberapa orang untuk bekerja dalam pasukan, bukan dengan memberikan semua kerja pengekodan kepada satu orang, tetapi diedarkan kepada banyak pengekod untuk mengurangkan masa pemprosesan dan dapat mengatur tugas dengan lebih baik untuk memenuhi masa penghantaran yang ditetapkan dalam jadual kajian. Selain daripada kelajuan pemprosesan, masalah kedua yang kita perhatikan dalam pengekodan manual ialah apabila menugaskan teks kepada berbilang kategori. Ini biasanya berlaku apabila berurusan dengan teks pendapat yang luas, jadi mungkin untuk dua atau lebih kategori dan bukannya hanya satu seperti yang dijangkakan, jadi pengekod mesti menetapkan teks pendapat kepada beberapa kategori tertutup yang telah ditetapkan, mengakibatkan bukan pembolehubah pilihan tunggal, tetapi pembolehubah pilihan berganda, yang pemprosesannya mungkin lebih kompleks.

Masalah ketiga yang dihadapi sebagai tambahan kepada yang telah disebutkan adalah apa yang perlu dilakukan apabila teks yang dikodkan berasal dari soalan pilihan tunggal atau berbilang. Sebagai contoh, jika tinjauan bertanya "Apakah rasa ais krim kegemaran anda?", maka pilihan jawapannya ialah COKLAT, MENTEGA, STRAWBERI DAN PERISA LAIN. Apabila kita mengklasifikasikan teks yang berasal dari jawapan PERISA LAIN, di sana kita akan menemui rasa seperti oren, asam jawa, kelapa, dan lain-lain, tetapi apa yang berlaku apabila kita membaca teks COKLAT GELAP? dalam kes ini kita perlu mengeluarkan teks itu dari pangkalan data dan meningkatkan bilangan pilihan COKLAT. Keadaan ini adalah karma sebenar untuk pengekod, kerana kerja mereka mesti diselaraskan dengan pasukan lapangan untuk membuat pembetulan ke pangkalan data untuk menyelesaikan keadaan ini.

PERISIAN DAN ALAT UNTUK MENGKLASIFIKASIKAN TINJAUAN TEKS (ATAU PENGEKODAN)

Sejak akhir 70-an, industri penyelidikan pasaran telah memikirkan algoritma dan alat untuk melakukan kerja keras pengekodan teks terbuka dari tinjauan dan mengubahnya menjadi kategori tertutup secepat, baik dan cekap yang mungkin (semuanya dalam rangka kerja projek penyelidikan pendapat awam yang dijalankan oleh firma penyelidikan pasaran). Walau bagaimanapun, apabila ia memasuki tahun 2020-an, sedikit telah dicapai dalam hal ini, selain daripada pelbagai utiliti yang membolehkan untuk mempercepatkan dan mengoptimumkan proses pengekodan. Walau bagaimanapun, pada masa kini tugas pengekodan masih kebanyakannya dilakukan secara manual atau separa automatik. Oleh itu, alat SPSS telah menjadi salah satu daripada beberapa perisian yang berani menawarkan pilihan automatik untuk mengklasifikasikan sejumlah besar teks dengan menggunakan algoritma untuk membina pokok keputusan dan analisis kluster, serta teknik statistik lain yang telah digunakan sejak tahun 1990-an untuk penciptaan taksonomi, analisis kumpulan dan segmentasi pasaran, dan lain-lain melalui penerapan algoritma statistik lanjutan.

Keputusan yang diperolehi oleh penggunaan Analisis Teks Pemodel SPSS kepada sampel 10,000 teks yang dikumpul dalam tinjauan pendapat dinilai sebagai sangat lemah jika dibandingkan dengan kerja yang dilakukan secara manual oleh manusia, atau sekurang-kurangnya itulah hasil yang kami perhatikan dalam bahasa Sepanyol. Apabila teks dikumpulkan dalam bahasa Inggeris, pengekodan automatik yang lebih baik boleh diperoleh melalui perisian ini. Oleh itu, sesetengah pengguna Analisis Teks SPSS memilih untuk menterjemah semua teks tinjauan ke dalam bahasa Inggeris secara pukal dan dari situ mereka meneruskannya kepada Analisis Teks SPSS. Hasil daripada proses ini adalah kerja automatik yang tidak berkualiti jika dibandingkan dengan kerja manual yang dilakukan oleh pengkod. Semua ini menyebabkan banyak syarikat terus menggunakan sistem pengekodan manual. Tetapi pada masa kini ia boleh menggunakan bantuan lanjutan seperti pengisihan kelompok Rotator Survey untuk mengurangkan masa operasi dan meningkatkan kecekapan dan kelajuan kerja manual.


Perisian klasifikasi teks tinjauan

Paparan skrin modul Pengelas Rotator sebagai 2020

KECERDASAN TIRUAN YANG DIGUNAKAN UNTUK PEMPROSESAN TEKS KAJIAN PENDAPAT

Langkah seterusnya yang akan kita lihat dalam dekad akan datang ialah penerapan algoritma kecerdasan buatan (AI) heuristik, iaitu peranti pintar yang mampu menganalisis sejumlah besar kandungan teks dalam masa beberapa saat, mengkaji logik manusia dan mencadangkan beberapa klasifikasi alternatif, semuanya dengan logik yang tidak dapat dinafikan, serupa atau lebih tinggi daripada kepakaran manusia. Memandangkan prospek yang menjanjikan ini, ia akan dikurangkan kepada tugas pengkod untuk menjalankan semakan kualiti dan melaraskan parameter sistem, serta melatih sistem untuk mempelajarinya. Walaupun jangkaan ini dan keadaan semasa seni kecerdasan buatan, kebenarannya adalah bahawa penggantian minda manusia untuk menutup soalan terbuka tinjauan, tidak akan mungkin dalam jangka sederhana atau panjang, sebabnya adalah kerana sistem kecerdasan buatan mengikut definisi, memerlukan beribu-ribu (atau berjuta-juta) rekod data untuk latihan kendiri. Dan jika kami tidak mempunyai kajian besar sebelum kajian kami, yang mengandungi semua kebolehubahan maklumat yang diingini, kami akan mempunyai kodifik yang lemah.


Dokumen untuk perbincangan lanjut



Video: Pengenalan kepada Analisis Teks SPSS


Video: Menggunakan IBM SPSS Modeler dengan Analitis Teks


Video: Masa Depan Analitis: Pembelajaran Mesin dan Analitis Data