Likrea

Selama beberapa tahun terakhir, telah diamati bahwa model bahasa, atau LMs, telah sangat berperan dalam mempercepat pengembangan aplikasi pemrosesan bahasa alami di berbagai industri, seperti perawatan kesehatan, pengembangan perangkat lunak, keuangan, dan banyak lagi. Penggunaan LMs dalam menulis kode perangkat lunak, membantu penulis dalam meningkatkan gaya penulisan dan alur cerita mereka, dll., adalah salah satu aplikasi paling sukses dan populer dari model berbasis transformer. Namun, penelitian telah menunjukkan bahwa LMs semakin banyak digunakan dalam konteks yang terbuka dalam hal aplikasi mereka dalam chatbot dan asisten dialog dengan memberikan pertanyaan subjektif. Misalnya, beberapa contoh pertanyaan subjektif tersebut termasuk bertanya kepada agen dialog apakah AI akan mengambil alih dunia dalam beberapa tahun mendatang atau apakah melegalkan euthanasia adalah ide yang baik. Dalam situasi seperti itu, pendapat yang diungkapkan oleh LMs sebagai respons terhadap pertanyaan subjektif dapat secara signifikan mempengaruhi bukan hanya penentuan apakah suatu LM tunduk pada prasangka dan bias tertentu, tetapi juga membentuk pandangan masyarakat secara keseluruhan.

Saat ini, cukup sulit untuk dengan tepat memprediksi bagaimana LMs akan merespons pertanyaan subjektif tersebut untuk mengevaluasi kinerja mereka dalam tugas yang terbuka. Alasan utama di balik hal ini adalah orang-orang yang bertanggung jawab merancang dan menyesuaikan model ini berasal dari berbagai latar belakang dan memiliki pandangan yang berbeda. Selain itu, ketika datang ke pertanyaan subjektif, tidak ada respons “benar” yang dapat digunakan untuk menilai sebuah model. Sebagai hasilnya, jenis pandangan apa pun yang ditampilkan oleh model dapat secara signifikan memengaruhi kepuasan pengguna dan bagaimana mereka membentuk pendapat mereka. Oleh karena itu, untuk mengevaluasi dengan benar LMs dalam tugas-tugas yang terbuka, penting untuk mengidentifikasi dengan tepat pendapat siapa yang tercermin oleh LMs dan bagaimana mereka selaras dengan mayoritas populasi umum. Untuk tujuan ini, sebuah tim peneliti pascadoktoral dari Universitas Stanford dan Universitas Columbia telah mengembangkan kerangka kerja kuantitatif yang luas untuk mempelajari spektrum pendapat yang dihasilkan oleh LMs dan sejauh mana kesesuaian mereka dengan berbagai kelompok populasi manusia. Untuk menganalisis pandangan manusia, tim ini menggunakan survei opini publik yang dipilih oleh para ahli dan respons yang dikumpulkan dari individu yang berasal dari berbagai kelompok demografis. Selain itu, tim peneliti ini juga mengembangkan dataset yang baru disebut OpinionQA untuk menilai sejauh mana ide-ide LMs ini sesuai dengan kelompok demografis lainnya dalam berbagai isu, termasuk aborsi dan kekerasan senjata.

Untuk kasus penggunaan mereka, para peneliti mengandalkan survei opini publik yang dirancang dengan hati-hati dan topiknya dipilih oleh para ahli. Selain itu, pertanyaan-pertanyaan tersebut dirancang dalam format pilihan ganda untuk mengatasi tantangan yang terkait dengan respons terbuka dan untuk penyesuaian yang mudah dengan prompt LM. Survei ini mengumpulkan pendapat individu-individu yang berasal dari berbagai kelompok demokratis di Amerika Serikat dan membantu peneliti dari Stanford dan Columbia dalam membuat metrik evaluasi untuk mengukur kesesuaian respons LM dengan pendapat manusia. Dasar utama di balik kerangka kerja yang diusulkan oleh para peneliti ini adalah mengkonversi survei opini publik dalam format pilihan ganda menjadi dataset untuk mengevaluasi pendapat LM. Setiap survei terdiri dari beberapa pertanyaan di mana setiap pertanyaan dapat memiliki beberapa respons yang mewakili berbagai topik. Sebagai bagian dari studi mereka, para peneliti pertama-tama harus membuat distribusi pendapat manusia yang dapat dibandingkan dengan respons LM. Tim kemudian menerapkan metodologi ini pada jajak pendapat Pew Research American Trends Panels untuk membangun dataset OpinionQA. Jajak pendapat ini terdiri dari 1498 pertanyaan pilihan ganda dan respons mereka yang dikumpulkan dari kelompok demografis yang berbeda di seluruh Amerika Serikat yang mencakup berbagai topik seperti sains, politik, hubungan pribadi, perawatan kesehatan, dll.

Tim tersebut mengevaluasi 9 LMs dari AI21 Labs dan OpenAI dengan parameter yang bervariasi dari 350M hingga 178B menggunakan dataset OpinionQA yang dihasilkan tersebut dengan membandingkan pendapat model dengan pendapat populasi AS secara keseluruhan dan 60 kelompok demografis yang berbeda (termasuk demokrat, individu berusia di atas 65 tahun, janda, dll.). Para peneliti utamanya melihat tiga aspek temuan: representativitas, keberimbangan, dan konsistensi. “Representativitas” mengacu pada sejauh mana keyakinan dasar LM cocok dengan keyakinan orang Amerika secara keseluruhan atau segmen tertentu. Ditemukan bahwa terdapat perbedaan yang signifikan antara pandangan LMs kontemporer dan pandangan kelompok demografis Amerika pada berbagai topik seperti perubahan iklim, dll. Selain itu, ketidaksesuaian ini hanya tampak diperkuat dengan menggunakan penyesuaian berbasis umpan balik manusia pada model untuk membuat mereka lebih selaras dengan manusia. Juga, ditemukan bahwa LMs saat ini tidak menggambarkan pandangan kelompok-kelompok tertentu, seperti mereka yang berusia di atas 65 tahun dan janda. Ketika datang ke keberimbangan (apakah sebuah LM mengikuti distribusi pendapat dari sekelompok ketika secara tepat diminta), terbukti bahwa sebagian besar LMs cenderung lebih sesuai dengan sekelompok ketika didorong untuk bertindak dalam cara tertentu. Para peneliti sangat menekankan pentingnya menentukan apakah pendapat berbagai kelompok demokratis konsisten dengan pendapat LM dalam berbagai isu. Pada bagian ini, ditemukan bahwa sementara beberapa LMs berkesesuaian dengan kelompok tertentu, distribusi ini tidak berlaku untuk semua topik.

Singkatnya, sekelompok peneliti dari Universitas Stanford dan Universitas Columbia telah menyajikan kerangka kerja yang luar biasa untuk menganalisis pandangan yang tercermin oleh LMs dengan bantuan survei opini publik. Kerangka kerja mereka menghasilkan dataset baru yang disebut OpinionQA yang membantu mengidentifikasi dalam berbagai cara di mana LMs tidak sejalan dengan pendapat manusia pada beberapa aspek, termasuk representativitas keseluruhan dengan mayoritas populasi AS, representativitas kelompok sub dengan kelompok yang berbeda (termasuk mereka yang berusia 65+ dan janda), dan keberimbangan. Para peneliti juga menunjukkan bahwa meskipun dataset OpinionQA bersifat pusat di AS, kerangka kerja mereka menggunakan metodologi umum dan dapat diperluas ke dataset untuk daerah lain juga. Tim tersebut sangat berharap bahwa karya mereka akan mendorong penelitian lebih lanjut dalam mengevaluasi LMs dalam tugas-tugas yang terbuka dan membantu menciptakan LMs yang bebas dari prasangka dan stereotip. Detail lebih lanjut tentang dataset OpinionQA dapat diakses di sini [https://github.com/tatsu-lab/opinions_qa].

Leave a Reply

Your email address will not be published. Required fields are marked *