Likrea

Beberapa tahun terakhir, model bahasa atau LMs (Language Models) telah terbukti sangat penting dalam mempercepat perkembangan aplikasi pemrosesan bahasa alami di berbagai industri, seperti kesehatan, pengembangan perangkat lunak, keuangan, dan banyak lagi. Penggunaan LMs dalam menulis kode perangkat lunak, membantu penulis meningkatkan gaya penulisan dan alur cerita, dan sebagainya, adalah salah satu aplikasi yang paling sukses dan populer dari model berbasis transformer. Namun, penggunaan LMs dalam konteks terbuka saat digunakan dalam chatbot dan asisten dialog juga semakin meningkat, terutama dalam menjawab pertanyaan-pertanyaan subjektif. Misalnya, beberapa contoh pertanyaan subjektif tersebut adalah apakah kecerdasan buatan akan mengambil alih dunia dalam beberapa tahun mendatang atau apakah melegalkan euthanasia adalah ide yang baik. Dalam situasi seperti ini, pendapat yang dinyatakan oleh LMs dalam menjawab pertanyaan-pertanyaan subjektif tersebut dapat sangat mempengaruhi penentuan apakah LMs cenderung memiliki prasangka atau bias tertentu, serta membentuk pandangan masyarakat secara keseluruhan.

Saat ini, sulit untuk akurat memprediksi bagaimana LMs akan merespons pertanyaan-pertanyaan subjektif tersebut untuk mengevaluasi kinerjanya dalam tugas-tugas terbuka. Salah satu alasan utama mengapa ini sulit dilakukan adalah karena orang-orang yang bertanggung jawab merancang dan menyesuaikan model-model ini berasal dari berbagai latar belakang dan memiliki pandangan yang berbeda. Selain itu, ketika menyangkut pertanyaan-pertanyaan subjektif, tidak ada tanggapan “benar” yang dapat digunakan untuk menilai sebuah model. Akibatnya, segala jenis pandangan yang ditunjukkan oleh model tersebut dapat berdampak signifikan terhadap kepuasan pengguna dan cara mereka membentuk opini mereka. Oleh karena itu, untuk menilai LMs secara benar dalam tugas-tugas terbuka, sangat penting untuk mengidentifikasi pandangan siapa yang sebenarnya tercermin dalam LMs dan sejauh mana mereka sejalan dengan mayoritas populasi umum. Untuk tujuan ini, sebuah tim peneliti pascadoktoral dari Universitas Stanford dan Universitas Columbia telah mengembangkan kerangka kerja kuantitatif yang komprehensif untuk mempelajari spektrum pendapat yang dihasilkan oleh LMs dan sejalan dengan kelompok-kelompok manusia yang berbeda. Untuk menganalisis pandangan manusia, tim peneliti menggunakan survei opini publik yang dipilih oleh para ahli dan tanggapan yang dikumpulkan dari individu-individu yang berasal dari kelompok demografis yang berbeda. Selain itu, tim tersebut juga mengembangkan dataset baru yang disebut OpinionQA untuk menilai sejauh mana pandangan LMs sejalan dengan kelompok demografis lain dalam berbagai isu, termasuk aborsi dan kekerasan senjata.

Dalam kasus penggunaannya, para peneliti tersebut menggunakan survei opini publik yang dirancang dengan cermat dan topik-topik yang dipilih oleh para ahli. Selain itu, pertanyaan-pertanyaan tersebut dirancang dalam format pilihan ganda untuk mengatasi tantangan yang terkait dengan tanggapan terbuka dan untuk memudahkan adaptasi dengan input LMs. Survei ini mengumpulkan pendapat individu-individu yang berasal dari kelompok demografis yang berbeda di Amerika Serikat dan membantu para peneliti dari Stanford dan Columbia dalam membuat metrik evaluasi untuk mengukur sejauh mana pandangan LMs sejalan dengan opini manusia. Dasar utama di balik kerangka kerja yang diajukan oleh para peneliti adalah mengubah survei opini publik berformat pilihan ganda menjadi dataset untuk mengevaluasi pandangan LMs. Setiap survei terdiri dari beberapa pertanyaan di mana setiap pertanyaan dapat memiliki beberapa jawaban yang mewakili berbagai topik. Sebagai bagian dari penelitian mereka, tim peneliti pertama-tama harus membuat distribusi pendapat manusia yang dapat digunakan untuk membandingkan respons LMs. Tim kemudian menerapkan metodologi ini pada jajak pendapat Pew Research’s American Trends Panels untuk membangun dataset OpinionQA. Jajak pendapat tersebut terdiri dari 1498 pertanyaan pilihan ganda dan tanggapannya yang dikumpulkan dari kelompok demografis yang berbeda di seluruh Amerika Serikat yang mencakup berbagai topik seperti sains, politik, hubungan personal, kesehatan, dan lain-lain.

Tim tersebut mengevaluasi 9 LMs dari AI21 Labs dan OpenAI dengan parameter yang bervariasi dari 350M hingga 178B menggunakan dataset OpinionQA yang dihasilkan dengan membandingkan pandangan model dengan populasi AS secara keseluruhan dan 60 kelompok demografis yang berbeda (termasuk kaum demokrat, individu berusia di atas 65 tahun, janda, dll.). Para peneliti utamanya memperhatikan tiga aspek temuan mereka: representativitas, kemampuan pengendalian (steerability), dan konsistensi. “Representativitas” mengacu pada sejauh mana pandangan default LMs sesuai dengan pandangan umum masyarakat AS secara keseluruhan atau kelompok tertentu. Ditemukan bahwa terdapat perbedaan yang signifikan antara pandangan LMs saat ini dan pandangan kelompok demografis Amerika dalam berbagai topik seperti perubahan iklim, dll. Selain itu, perbedaan ini tampaknya semakin diperkuat dengan menggunakan umpan balik manusia untuk menyesuaikan model agar lebih sejalan dengan manusia. Juga, ditemukan bahwa LMs saat ini tidak secara memadai mewakili pandangan beberapa kelompok, seperti mereka yang berusia di atas 65 tahun dan janda. Ketika membahas kemampuan pengendalian (apakah LMs mengikuti distribusi pendapat kelompok ketika dipromosikan dengan benar), ditemukan bahwa sebagian besar LMs cenderung lebih sejalan dengan suatu kelompok ketika didorong untuk bertindak dengan cara tertentu. Tim peneliti memberikan penekanan besar pada menentukan apakah pendapat dari berbagai kelompok demokratis konsisten dengan LMs pada berbagai isu. Dalam hal ini, ditemukan bahwa meskipun beberapa LMs sejalan dengan kelompok-kelompok tertentu, distribusinya tidak berlaku untuk semua topik.

Secara keseluruhan, sekelompok peneliti dari Universitas Stanford dan Universitas Columbia telah menyusun kerangka kerja yang luar biasa yang dapat menganalisis pandangan yang tercermin dalam LMs dengan menggunakan survei opini publik. Kerangka kerja mereka menghasilkan dataset baru yang disebut OpinionQA yang membantu mengidentifikasi cara-cara di mana LMs tidak sejalan dengan pendapat manusia dalam berbagai hal, termasuk representativitas secara keseluruhan terhadap mayoritas populasi Amerika Serikat, representativitas kelompok sub, dan kemampuan pengendalian. Para peneliti juga menunjukkan bahwa meskipun dataset OpinionQA bersifat khusus untuk Amerika Serikat, kerangka kerjanya menggunakan metodologi umum dan dapat diterapkan pada dataset untuk wilayah lain. Tim tersebut berharap bahwa karya mereka akan mendorong penelitian lebih lanjut dalam mengevaluasi LMs dalam tugas-tugas terbuka dan membantu menciptakan LMs yang bebas dari bias dan stereotipe. Informasi lebih lanjut tentang dataset OpinionQA dapat diakses di sini [https://github.com/tatsu-lab/opinions_qa].

Leave a Reply

Your email address will not be published. Required fields are marked *