【專欄】遇見敏感問題轉個彎間接詢問

何謂「敏感問題」?舉凡有關收入、投票行為、政治態度、性傾向、一夜情經驗、非法藥物(毒品)使用等，這類涉及個人隱私、或是與一般社會傳統價值觀有衝突的問題，這就是「敏感問題」。而為了發掘人類行為真相，解決人或社會現象的問題，民意抽樣調查仍是不可缺少的方法。對於抽樣設計結構較嚴謹的資料，其統計推論是建立在樣本的隨機性，代表母體中的每一個元素都必須有機會被抽取，且被抽取的機率是可知的，進而能推論整個總體的特徵，完善的界定一群人對特定主題所抱持的意見、態度或行為。這類調查資料背後的主要研究工具是依據研究目的與驗證研究假設所設計的問卷題目，透過問卷詢問人們關於自身的信仰、意見、態度、個人特徵、自我分類、知識、過去或現在的行為等。然而在面對「敏感問題」時，要得到可靠，能探究真實狀況的推論結果相當不容易。主要是因為人們如果覺得自己的真實狀況是公眾中的少數，會因為害怕被孤立或迫害，選擇隱藏自己，保持沉默拒絕回答，或是會趨向回答符合社會期許的不真實回答，以致於研究者蒐集到不正確的資料，將嚴重影響最終分析的有效性。

以2017年台灣社會變遷基本調查中網絡與社會資源組的總統選舉投票行為為例，問卷題目為“F1.民國105年(西元2016)年1月的總統選舉，請問您有沒有去投票?投給誰?”。此調查資料的估計投票率為77.38%，高於中選會公佈的投票率66.27%，差距有11.11%。在估計之各候選人的得票率皆低於中選會公佈的得票率，如候選人蔡英文和陳建仁的估計得票率為50.36%，低於中選會公布的得票率56.12%，差距為5.76%。其中有20.13%受訪者表示有去投票，但在調查中拒絕回答投票對象或已經忘記投給誰，這屬於有效票數的無反應回覆，是個不可忽視的問題。因若刪除此類無反應資料，會使得各候選人的得票率有高估的現象。且無反應比率高於問卷的其他題目，這似乎也反映出民眾不太願意回答關於投票行為的問題。

進一步，此調查首次嘗試以Greenberg et al. (1969)提出的隨機作答方法來詢問受訪者是否有據實回答總統選舉投票的題目，如下:
“F27.請您先抽一張數字卡片，但請不要說出您抽到的數字，記在心裡就好。請依據您抽到的數字選擇題目A或題目B。
抽到數字1, 2 者（請回答題目A）：我的身分證字號最後一碼為0、1 或2。
抽到數字 3，4，5 者（請回答題目B）：我有據實回答「總統選舉投票」的題目。
請不要說出您選擇的題目，然後告訴我您的回答為「是」或「不是」?”
此分析結果僅能做整體性的比例推估，並無法知道受訪者回答的「是」或「不是」是針對於題目A或B，所以能保護受訪者的隱私。其分析結果顯示，有近20%的受訪者未誠實以告或拒絕回答，這顯現出總統選舉投票題目以直接詢問(題目F1)的方式蒐集資料，其估計得票率、投票率會有偏差的情況。

針對受訪者拒絕回答或不真實回答的測量誤差，傳統敏感問題的資料蒐集方法為試圖限制訪問者的影響和存在，例如採用自我管理的問卷、計算機輔助的自我訪談、或網絡調查。儘管這些方法雖具有高度機密性，但因以直接詢問敏感問題的方式為主，仍然存在有人不願意勇敢的說出來，所可能導致的不真實回答。因此，通常會低估了對社會不良、越軌行為的報導，或者對預期的行為進行了過多報導。
另一種方法是間接詢問技術(indirect questioning techniques, IQT)，這是以最嚴格的匿名性來保持個人回答，能充分保護調查參與者的隱私，並從他們的回答中獲取更可靠的數據。IQT可使研究人員對母體的敏感特徵參數有良好估計，例如敏感行為的普遍性或敏感定量變量的平均值/總計。近年來IQT廣泛地應用到許多研究領域，所發展的方法大致列出為: 隨機作答法(randomized response technique, RRT)、不對稱計數法(unmatched count technique, UCT)、非隨機作答法(nonrandomized response technique, NRRT)。儘管IQT都有不同的程序來鼓勵受訪者配合，以減少不真實回答的態度，由於未直接詢問敏感問題，因此不需要受訪者公開揭露是否確實屬於此特定敏感群體。這樣讓受訪者的隱私獲得保護，且連訪員和研究者都不知道受訪者是否屬於敏感群體。

IQT發展的起源是RRT，係由Warner在1965年所提出的。假設政府想瞭解毒品(安非他命、愷他命、大麻、搖頭丸等)的濫用問題，以有效抑阻毒品的蔓延，則Warner的RRT就可設計兩個問題，例如:

Q_1:請問您過去一年是否曾經使用過毒品?
Q_2:請問您過去一年是否未曾使用過毒品?

假設P_1為使用毒品的比例，這部分是值得政府關注的，而每一位受訪者的特徵可能為有使用毒品或沒有使用毒品，則每一位受訪者依據隨機器(卡片、轉盤、骰子等)，來決定回答題目Q_1或Q_2，如圖一。而隨機器的參數R是由研究者自行設定，使得有比例R的人會回答Q_1，與比例(1-R)的人會回答Q_2。由於受訪者不用告訴研究者要回答的題目是Q_1或Q_2，只需針對隨機器所決定的問題回答「是」或「否」，所以研究者不會知道受訪者回答哪一題，能更確實的保護受訪者的隱私。經資料蒐集後，研究者會知道回答「是」的比例P_Y，並可以表示為P_Y=P_1×R+(1-P_1)×(1-R)。當P_Y和R已知時，移項即可得到P_1，但需要注意若R=0.5，會使分母為0，是無法計算P_1的估計值。

圖一、 Warner 模型

由於Warner所提出的兩個問題都是敏感性問題，仍有可能會引起受訪者的反感，Greenberg et al. (1969)提出不相關問題的隨機作答，將題目Q_2改成與Q_1無相關的題目，如「Q_2^*:請問您的生日月份是否為1、2或3月?」。之後許多學者提出了其他的隨機作答，並針對Warner(1965)模式進行修正，以達到保護到受訪者的個人隱私，如Chaudhuri & Christofides (2013)，Chaudhuri et al. (2016)，Hsieh et al. (2018)等。RRT經過充分的研究，文獻也針對不同的敏感主題提供了許多應用與方法學評估，並證明使用隨機作答理論是合理的。但卻在於一些實證研究中，發現RRT與直接詢問法比較，並無法提供有效的估計。此外，亦有些文獻討論隨機作答方法失敗的原因可能是受訪者不能或不願意按說明操作隨機器，而引起隨機作答方法可行性的擔憂，尤其是於網調或電話訪問調查中，更無法確認受訪者是否真的使用隨機器。

為了克服受訪者在RRT於操作隨機器的誤解、可疑所導致回答的錯誤，而發展出UCT和NRRT。UCT又稱之為項目計數法(item count technique)、不對稱區集設計(unmatched block design)，或是區集總計回答 (block total response)，已被廣泛應用於心理學和社會學的研究。因研究者無法根據受訪者的回答數字，而得到敏感行為或特徵的結論，故受訪者可以得到絕對的匿名與保護。此方法會將受訪者分成兩組，一組是對照組，被規劃要回答幾題非敏感的問題；另一組是實驗組，被規劃額外多附加上一題敏感問題，而受訪者只需要簡單回答題組中給予「是」的數量。

NRRT係以Yu et al. (2008)提出的交叉模型(Crosswise Model)和三角模型(Triangular Model)為主，如圖二。此方法需要設計是一個敏感性問題和一個非敏感性問題，以同時詢問受訪者這個兩題目的回答，例如:

Q_1: 請問您過去一年是否曾經使用過毒品?
Q_3: 請問您媽媽的生日日期是否介於8月1日至12月31日?

其中題目Q_3是研究者自行設計的非敏感性問題，且已知Q_3回答「是」的比例為P_C。在交叉模型時，受訪者能回答的選項分為「A:兩題回答相同」、「B:兩題回答不相同」，如圖二。假設P_A為選項「A:兩題回答相同」的比例，則經資料蒐集後，可得P_A=P_1×P_C+(1-P_1)×(1-P_C)。在三角模型時，可回答的選項分為「A:兩題回答皆否」、「B:至少有一題回答是」。此模型是揭露出兩題回答皆否，以不具敏感特徵的族群來進行推論，假設P_A^*為選項「A:兩題回答皆否」的比例，則P_A^*=(1-P_1)(1-P_C)。雖然有些研究者認為三角模型並沒有提供足夠的匿名性，沒有保護到兩題回答皆否的人，但也有些人認為三角模型的調查執行程序比較有效率，以簡單的方式顯示「是」的回答。

圖二、交叉模型和三角模型的回答選項

針對IQT方法有效性的評估，若無法得知真正敏感特徵的比例時，大部分會採用與直接詢問法的結果進行比較，在受訪者的隱私受到保護後，會比較願意回答此敏感問題，而使得IQT的推論結果高於直接詢問法。雖然實證研究是驗證IQT方法的最好方式，不過因調查主題、風俗民情、調查模式等不同，應要避免以一次性的實證研究結果，就宣稱為最佳的IQT方法。同時，也開始有研究者引用複雜的統計方法來調整IQT可能會存在於不據實回答的部分。最後，IQT的方法僅能得到敏感特徵的整體比例估計，並不會測量到受訪者個人是否屬於該敏感特徵，消弭受訪者害怕自己身份或隱私被曝光的疑慮，進而提升敏感問題相關研究之正確性。

參考文獻
Chaudhuri, A., and T.C. Christofides. 2013. Indirect Questioning in Sample Surveys. Heidelberg: Springer.

Chaudhuri, A., T.C. Christofides, and C.R. Rao. 2016. Handbook of Statistics 34- Data Gathering, Analysis and Protection of Privacy through Randomized Response Techniques: Qualitative and Quantitative Human Traits. Amsterdam: Elsevier.

Greenberg, B.G., A. Abul-Ela, W.R. Simmons, and D.G. Horvitz. 1969. The Unrelated Question Randomized Response Model: Theoretical Framework. Journal of the American Statistical Association, 64: 520-539.

Hsieh, S. H., S. M. Lee , and S.H. Tu. 2018. Randomized Response Techniques for a Multi-level Attribute Using a Single Sensitive Question. Statistical Papers, 59: 291-306.

Warner, S.L. 1965. Randomized Response: A Survey Technique for Eliminating Evasive Answer Bias. Journal of the American Statistical Association, 60: 63-69.

Yu, J.W., G.L. Tian, and M. L. Tang. 2008. Two New Models for Survey Sampling with Sensitive Characteristic: Design and Analysis. Metrika, 67(3): 251-263.