【關於民調抽樣,賴清德的兩個問題】
我其實蠻不喜歡寫賴清德的,主要的原因是我個人的寫作偏好。政治人物對我來說有四種:我喜歡的、我討厭的、我感覺複雜的、我沒感覺的。前兩種我寫得比較多,尤其是第二種。第三種我不知從何寫起,最後一種我懶得寫。
賴清德屬於第四種。簡單講,我覺得他是個無聊的人。就在幾天前,五四一百週年,他跑去胡適紀念館,讓我發現他這個人實在太無聊了,無聊到有點好笑的程度,所以我寫了一篇。後來談他和蔡英文在同一天的活動,算是五四那篇的衍生物。寫完「這個人真的很無聊」這件事以後,我又懶得寫他了。
偏偏我現在又要來寫他了。我很不想寫,到正在打字的當下還是不想寫,但是他幹了一件事,讓我覺得自己有一點點義務出來講兩句話。
◇◇◇
事情是這樣的。最近民進黨在吵初選民調,吵到了市話民調與手機民調的問題。支持手機民調的人主張,這年頭已經有很多人生活裡已經完全沒有市話了,用市話民調將會忽略這些人的意見。
賴清德跑出來反對他們,說還是市話好。為什麼市話民調比較好呢?他當然有他的陰謀論故事可以講,但是傳播陰謀論以前,他還算盡責地正面回應了手機民調支持者的訴求。簡單講,他認為市話民調忽略純手機用戶不是個問題。
這是我的重點。我覺得他的問題大了。
直接引用報導中的說法吧,刪節號為本人所加,本引文刪除了民調作弊等陰謀論,純粹討論賴清德關於「家戶民調不會忽略只用手機的年輕人」的說法。
『賴清德說,過去民調有辦法用1千多通電話代表母群體,一個行政區、一個縣、一個國家,是因為有嚴謹的科學依據。今天改成手機,有無辦法代表真正的民意恐怕要謹慎......至於年輕人接不到電話的問題,賴清德說,這個可以回推,用加權方式解決年輕人少接到電話問題......如果家戶民調,年輕人在人口比例是10%,電話民調只有5%年輕人接到,可以加權成 2倍;年紀大的人假設人口比例是15%,接到電話是30%,加權可以乘以0.5,回歸到母群體的分布。』
賴清德的這段話有兩個問題。
◇◇◇
第一,賴清德說「過去民調有辦法用一千多通電話代表母群體」,這是錯的。我不知道這樣講會不會很違反大家的常識,但是事情就是這樣。
首先,我們得稍微瞭解一下賴清德所謂的母群體是什麼。我個人比較習慣的叫法是「母體」,不是駭客任務的那個matrix,是population。所謂的母體指的是「我們做這個調查真正想要瞭解的那群人」,在選舉民調的情境下,一般指的就是「有投票權的國民」。這種人在台灣有一兩千萬,我們當然不可能去問每一個人他支持誰,所以我們得找到一群有代表性的人,並且用各種科學方法確保這群人的投票意向和母體越類似越好。這群人就叫做「樣本」。
這就是母體和樣本的關係,大概可以算是抽樣理論的基礎吧。當賴清德說「過去民調有辦法用1千多通電話代表母群體,是因為有嚴謹的科學依據」的時候,他的意思就是說「如果我們把抽樣設計得很嚴謹很科學,樣本就可以代表母體」。
然後請容我再說一次,這句話是錯的。
為什麼?
真正嚴謹地討論抽樣的時候,我們不會說樣本(sample)可以代表母體(population)。在最好的情況下,樣本可以代表抽樣母體(sampled population)。
我們從作為母體的有投票權之國民開始講吧。我們不可能去問這一兩千萬人(母體)中的每一個人他們支持誰,所以我們要從這麼多人裡面抽出一些人(樣本)來問。問題是,我們要怎麼抽呢?首先我們得有個名單,從這個名單裡面抽選我們要去問的人。在我們業內,這個名單叫做「抽樣框」(sampling frame)。在我們現在的案例裡,就是兩個抽樣框在比誰比較好:一個是市話,一個是手機。
抽樣框和母體一般不會完全重疊,事實上,在很多情況下可能還蠻不重疊的。一方面,會有一些人在抽樣框裡,卻不是母體的一部份,例如會接到民調電話卻沒有投票權的人。這些人處理起來很簡單,就當這通電話沒打過,不用他們的數據就好;另一方面的問題比較複雜,就是明明在母體裡卻沒有被抽樣框包含到的人。例如你用市話當抽樣框,純手機用戶就是母體中被忽略的成員。
又在母體裡又在抽樣框裡的人之中,還有一些人,叫做拒答者。這些人也蠻難處理的,但一方面他們不是這次爭論的核心、二方面在選舉這種情境下拒答者恐怕也相對較少,所以我們先不管吧。到最後,一個抽樣框裡,扣掉不屬於母體的成員、扣掉拒答者,剩下來的那一塊,就叫做「抽樣母體」。
問卷調查的對象,那些一個一個真的填了問卷的人,也就是我們的樣本,是從這個抽樣母體裡隨機抽出來的,不是從母體裡隨機抽出來的。
樣本是從哪裡隨機抽出來的,樣本就代表誰。
賴清德那句話錯就錯在這裡。在一切都盡善盡美超科學超嚴謹的情況下,樣本可以代表抽樣母體,但不能代表母體。抽樣母體與母體間的距離包括兩種人,一種是拒答者,一種是一開始就被抽樣框忽略掉的母體成員。從抽樣母體中隨機抽選的樣本,不能代表這兩種人。
所以,這兩種人,原則上都是我們永遠無法研究、無法推估的,尤其是一開始就被抽樣框跳過不管的那些人。所以選擇抽樣框的基本原則,就是在其它條件(如成本)類似下,盡可能讓抽樣框和母體越重疊越好,以減少遺漏。
手機民調和市話民調,哪個抽樣框比較趨近母體,這應該很明顯吧?
◇◇◇
當賴清德說樣本可以代表母體的時候,他在描述的其實是一種理想狀態,一種「抽樣框和母體重疊」的狀態。
然後他現在的主張是要把抽樣框搞得越小越好、和母體差距越遠越好。
這就是他所謂的嚴謹的科學依據嗎?
◇◇◇
很不幸地,這只是他的第一個問題。
我說的不幸指的是我自己很不幸。為了一個我實在沒什麼興趣的人寫這麼長的文章,我好不幸。
賴清德的第二個問題是,他認為可以用加權的方式解決年輕人接不到電話的問題。
加權是在做問卷調查的時候常用的方法,作法也的確就如賴清德所說的,如果樣本裡年輕人佔的比重小於母體中年輕人佔的比重,就給年輕人加點權重,讓樣本的人口結構符合母體的人口結構。
更直觀點講,加權這件事是這樣的:我們發現我們抽樣回來的年輕人跟母體裡的年輕人比起來太少了,我們就以我們抽回來的這些年輕人為基礎,複製一些年輕人出來,直到年輕人在樣本裡的比重和在母體一致為止。
這樣做的主要目的是要讓樣本的人口結構趨近於母體的人口結構,而不是把被抽樣框排除掉的人找回來。要做到後者,必須先假設:樣本裡的這些年輕人,和被抽樣框排除掉的那些年輕人是類似的,所以你可以用前者的複製人代替後者。
反過來說,我們必須假設抽樣框一開始排除那些年輕人,是隨機排除的。
如果我們用市話做抽樣框,我們能做這樣的假設嗎?不行。因為這些被排除的年輕人不是隨機被排除的,他們是因為沒有市話所以被排除的。
沒有市話的年輕人,和有市話的年輕人,是同一種年輕人嗎?我認為不是。有許多人主張,年輕的租屋者是主要的「沒有市話」的族群;而在這群人身上,兩條形構當代台灣社會主要社會矛盾的線,剛好交會在一起:城鄉與階級。一般來說,年輕租屋者更有可能是離家來到都會區工作的城鄉流動者,而非父母就住在都會區、自己也在都會區長大的年輕人;另一方面,年輕租屋者與年輕購屋者之間,也無可避免地存在著一條階級界線。
換句話說,我們看看台灣社會的年輕人的一般樣貌,會發現不同類型的年輕人身處在市話這個抽樣框的內外。在市話抽樣框的外面,是離鄉背井到大城市工作,買不起房子的年輕人;在抽樣框的內部,是要嘛在大城市長大現今與父母同住、或者乾脆就自己買了房子的年輕人。
然後今天賴清德說我們抽不到那些離鄉背井買不起房子的年輕人,沒關係,我們就複製幾個從小在都會區長大,或者自己買了房子的年輕人,用這些複製人來代替那些被排除的年輕人好了。
賴清德敢講這種話,我不敢。
摸著研究法講義也不敢,摸著良心也不敢。
◇◇◇
我猜這是我開站以來寫過最長的文章了吧。不過我沒算字數,是用疲倦與沮喪的程度來估計的。
我一開始就說過我蠻不喜歡寫賴清德的,但是這件事我不得不寫。寫這麼長這麼囉嗦,大概也不會有人看,但是我覺得這件事很重要,不能不寫。
我這輩子跟民進黨沒什麼瓜葛,所以也沒特別關注他們的初選。然而我跟研究法瓜葛倒是不少,身為一個學術宅,我希望大家不要再扯陰謀論或是歷年初選的陳規了。做民調,就是要知道人民在想什麼。抽樣框越貼近母體越好,這不是挺簡單的道理嗎?
◇◇◇
學術宅的話說完了。身為一個打油詩人,我卻還有幾句話。
我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。它是這麼說的:
「母體裡的任一個體,有相同的機率被選進樣本裡。」
這難道不是某種對「民主」或是「平等」的隱喻嗎?
而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎?
我們只是希望,我們也有相同的機率,被選進樣本裡。
我們只是希望,我們也能說出我們要什麼。
這,有,很,難,理,解,嗎?
機率抽樣類型 在 健美女大生 Facebook 的最讚貼文
【飲食小 tips 分享】(這不是愚人節玩笑請安心閱讀)
上次介紹呼吸肌訓練器的文章,下面有不少人留言想要知道健美女大生都怎麼吃。必須先承認,因為女大生我對甜食與一些坊間「號稱要降體脂就絕不能碰」的食物,有非理性的愛,所以如果隨機抽樣檢視我某些時刻(例如增肌期)的吃法,我非常相信內容物與食量有可能會嚇死一大票的粉粉 XD
不過,撇除這些情況,多數時候還是有基本的擇食底限:
▎每餐盡量都得有蛋白質
有鑒於目前最容易取得的外食型態,幾乎可以肯定的一件事就是:對多數人而言,如果你不特別注意你吃了什麼,對於維持基本的肌肉量來說,八九成以上的情況蛋白質絕對都不夠。(至少 0.8-1 倍左右的體重克數)
另外,研究其實一再證實,腎功能健康的人,蛋白質就算吃多一點點(2-3 倍體重克數以上),也不會有危害的。我覺得.....真的要擔心的,反而是碳水化合物太多的問題。如果你沒有規律運動、或是超過一定年紀,你的身體其實對碳水化合物的忍受程度比你以為的低很多很多。只不過,因為身體對碳水過量的反應是「變胖」與「代謝疾病機率上升」,不像「傷腎」聽起來那麼恐怖與立即,所以反而常被低估。
▎每天一定要吃到蔬菜
我覺得蔬菜其實是健身愛好者很容易缺乏的,因為有在計算營養跟熱量的人,眼光大多數時間都放在巨量營養素上(碳水、脂肪、蛋白質),而且加上我本人沒有很愛吃水果,所以如果不特別逼迫自己吃點蔬菜,特別是葉菜類,很容易缺微量營養素,大概不用兩三天就會有種嘴巴要破洞的不舒服感。
然後,給一般常有飲食問題的人兩個小建議:
▎我發現大多數的人,常常在對基本的營養完全沒有概念時,就急著跳進某種流行的「特殊飲食法」,例如生酮、間歇斷食...等等。這當然沒有不對,只是,如果你以前從沒檢視過自己的飲食內容、或沒有真正認識過那些常入口的食物、或經歷過某種類型的漸進飲食調整處方,其實很難期待這些「特殊飲食法」可以徹底改變你的身材或健康。
(例如:你知道號稱蛋白質家族「蛋豆魚肉類」的豆類,多數其實是碳水比蛋白質多嗎?或者是,你知道黑芝麻的含鈣量遠遠超過號稱補鈣的牛奶十倍以上嗎?)
你很有可能,最後只是讓自己短暫處於一個類似集中營的真空時期,而不是內化了一個健康而適合妳的吃法。(當然啦,如果是為了短期目標也無不可)
▎女大生很常被問到一個問題:為什麼我要增肌減脂,也有飲食控制,可是練了半天,好像肌也沒增到脂也沒減到?
其實原因很簡單:因為身體本來就不會同時幫你「增肌」跟「減脂」啊~這對身體來說是兩個完全不同的能量平衡狀態,就像女大生不會同時大於 60kg 又小於 60kg 一樣!當你採取「限制(熱量、碳水、進食時間....)飲食法」時,不可能期望運動會有很大進步。同樣的,當你繃緊發條拼重量或肌肉量時,你也不能期望妳的體脂肪會直直落。這是很常見的迷思,改天女大生會再深入探討這件事。
希望這些心得能對各位有點幫助喔~
最後預告一下,因為有不少訓練者對於呼吸訓練器很有興趣,女大生實測規律使用一個多月的結果,對於重量訓練呼吸或憋氣技巧的增加效果的確不錯。問了廠商以後,應該會在這幾天開個小團購喔,有興趣的粉粉們可以把握這個機會!(健氣家呼吸肌訓練器介紹:https://goo.gl/Ial0qI)
機率抽樣類型 在 國發會 Facebook 的最佳貼文
相信粉絲朋友們在看到新聞報導所公布的民意調查資料、街頭直擊訪談時,必定也會好奇究竟這些調查訪談的目標(也就是抽樣)是如何選擇的呀?事實上民調的抽樣是指從母體中抽取部分個體當為樣本加以調查。而抽樣對調查結果非常重要,從中可分為『隨機抽樣』與『非隨機抽樣』,今日小助手就來談談『非隨機抽樣』及其相關類型。
📋非隨機抽樣(non-random sampling):指不遵循隨機原則抽樣,而是依照研究者主觀判斷或調查需要來抽取樣本,每個樣本被選取的機率不相同,因此無法依據機率原則的統計理論來解釋所抽取的樣本特性,亦無法透過分析樣本的特性來推估母體的全體特性。一般來說,有下列3種類型:
1️⃣便利抽樣(convenient sampling):以研究者的方便來抽取樣本,如在街頭或其他場所攔下路人進行調查。
2️⃣判斷抽樣(judgment sampling):研究者依據主觀意願、經驗和知識等判斷,選取具有典型代表性的樣本進行調查。
3️⃣配額抽樣(quota sampling):先將母體分成不同類組,然後在每個類組中用便利抽樣或判斷抽樣方式選取樣本。
經過以上說明,有沒有發覺民意調查中常用的專有名詞變得淺顯易懂了呢?
▶️想了解更多「民意調查」專有名詞,不妨可以參考本會粉絲頁的另一篇貼文喔 https://goo.gl/rwrK3M
#國發會 #NDC #國發會小知識 #民意調查
機率抽樣類型 在 6-2 常用的抽樣方法(難度: ) - YouTube 的美食出口停車場
抽樣方法-非 機率抽樣 法. Chi Lo•1.6K views · 5:07 · Go to channel · 5.8 Non-sampling error | Quantitative methods | Sampling | UvA. Research ... ... <看更多>
機率抽樣類型 在 匯東華統計顧問有限公司added a new photo. 的美食出口停車場
樣本。所以,比例配額抽樣是非隨機抽樣的一個例子。 非機率抽樣的其他類型包括雪球抽樣和便利抽樣[2][3]。 ... 能與倫敦人口相比,某些分層會被過度代表或被低估。 ... <看更多>