goldbingo wrote:
核心問題是要多少次數下能答對幾次以上...(恕刪)
機率與統計是門蠻難入手的課,這篇 [統計學基礎 p 值遭到科學家反對!] 是我找到稍微容易理解的一篇,若有空檔,聽個平靜的鋼琴曲,慢條斯理讀讀也很有樂趣。
接下來說說p-value,若有誤再麻煩有統計專長的網友幫忙指正或補充。
舉硬幣猜正反面為例,目的是想知道做怎樣的測試,可以多確定某人具有預測能力。
先定義幾個名詞:
虛無假設(null hypothesis) :猜對的機率是50%
對立假設:猜對機率不是50%,可能較高如80%,也可能較低如10%(每次都猜錯也是種能力)
p-value:實驗結果出現的機率
α 值:顯著性水平,我也蠻喜歡上述文章稱它為荒謬閾值
如果p-value小於α 值,則傾向認為虛無假設不成立,支持對立假設。常用α 值為0.05、更嚴格的話0.001,較寬鬆的話也有人用0.1。
白話文:如果發生實驗結果(例如10次中猜對9次)的機率夠小,則傾向認為假設(猜到的機率是50%)不成立,此人可能有某種能力改變了正確的機率

猜正反面是典型的二項式分佈,已有網站幫忙建立了p-value模型進行計算:
[p-value計算機 ]
若測試結果是10次中,正確8次以上,填到網頁會算出p-value為0.0547。若以較寬鬆的α 值0.1來看0.0547小於0.1,則不支持虛無假設,也就是支持有能力預知硬幣正反面。若以常用α 值0.05來說,0.0547>0.05,支持虛無假設,也就是屬於合理發生機率,支持50%正確機率,沒有預知能力。
從這個例子可看到,定義虛無假設後,重點要取得一個大家都同意的α 值(顯著性水平),再來檢驗實驗結果。
您覺得α 值設0.05是嚴格還是寬鬆呢?
α 值 0.05,表示5次中5次要都全對、10次中至少要對9次,或是16次要至少對12次,100次至少要對59次。
您覺得實驗怎麼設計比較好呢?
—————————————
附錄:p-value計算網頁填寫範例

就會得到結果:

p 值說明不了任何事。它僅僅是以預期比較為基礎的一種方法,幫助我們做出一個相對合理的決策。
—— Cassie Kozyrkov
基於p-value的ABX盲測,並無法證明任何事情,只能代表對所設定的假設的信心度。
既然證明不了任何事,為何還要做盲測?因為盲測帶給我們一個量測決策品質的工具,協助我們做出好的決定。
回到這大樓的主題:電源線。我們可先做一個假設:在某種器材組合下,有經驗的人就算在特定曲目段落,換特定的兩條線,辨別用了哪條線,也只能得到50%的正確率。
接下來取得大家共識,設定顯著性水平(α值)。
然後設計實驗及次數。
實驗結果的p-value若小於顯著性水平(α值),則表示只有50%正確率的假設,很可能是錯的,的確可能有辦法分辨出電源線差異。值得投入資源,或是增加測試次數,提高信心度,或是進一步找出證明方式。
若p-value大於顯著性水平,很可能假設是對的,在這場景下並不能辨別出電源線差異,進而改變辨別正確的機率。方向上是去尋找其他實驗環境變數,不需放太多資源繼續在這個假設上。
謝謝大家能耐心讓我說完想法,盲測只是工具,端看怎麼使用它。它協助讓大家有共同語言描述決策品質,是個開端,並非結局。
JohnTitor wrote:
Can We Hear Differences Between A/C Power Cords? An ABX Blind Test
當你以科學的名義發言時,是否也應該對自己的論述保持同等的自我要求?
第一個鏈結的文章,在結論第一段就有寫到,
Conclusions
To many in the engineering community, blind ABX is an accepted experimental design. Using the blind ABX protocol, we failed to hear any differences between an assortment of generic power cords and Nordost Valhalla. Therefore, we cannot conclude that different power cords produce a difference using the blind ABX protocol. However, we also cannot conclude that there are no differences. We simply failed to prove that differences can be detected to a statistically significant degree using a blind ABX protocol.
在工程界,許多人認為盲測 ABX 是一種被認可的實驗設計。透過盲測 ABX 方法,我們無法聽出各種普通電源線與 Nordost Valhalla 之間的差異。因此,我們不能斷定不同的電源線會產生差異。然而,我們也不能就此認定完全沒有差異。我們只是無法證明使用盲測 ABX 方法能檢測到具有統計顯著性的差異。
測試結果顯示,在盲測 ABX 方法的條件下,無法證實電源線之間存在可察覺的差異,但同時也無法直接斷定電源線完全沒有影響。這是一個基於測試方法與統計結果的謹慎結論,而非對所有情境下的最終定論。
如果你的目標是鼓勵更多燒友嘗試盲測,以減少心理作用的影響,那麼語氣與表達方式至關重要。然而,若你的基本假設是「沒有燒友能通過盲測,因此他們只是受到心理作用影響」,這樣的全盤否定態度並不會真正促使人們願意參與盲測,反而可能讓討論變得對立。
若你是來探討科學驗證,應該以更嚴謹的態度面對盲測結果,而非直接將之簡化為「有或沒有」的二元結論。真正重視邏輯與嚴謹性的論述者,通常不會如此武斷地下判斷。關鍵在於,你希望成為哪一類討論者?
pipi678 wrote:
JohnTitor wrote:
Can We Hear Differences Between A/C Power Cords? An ABX Blind Test
當你以科學的名義發言時,是否也應該對自己的論述保持同等的自我要求?
第一個鏈結的文章,在結論第一段就有寫到,
Conclusions
To many in the engineering community, blind ABX is an accepted experimental design. Using the blind ABX protocol, we failed to hear any differences between an assortment of generic power cords and Nordost Valhalla. Therefore, we cannot conclude that different power cords produce a difference using the blind ABX protocol. However, we also cannot conclude that there are no differences. We simply failed to prove that differences can be detected to a statistically significant degree using a blind ABX protocol.
在工程界,許多人認為盲測 ABX 是一種被認可的實驗設計。透過盲測 ABX 方法,我們無法聽出各種普通電源線與 Nordost Valhalla 之間的差異。因此,我們不能斷定不同的電源線會產生差異。然而,我們也不能就此認定完全沒有差異。我們只是無法證明使用盲測 ABX 方法能檢測到具有統計顯著性的差異。
測試結果顯示,在盲測 ABX 方法的條件下,無法證實電源線之間存在可察覺的差異,但同時也無法直接斷定電源線完全沒有影響。這是一個基於測試方法與統計結果的謹慎結論,而非對所有情境下的最終定論。
這個前因後果要看清楚,我這裡解釋下,先有122樓的E大問有沒有人做過電源線盲測
所以我才會在123樓分享貼了兩個有公開的盲測結果,僅僅要表達目前沒人通過盲測而已
誠然,只用幾個盲測結果不能證明電源線無用,但是也不能證明電源線有用,電源線如果有用,必須靠ABX盲測來證明
請自認能聽得出來的人,用他平常能聽得出的環境,曲目,系統..等,來做ABX盲測,同樣的環境平常能聽見差別,在同樣的環境下,盲測沒道理分不出來,不過現實中那些老燒就會推拖盲測是無效方法
pipi678 wrote:
如果你的目標是鼓勵更多燒友嘗試盲測,以減少心理作用的影響,那麼語氣與表達方式至關重要。然而,若你的基本假設是「沒有燒友能通過盲測,因此他們只是受到心理作用影響」,這樣的全盤否定態度並不會真正促使人們願意參與盲測,反而可能讓討論變得對立。
若你是來探討科學驗證,應該以更嚴謹的態度面對盲測結果,而非直接將之簡化為「有或沒有」的二元結論。真正重視邏輯與嚴謹性的論述者,通常不會如此武斷地下判斷。關鍵在於,你希望成為哪一類討論者?
您說的很有道理,不過前面也有網友讽刺其他主張電源線無用的人,應該也要同他們說說
另外,我的基本主張不是「沒有燒友能通過盲測,因此他們只是受到心理作用影響」
而是目前電子學理論和實務上,音響系統電子部分不應該被交流電源線影響,可是卻有人聲稱"有",那些人應該提出證據(比如盲測,或者可復現的客觀證據),來證明真有其事,可惜沒人能提供出證據,或者盲測成功
內文搜尋

X