「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

今天12900K QS在twitter上泄露了cinebench r20的跑分:

12900KS QS Non-OC
In water cooler.
Cinebench R20.
ST: >810
MT: >11600
Please do not be happy too early.
Power consumption will become one of biggest the questions.
It may be over 200W in full turbo frequency easily.

我以爲12900K在5900X和5950X之間,結果和5950X至少是個match。如果以後geekbench,7-zip或blender等結果沒有領先到5950X這麽多的話,長久以來受到大家(一個人)詬病的cinebench就要重回「可信的跑分軟體」行列了。當然話不會這麽講,而是會講「連Cinebench都贏,那實際不知道要多贏幾趴,我先乘以1.2以示謙虛」。

在這篇文章裏我將對比各個基準測試和跑分軟體,並以(電腦畫的)圖表盡量簡潔地呈現結果。

(真)研究方法:用隨機的方式對不同CPU的同一跑分軟體結果重複取樣500次,計算不同CPU閒的得分之比,判斷軟體之間的得分倍數是否有統計差異。

本方法只涉及不同benchmark軟體閒的相對關係,旨在研究是否有一款benchmark軟體對某一家CPU有特別利益,不涉及各benchmark所進行的測試本身反映或不反映特定應用場景。


數據來源notebookcheck

前期處理:去掉空白格,只保留以下測試結果:

Cinebench R15 CPU Single 64Bit
Cinebench R15 CPU Multi 64Bit
Cinebench R20 Single
Cinebench R20 Multi
Cinebench R23 CPU (Single Core)
Cinebench R23 CPU (Multi Core)
Blender(-)
7-Zip Single
7-Zip
Geekbench 4.1 - 4.4 64 Bit Single-Core Score
Geekbench 4.1 - 4.4 64 Bit Multi-Core Score
Geekbench 5.0 64 Bit Single-Core Score
Geekbench 5.0 64 Bit Multi-Core Score
Geekbench 5.3 64 Bit Single-Core Score
Geekbench 5.3 64 Bit Multi-Core Score

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

最終一共留下60款CPU,其中AMD 23款,Intel 37款,等級從A6-R9及Celeron-i9。

取樣程式

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

結果與討論

1,對Intel和AMD内部取樣500次,得到單核與多核的得分倍數與軟體的綫圖如下:

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試
「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試
「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試
「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

橫軸為次數,縱軸為兩款隨機CPU閒的得分倍數。例如,某款CPU的cinebench r15單核心得分為100,另一款CPU的cinebench r15單核心得分為120,則它們閒的倍數為100/120=0.8

可以看到,除了7-zip以外,其餘衆多跑分軟體的得分倍數曲綫均幾乎重叠在一起,圍繞紅色虛綫(平均值)上下波動,相比於平均值的偏差均非常小。在Intel和AMD内部對比中,沒有哪一款基準測試曲綫顯著偏離其他測試。7-zip的偏離僅限於CPU性能差異特別大的情形(<0.5或>2)。當然也可以通過簡單的統計檢定得到同樣的結論,但我這裏不想涉及過多的數學。

2,對Intel和AMD分開取樣500次,以AMD除以Intel得到得分的倍數關係。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試
「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

假設Cinebench偏愛AMD而geekbench公正,則Cinebench的倍數曲綫應顯著位於geekbench之上。然而這並不是觀察到的結果。兩家CPU和交叉結果與它們內部的結果相同。

3,對Cinebench和Geekbench的進一步檢視。

如果Cinebench和Geekbench是相同性質的測試,我們應該看到它們的倍數結果緊密落在y=x直綫的兩側。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

然而在AMD除以Intel的倍數中,Cinebench的倍數增長得比Geekbench更快。例如,某款AMD的CPU的多核心Geekbench得分是某款Intel CPU多核心得分的4倍,而在Cinebench中該AMD的優勢卻擴大到6倍。似乎可以證明Cinebench偏愛AMD。

實際上這僅僅是兩個benchmark的固有特性。Cinebench就是比Geekbench有更好的擴展性。在Intel和AMD的內部采樣中也觀察到完全相似的結果。極限情況下,Cinebench領先119倍,geekbench僅領先45倍。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

特別地,在0.5-1.5倍的區間内,不分廠牌,已經可以觀察到這種差異。若Cinebench領先20%(1.2倍),Geekbench可能領先25%,30%,或只領先1%乃至倒輸;若Geekbench領先20%,Cinebench可能領先30%以上,而這些都是在統計範圍内的。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

如果有需要,請聯係我獲得原始excel檔和假說檢定的過程。
2021-07-21 8:28 發佈
三山直文 wrote:
然而在AMD除以Intel的倍數中,Cinebench的倍數增長得比Geekbench更快。例如,某款AMD的CPU的多核心Geekbench得分是某款Intel CPU多核心得分的4倍,而在Cinebench中該AMD的優勢卻擴大到6倍。似乎可以證明Cinebench偏愛AMD



說老實話 你的所謂"實驗" 並無法證明 "Cinebench偏愛AMD"
只能說明兩種測試軟體 "測試的方法" 不相同
至於不同的地方在哪裡 網路上都很容易找的到

Geekbench "不太操"CPU 所以 TDP 的效應 (碰到溫度牆降頻) 比較不會顯示出來
Cinebench "很操CPU"

再看 INTEL 這幾代CPU把 頻率加到 "噴火"的水平 (免得規格上不好看)
那麼 INTEL CPU 用比較操的Cinebench 為何得分比較爛的原因不就不言而喻?!
ace ventura wrote:
說老實話 你的所謂"...(恕刪)


他是在說之前有人因為之前intel 14++++++++nm跑分輸AMD
就說這個跑分軟體偏袒AMD不可信
ace ventura wrote:
說老實話 你的所謂"實驗" 並無法證明 "Cinebench偏愛AMD"
只能說明兩種測試軟體 "測試的方法" 不相同


這不就是我在下面那一段的第一句話嗎。
三山直文 wrote:
今天12900K Q...(恕刪)

我覺得與其糾結可信不可信偏袒不偏袒這種事,不如探討Cinebench的跑分對於非Cinema 4D用途的效能表現有多少參考價值,感覺台灣好像用C4D的人比打遊戲的人多
我不知道樓主要證明什麼
那丟了一堆數據
但沒有什麼從數據中推出的結論
沒有說明運作原理就說擴大了6倍
也沒有深度談論為甚麼有這樣的狀況
沒頭沒尾

你們都這樣寫報告嗎
我就問
有沒有去拆解程式碼,我沒有看到關鍵證據啊......

其實這些都還好
重點是,真的太耗電

不如比看看每瓦的算力來當作參考,日常好不好用就可以知道了
peggydoggy

他要證明的是 benchmark 是否有偏好啊!結論不就是 cinebench 有更好的擴展性?意思應該是可以應付更多核心數而不會有太多偏誤。

2021-07-24 11:28
peggydoggy

至於是否要深度討論,在一個閒聊的硬體論壇能有這種文章已經很 OK 了,真的要為此寫一篇論文不是抓這些數據而已,而且恐怕受眾太少,徒然浪費時間。

2021-07-24 11:29
內文搜尋
X
評分
評分
複製連結
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?