「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

三山直文
個人積分：4007分
文章編號：82482102

4007分

樓主

2021-07-21 8:28

今天12900K QS在twitter上泄露了cinebench r20的跑分：

12900KS QS Non-OC
In water cooler.
Cinebench R20.
ST: >810
MT: >11600
Please do not be happy too early.
Power consumption will become one of biggest the questions.
It may be over 200W in full turbo frequency easily.

我以爲12900K在5900X和5950X之間，結果和5950X至少是個match。如果以後geekbench，7-zip或blender等結果沒有領先到5950X這麽多的話，長久以來受到大家（一個人）詬病的cinebench就要重回「可信的跑分軟體」行列了。當然話不會這麽講，而是會講「連Cinebench都贏，那實際不知道要多贏幾趴，我先乘以1.2以示謙虛」。

在這篇文章裏我將對比各個基準測試和跑分軟體，並以（電腦畫的）圖表盡量簡潔地呈現結果。

（真）研究方法：用隨機的方式對不同CPU的同一跑分軟體結果重複取樣500次，計算不同CPU閒的得分之比，判斷軟體之間的得分倍數是否有統計差異。

本方法只涉及不同benchmark軟體閒的相對關係，旨在研究是否有一款benchmark軟體對某一家CPU有特別利益，不涉及各benchmark所進行的測試本身反映或不反映特定應用場景。

數據來源：notebookcheck

前期處理：去掉空白格，只保留以下測試結果：

Cinebench R15 CPU Single 64Bit
Cinebench R15 CPU Multi 64Bit
Cinebench R20 Single
Cinebench R20 Multi
Cinebench R23 CPU (Single Core)
Cinebench R23 CPU (Multi Core)
Blender(-)
7-Zip Single
7-Zip
Geekbench 4.1 - 4.4 64 Bit Single-Core Score
Geekbench 4.1 - 4.4 64 Bit Multi-Core Score
Geekbench 5.0 64 Bit Single-Core Score
Geekbench 5.0 64 Bit Multi-Core Score
Geekbench 5.3 64 Bit Single-Core Score
Geekbench 5.3 64 Bit Multi-Core Score

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

最終一共留下60款CPU，其中AMD 23款，Intel 37款，等級從A6-R9及Celeron-i9。

取樣程式：

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

結果與討論：

1，對Intel和AMD内部取樣500次，得到單核與多核的得分倍數與軟體的綫圖如下：

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

橫軸為次數，縱軸為兩款隨機CPU閒的得分倍數。例如，某款CPU的cinebench r15單核心得分為100，另一款CPU的cinebench r15單核心得分為120，則它們閒的倍數為100/120=0.8

可以看到，除了7-zip以外，其餘衆多跑分軟體的得分倍數曲綫均幾乎重叠在一起，圍繞紅色虛綫（平均值）上下波動，相比於平均值的偏差均非常小。在Intel和AMD内部對比中，沒有哪一款基準測試曲綫顯著偏離其他測試。7-zip的偏離僅限於CPU性能差異特別大的情形（<0.5或>2）。當然也可以通過簡單的統計檢定得到同樣的結論，但我這裏不想涉及過多的數學。

2，對Intel和AMD分開取樣500次，以AMD除以Intel得到得分的倍數關係。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

假設Cinebench偏愛AMD而geekbench公正，則Cinebench的倍數曲綫應顯著位於geekbench之上。然而這並不是觀察到的結果。兩家CPU和交叉結果與它們內部的結果相同。

3，對Cinebench和Geekbench的進一步檢視。

如果Cinebench和Geekbench是相同性質的測試，我們應該看到它們的倍數結果緊密落在y=x直綫的兩側。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

然而在AMD除以Intel的倍數中，Cinebench的倍數增長得比Geekbench更快。例如，某款AMD的CPU的多核心Geekbench得分是某款Intel CPU多核心得分的4倍，而在Cinebench中該AMD的優勢卻擴大到6倍。似乎可以證明Cinebench偏愛AMD。

實際上這僅僅是兩個benchmark的固有特性。Cinebench就是比Geekbench有更好的擴展性。在Intel和AMD的內部采樣中也觀察到完全相似的結果。極限情況下，Cinebench領先119倍，geekbench僅領先45倍。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

特別地，在0.5-1.5倍的區間内，不分廠牌，已經可以觀察到這種差異。若Cinebench領先20%（1.2倍），Geekbench可能領先25%，30%，或只領先1%乃至倒輸；若Geekbench領先20%，Cinebench可能領先30%以上，而這些都是在統計範圍内的。

「Cinebench又要重回『可信的跑分軟體』行列了」——對基準測試的基準測試

如果有需要，請聯係我

獲得原始excel檔和假說檢定的過程。

2021-07-21 8:28 發佈

文章關鍵字跑分軟體 Cinebench 基準測試

ace ventura

ace ventura
個人積分：22074分
文章編號：82482395

22074分

2樓

2021-07-21 8:56

三山直文 wrote:
然而在AMD除以Intel的倍數中，Cinebench的倍數增長得比Geekbench更快。例如，某款AMD的CPU的多核心Geekbench得分是某款Intel CPU多核心得分的4倍，而在Cinebench中該AMD的優勢卻擴大到6倍。似乎可以證明Cinebench偏愛AMD。

說老實話你的所謂"實驗" 並無法證明 "Cinebench偏愛AMD"
只能說明兩種測試軟體 "測試的方法" 不相同
至於不同的地方在哪裡網路上都很容易找的到

Geekbench "不太操"CPU 所以 TDP 的效應 (碰到溫度牆降頻) 比較不會顯示出來
Cinebench "很操CPU"

再看 INTEL 這幾代CPU把頻率加到 "噴火"的水平 (免得規格上不好看)
那麼 INTEL CPU 用比較操的Cinebench 為何得分比較爛的原因不就不言而喻?! 回報你