其實很多家公司/研究機構都碰過「多個執行單元合體來加速單一工作」這個想法,只是做法不同。
Intel 的 Software Defined Supercore (SDS) 算是把這概念正式搬回 CPU。
可以分幾類看:
1. AMD:Clustered Multithreading (CMT)(最像,但方向相反)
AMD 在 Bulldozer (2011) 用過:Clustered Multithreading (CMT)1 "module" = 2 個 integer cores
+ 共用 FPU+ 共用 decode
+ 共用 cache
像這樣:
[Int Core A]\
> shared frontend/FPU
/
[Int Core B]
有點像:
先天合體的雙核心
不像 Intel SDS 是:
平常分開,需要時才動態合體
AMD Bulldozer 比較像「固定黏在一起」。
問題是:
單核沒想像中強
Windows scheduler 很難排
市場評價不好
所以後來 Zen 放棄這條路。
2. IBM:SMT4 / SMT8(反方向做到極致)
像 IBM POWER10:1 core → 同時跑 8 threads這不是「合體」,是:
一個超大核心讓很多 thread 共用
Intel 是
many small cores -> one big logical coreIBM 是:
one giant core -> many logical threads算鏡像設計。
3. NVIDIA GPU:Cooperative Thread Clusters(有點像 XPU 版)
GPU 早就在做類似事。例如 NVIDIA CUDA:
SM0 + SM1 + SM2
↓一起執行同一個 kernel
新 GPU 有:
- Thread Block Clusters
- Cooperative Groups
- GPC-level scheduling
多個運算單元暫時組隊做同一件事
其實很像 Intel Supercore,只是 GPU 比較容易做,因為:
- workload 比較規則
- SIMD/SIMT 天生適合同步
4. Academic research:Reverse Hyper-Threading(超老概念)
其實學界 20 多年前就在想:能不能把 thread-level parallelism 轉回 instruction-level parallelism?甚至很多人直接叫:
Reverse SMT
Reverse Hyper-ThreadingCore Fusion
Dynamic Core Federation
Intel 不是第一個想到。
只是以前做不到,因為:
- cache coherence 太慢
- inter-core latency 太高
- synchronization 太貴
- mesh interconnect 更快
- shared L3 更大
- chiplet fabric 更成熟
5. AI/XPU accelerator:更常見
很多 AI accelerator 已經在做:systolic array pooling例如:
會把:many compute tiles
動態變成:one giant matrix engine
這其實是:
Supercore for AI只是不是 CPU ISA,而是 tensor ISA。
誰最像 Intel Software Defined Supercore?
最像的是這三個:<thead data-start="2349" data-end="2361"></thead>
| 技術 | 像不像 |
|---|---|
| AMD Bulldozer CMT | 70%(固定共享) |
| NVIDIA SM clustering | 80%(動態組隊) |
| AI accelerators tile fusion | 90%(最接近概念) |
但:
Intel 是第一個想把這件事正式用在 general-purpose x86 CPU 上。這才是特別的地方。
一句話:
AMD:先天雙胞胎
IBM:一個巨人分身NVIDIA:多人合作AI XPU:tile fusionIntel SDS:多核心臨時合體
Intel 並不是唯一想到的人,
但可能是第一個想把「動態合體 CPU core」商品化的人。




























































































