• 25

AMD第三代的APU- Kaveri帶來的啟示


Wow_Senior wrote:
這話你自己說的。不是...(恕刪)


理由很多,大家都講了

樓主還貼了一堆理論和實證

看壞很OK阿

我們都想多了解看壞的理由是甚麼

可惜現在看壞的人理論依據拿不出來

只會說: "喔!這個5年前就有了!"

"這個10年前某某公司就在用了!"

新東西的出現本來就不是一蹴可及的

知道你家的LCD電視理論好幾十年前就有了嗎?

可是量產後卻在幾年之內就把舊的CRT取代掉了

如果要看壞至少說說為什麼不可行吧?

畢竟連INTEL都不太提升CPU效能而專提升GPU的了

對吧?
wow

Intel浮點運算全輸APU

根本Intel的末日嘛

新APU也能塞進7730的等級,買顯卡送CPU嘛
我也這麼覺得 說  哈哈 
這真的是太厲害了  其實他真的很厲害
ppanna2003 wrote:
這個消息來源的根據是...(恕刪)
睡不著上來很久沒回來的01爬爬.
看到這篇文章, 有意思.

通篇看下來我有幾個問題想請教.



1. GPU v.s. FPU

爬個文看來 AMD 是打算將一些運算, 例如浮點, 丟去給 GPU 做.
然後把 CPU 裡的 FPU 當小弟.

不過啊...

各位是不是好像有點忘記 GPU 原始設計架構初衷是 "平行運算" ?

那 CPU 平常做的是什麼事情?
恐龍本拿出來翻一下吧?

不就是 "循序(序列式)運算" 麼?

各位別忘了 GPU 在古早歷史是從 CPU 上面被分化出來用來專門演算畫面顯示的分工晶片.

一個老古董, Commodore Amiga.
在它之前, 一般用途的中央處理器是要處理各個方面的繪圖顯示工作.

那為什麼顯示會被分化出來?
分化出來之後的 GPU 走向了怎麼樣的路途?

既然是如此的演化, 而演化到最後剛好兜了一圈回來發現 GPU 開 "平行運算" 超強

那 CPU 平常要做的 "循序運算" 就不是重點了?

天下太平!
我們的時間制度從此平行, 不再循序漸進
我可以一次過一週份的下午六點到十點,
而不再因為時間會走到十一點把我從被窩裡趕出來去上班!

os: 怎麼可能...



2. GPU 的 x86 能力之謎.

在討論到 CPU 跟 GPU 資料丟來丟去之前, 我比較想知道的是

GPU 在自己的資料編譯器上頭, 也是 x86 指令體系?

...看了下 nVIDIA 的丹佛計畫. 顯然不?

nVIDIA 食了某家開發相容 x86 指令集的公司,
用它們的技術來給自己的 GPU 能模擬 x86 的指令
然後把原本模擬時效能只有時脈的一半水平
提高到只低實際時脈 15% ~ 20% (沒實品還不知道真假)

不過畢竟是拿軟體模擬然後補一些硬體層面來讓它"長得像是能相容x86"
並不是從此它就是一個 x86 了.


這代表什麼呢?




3. CPU 與 GPU 的共同定址, 共享資料之謎?

GPU 說 : 嘿 CPU 老哥! 我要跟你拿你放在某地的資料喔?
CPU 回 : ok 啊, 去拿吧. 如果你懂 x86 定址的話.

... GPU 可以去拿 CPU 放在某處的資料過來進行運算
是不是在那之前應該要有個前置動作?

不知道各位有沒有玩過低階硬碟資料救援?
以位元組為單位, 以族蔟為群聚, 可愛的硬碟格式空間
明明都"長"在同一個硬碟上, NTFS 的格式你拿著 FAT32 的表去找
菜單都會變罰單啊!

所以, 在這個場合, 要怎麼樣解決與整合這個問題, 還要提高工作效率, 就很重要.

這就是為什麼還要弄一個驅動, 一個套組來做為中介軟體.

上面應該有提到 AMD 為了 HSA 而弄了個 API 吧?

Well , 結果這些編譯, 翻譯, 轉譯什麼的工作, 最後還是落回 CPU 頭上.

GPU 表示 : CPU 老哥發號施令啊, 你動作不快點寫個清單, 把工作分派給我, 我是去哪裡幫你找工作分擔啦!
CPU 無奈 : 我事情很多很忙, 等下好不?

所以為什麼 nVIDIA 還要辛辛苦苦 "偽造" 了x86指令集給自己的 GPU 食?




4. 最後只是個小問題.

L3 cache 的讀寫速度怎麼說都比 Main Memory 快吧???

不過快取命中率也是個問題.

要大量計算的資料有時不是 L3 能裝得下的, 還是要去外邊找.

所以這個部份如何提高效能就是個課題.



以上是我對這一串的慨略看法.



喔, 說到能效.

有人提到 RISC (ARM集團軍)跟 CISC (x86集團軍) 的差別了麼?




enm wrote:
L3 cache 的讀寫速度怎麼說都比 Main Memory 快吧???


你要搞清楚Memory和Cache的關係
你一連四個問題根本不知道你在問甚麼
建議你計算機概論去看看定義我們再來討論

今天有一批浮點+整點的資料
Intel的做法就是
先把這批資料從硬碟讀到CPU主記憶體
再把浮點的資料丟給GPU的主記憶體
GPU算完再丟回CPU的主記憶體


L3共享只不過是增加GPU的Cache Hit Rate
讓GPU讀取GPU記憶體的時候可以變快一點
但是並不能省略紅色的步驟
而AMD的做法就是省略到紅色的步驟
省下這個步驟除了讓成是比較好寫之外
也增加了效能因為不需要把浮點資料在CPU/GPU記憶體之前拷貝來拷貝去
Windwaker wrote:
1. 樓主在下拿到工...(恕刪)




你怎拿到工程版的

我想知道你拿到的是7850K嗎?還是其他的A8或者A10?

看實測A10 7850K可以跑BF4 1080p全中平均30fps

http://www.youtube.com/watch?v=axyHkKn_e80

有測試過使用其他頻率的記憶體的7850K表現嗎?
剩不到兩個月就要開賣
好奇不知要賣多少, 如果價位跟Intel I5一樣, 好賣嗎?
如果價位跟現在的5xxx~6xxx系列一樣, 就不知道那堆庫存怎麼清了,
雖說單CPU部分效能進步有限, 但肯定與GPU整合效能進步很多

寫程式的應該會有經驗, 大量記憶體資料搬來搬去的負擔是非常重的, 對效能影響不輸給演算法之間的差異

大關 wrote:
你怎拿到工程版的


請看我的IP
不多說

Wow_Senior wrote:
至於,你要提的直接存取。
有一個很老的詞彙叫『DMA』


看到你又復出了!真好!
看了一下HSA的資料,在HSA的架構中CPU與GPU的位階是相當的。
所以你說在HSA的架構中GPU直接存取記憶體叫做DMA,那CPU直接存取記憶體應該叫做什麼呢?你要不要解釋一下呢?
HASWELL的進步真的只有這樣嗎?

這篇的圖解釋得很清楚,intel靠製程優勢,AMD從軟體下手。

印象中,蛙大也是相關的RD,應該也已經拿到Kaveri了,還有,PS4歸PS4,那是SONY調教過的。
  • 25
內文搜尋
X
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 25)
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?