william5629 wrote:5850跌到8張就入...(恕刪) 製程決定設計規模的極限同是40nm製程,又要加入北島系列的新特性做先導驗證,即使是縮減了原來的5合一sp結構提昇了效率,又小幅擴增sp數量基本性能也不可能說每代要翻就翻RV770的800SP換代到RV870的1600SP都只增強了約6~70%的效能增長,這樣的DIE大小就已經是334mm^2的級別了,對於一個修改後可能最多400mm^2級別的南島核心來說一般性能上130%附近的提昇比較有可能....
從800SP--->1600SP性能沒有變兩倍的原因是因為AMD把interpolator拿掉了......這是從VS->PS的數值插補用的.RV870改用VLIW Shader單位來軟體模擬.故吃掉了不少SP運算能力......並不是1600sp效率變差.而是隨時都有很多SP被挪去算以前不是SP做的工作.靠增加SP來解決這性能需求是事倍工半.因為interpolator是固定管線運算,其實不會佔很多電晶體.(SP的"可程式化"單位比較耗電晶體)若把硬體interpolator加回去應該就可以把失去的效能要回來......RV870會這樣做應該是為了能快速上市.因為拿掉interpolator架構就比較簡化....而且之前RV770的interpolator太弱,RV870要重新設計的話可能就沒辦法這麼早出來搶市場.ATI是策略性的先卡位DX11.如果能用強化的硬體interpolator.....那就算維持1600SP也可以明顯提升繪圖性能. 而且不會增加太多電晶體.我覺得這是ATI在不太增加電晶體又可快速提升幾成效能最快的做法了....不過不確定ATI是否會這樣做.
Waffenss01 wrote:從800SP---&...(恕刪) 是為了砍空間喔有一篇訪談文裡ATI明確說明了在DIE的尺寸限制前提下它們縮減了一些規模,原始的RV870規模尺寸設計比現在的實物要大nterpolator的硬體實作是其中之一,被拿掉是因為ATI認為nterpolator在現在的應用裡比例不高,同時為了提高SP的運作率才改讓SP去作nterpolator的工作的,畢竟目前ATI手上最廉價的晶體資源就是SP但這得確讓SP的實際運作性能被瓜分掉了
應該不能說Interpolator"運用率"不高.因為每個Shader都"一定會用到"Interpolator,只是運算量多少和誰來算的問題.現在情形是的確有辦法用ALU(SP)來算, 但會吃掉不少SP運算量...所以RV870在繪圖時其實不是1600SP都用在Shader上..我確定HD4870(RV770)跑遊戲Shader常常卡在Interpolator不足.至少我的Shader在Shader Analyzer看到結果常常是這樣......遊戲的Shader不是全都卡在SP數量, 也有一些情形是卡在Interpolator.尤其是RV770特別嚴重....大概它的Interpolator是延用R600的設計吧.跑Pixel Shader的SP要從Interpolator取得插補過的資料才能算.過去RV770是Interpolator不足的話, SP就會閒置.....所以ATI想到了兩全其美的方法. 又省成本又省研發時間,砍掉不夠力的Interpolator數值插補器,用閒置的SP軟體模擬去代替Interpolator.這樣就不必新設計Interpolator. 把SP模組數量double就可以趕快上市.....但是從Shader Analyzer看到的是.....原本同一個shader在RV770的bottleneck卡在Interpolator到了RV870變成卡在ALU(=SP).......多了不少算插捕的指令.我觀察到大概ALU指令和模擬插捕的指令有4:1這麼多.也就是至少20%, 很多情形你的1600SP其實只有1300SP能用.的確是提高了SP運作率啦,但是常常Interpolate吃的效能太多了,導致SP反而不夠用拖累到其他運算單位.....雖然RV870不管是ROP或TEX或SP都Double了, 但是SP其實一直被佔用不少.所以沒有辦法有RV770的Double性能.同樣的Shader, hd5000系列的shader compiler硬是多了 2-3成的指令...hd5770/hd4870一樣是800SP/40TEX ,架構強化的hd5770反而比hd4870每cycle少輸出一些pixel.以硬體成本來說,硬體管線的InterPolator只需要能做一種固定的運算,線路很簡單.而SP是汎用性的單位,什麼指令都能跑,構造比較複雜.一組VLIW電晶體應該會比一組InterPolator龐大很多倍....而且AMD的VLIW是5D 向量,但是Interpolator運算的資料最多只需要4D所以有1/5的單位要閒置. 有點浪費電晶體啦......如果是Northern island的4D VLIW反而還比較沒浪費....ATI的SP的確相對於NV的SP廉價很多, 所以他們才能這樣硬搞.犧牲一點電晶體效率來換取Time to market的速度與Die成本...而且最終產品以面積效率而言,竟然還仍比NV的同尺寸高一點點....ex. RV870和GTX460差不多大,但RV870性能明顯比較好,這還是已經靠軟體模擬Interpolator的情形....如果還是硬體InterPolator效率上可能會差距更大....畢竟ATI的SP成本再怎麼廉價,也和超廉價的hardwire線路不是同一級別的.....只處理數值插捕的話, 都用SP做其實很浪費電晶體運用效率......有點像洗碗的工讀生不夠, 沒餐盤導致廚師閒置, 所以叫閒閒沒事做的大廚來洗,雖然這可以提高人均生產力,但是比較好的做法應該是多請幾個洗碗的工讀生只要洗碗的夠多,就能讓大廚全力做餐.......因為人力成本差很多.通常硬體InterPolator是做在Setup engine裡,而通常Setup engine只佔GPU不到10%.只佔Setup engine一小部份的InterPolator就更小了.....就算redesign加倍InterPolator數,其實也用不了多少電晶體.....增加InterPolator也許只要增加5%的電晶體就可以省下數十%的SP運算量.雖然DieSize會較大一點點, 但是投資報籌率蠻高的.RV870來不及做的也許RV970可以做....那就有機會用40nm不到400mm2卻明顯提升效能.當然這要看ATI研發單位怎麼想.....長期而言,Interpolator的運算量比例會慢慢降低ATI也有可能只靠堆積更多SP來增加效能,比較省事.....但SP太複雜...能增加的數量會很有限...我是覺得1-2年以內Interpolator還是可以留著,等它平均運算量低於5%再砍它也不遲.....
Waffenss01 wrote:應該不能說Inter...(恕刪) 460的電晶體效率問題有些人說是跟SP的高頻需求有關,因此導致部分電晶體密度必須降低來控制發熱源不至於過度集中GF104的數據是9.5G電晶體/367mm^2=5.31M/mm^2RV870的數據是15G電晶體/334mm^2=6.44M/mm^2算算電晶體密度差了大概20%左右,不過RV870的效能是要略大於這20%的差異
由於南島還是40nm. 可能不超過400mm2南島應該還是1600SP等級, 頂多再加幾組VLIW array....總ALU運算量和RV870不會差太多.但如果interpolator硬體化, 那就會降低好幾成的ALU消耗....據說南島應該不會動5D VLIW架構SP , 只是改用北島架構新的固定管線單位,包括thread/memory controller/Tex/Tesselation.....(希望也許會有新的interpolator? )應該有機會用仍然比較小的Die追上GTX480的性能.畢竟目前RV870和GF100的繪圖效能差距不是很明顯....(除了某些高度tesellation)明年真正的北島才會改成4D VLIW架構SP理論上大多數Shader運算都是3D或4D.改用4way VLIW會比較容易填滿SP運算單位.有效運算密度會提升10%左右.
>>GF104的數據是9.5G電晶體/367mm........367mm2?GF104有這麼大阿??那它可以每片Wafer切割的數量恐怕比RV870還少....本來以為是320mm2左右......到367mm2有點太大了點.電晶體數只是參考,Die size應該才是主要影響生產成本的 ,因為Die越大, 可以切的數量越少, 良率也越低....成本就越高.不過電晶體數字好像打錯了,應該是GF104的數據是1950M電晶體/367mm^2=5.31M/mm^2RV870的數據是2150M電晶體/334mm^2=6.44M/mm^2ATI的設計很會在有限的面積下塞一堆執行單位....目前GTX460關了1/8的SM. 如果GF104出384SP的版本,耗電應該和RV870差不多,但效能卻有20%差距.....那消失的48SP應該是追不會這麼大的落差.不過這已經比GF100好很多了.....它的尺寸和性能不太成正比.結果512SP完整版只能賣到Telsa上.....因為512SP會比HD5970還貴,但是性能還是追不上.至少GF104已經算是能在獨顯市場和對手正面比較的產品.
Waffenss01 wrote:>>GF...(恕刪) 阿哩~~這邊討論有點離題了不過Waffenss01大大講的很詳細~讓我又長了不少知識但我有個疑問~不知大大可不可以幫小弟解惑就是之前我在某個外國討論網站上,看到說GF104這組繪圖晶片好像一定要閹割SP才能上市(變成現在的GTX460)原因好像是因為像GF100一樣~因為原生384SP還是太容易發熱耗電(傳說是跟5870相當)~由於以上缺點效能也還沒GTX470好,成本與價格制定更是比GTX470還悽慘~而且可能又會再次發生悲劇事件(GF100),又剛好要做市場區隔~所以NVIDIA才閹割成現在這塊超強GTX460~~這國外討論到最後的結論是~NVIDIA是有備而來而會不會有原生384SP的GF104晶片~它門討論是可能會像GF100一樣~變成高一階的繪圖卡領域去了請問真的是這樣嗎?~不知大大能能否幫小弟解答一下(不用全部解答)