CNET 特約作者/廖必勝 2007/11/16 20:14
「微處理器」這大家所熟悉的工作夥伴,究竟是由什麼東西組成呢?微處理器其實是由許多電晶體(Transistors)組成。電晶體最早誕生於1947年,從延伸應用孵生出積體電路,直到今日科技所倚重的微處理器,轉眼間,已歷經60年的演進。 Intel創新的45nm製程技術 電晶體(Transistors)猶如一個微型開關,開啟與關閉電晶體的工作,是由電晶體閘極(Gate)來負責。閘極和電源之間,稱作為絕緣層(Insulating wall),存在著必要的電介質(Dielectric),此電介質具有絕緣體般的效用,當電晶體要關閉時,它能夠阻斷電源流入電晶體。電晶體這小小的開與關動作,可用來代表數位的0與1訊號,數位科技便是由此開始。 大家耳熟能詳的摩爾定律,起始於1965年,Gordon Moore預測晶片上的電晶體數量,會有逐年倍增的發展趨勢。Intel於1971年推出的4004微處理器,僅僅具有2,000顆電晶體,而到2006年的Core 2 Duo,已經爆增到2.9億顆之多。這四十餘年來的變化,果真是照著Moore的預測在走。 然而,這一路走路,並非如此平順。近年來,半導體製程進步與電晶體體積微型化,讓過去電晶體製作普遍所採用的材料,面臨諸多挑戰。而影響最深的,可算是電介質部分。 製程的進步,代表電介質厚度必須相對變薄。但當前普遍採用的二氧化矽(SiO2)、多晶矽(Polysilicon)等材料,厚度越薄只會使得漏電控制變得更加困難。漏電(electricity leakage)的產生,會造成多餘無用功率消耗,還有工作溫度攀升等負面問題。 因此,科學界早已積極尋覓替代材質,High-K材質具有能夠儲存較多電荷的特性,可使電晶體開與關的動作更加分明,所以被視為目前最有效的材質。 Penryn系列處理器,除了製程經進到45nm(奈米),針對漏電問題,Intel採用以鉿(Hafnium)材質作為基礎,製作電晶體閘極電介質。基於High-K閘極電介質,與矽材質閘極之電極(Electrode)相容問題,Intel開發了新的金屬閘極(Metal Gate),取代以往使用的材料。此外,內部連接線(Interconnects)也改採用銅線搭配Low-k電介質,進一步解決耗電量等問題。 45nm製程帶來了什麼? 結合45nm與High-K與金屬閘極技術,Intel標榜45nm製程處理器,內部電晶體數量可達65nm製程的2倍,此條件下耗電量能夠維持在相近值。其電晶體開關速度更可快上20%,並且降低30%的耗電量,至於閘極漏電問題,也獲得了10倍以上的改善程度。 在簡報資料上,Intel以Xeon處理器為例子,同為TDP 80W的產品,45nm製程可得到35%的效能提升,並且將運作時脈提高25%。原本時脈不是很高的Core 2家族產品,在未來,動輒超過3GHz可就不是新鮮事了(樣品已試作到3.33GHz)。 除了革命性關鍵材料之外,Intel表示45nm製程處理器產品,全面採用無鉛製程(Lead Free)生產,並計畫於2008年起,全面捨棄採用鹵素材料(Halogen Free)。 Intel對45nm與65nm產品出貨交替期,設定在2008年第三季,預估屆時出貨量,可達各50%的比例。為確保目標能達成,除現有的兩座45nm晶圓製造廠之外,明年還有兩座晶圓廠加入生產行列,以滿足市場需求。 更多關於QX9650 Core 2 Extreme QX9650核心研發代號為Yorkfield,是由兩顆Wolfdale(即Penryn架構雙核心產品)雙併封裝而來,因此並非原生四核心產品。 每一Wolfdale擁有4.1億顆電晶體,遠高於65nm製程的Conroe架構產品,為數2.91億顆。這數量差距逾1.4倍,Penryn架構多了約40%數量,所以Core 2 Extreme QX9650內部電晶體總數實為8.1億顆之多(410M+410M)。 為數這麼多的電晶體,除了核心運算電路占用之外,Intel也用來塞入更多第二階快取記憶體(L2 Cache),數量比Conroe架構產品多了50%。Core 2 Extreme QX9650雙併所採用的Wolfdale,每一顆具有6MB容量L2 Cache,合併之後總計有12MB可作共享使用。 雖然Wolfdale電晶體數量極多,但拜45nm製程所賜,晶圓卻仍以107mm^2的尺寸,小於Conroe架構的143mm^2,差距約是30%。 Core 2 Extreme QX9650的FSB速度為1333MHz,外頻333MHz以9倍頻工作,達到3GHz時脈,在Core 2全產品線內,仍屬最高時脈產品。不久之後,Intel還會推出3.2GHz的Core 2 Extreme QX9750,並首度將1600MHz FSB導入桌上型產品。 Conroe架構處理器至目前為止,最高時脈只到3GHz(1333MHz FSB),隨產品線的不同,一般主流時脈大約落在1.6GHz~2.66GHz之間。Intel尚未推出更高時脈的產品,原因不外乎會是時脈升高,耗電量、工作溫定會隨著提高,它們最重視的「每瓦效能」提升將遭遇瓶頸,所以不得不積極轉進45nm製程世代。 Intel認為進入45nm製成後,可將核心時脈提升推到3~4GHz之間。而從目前提出的產品規格來看,實現率可說是百分百。 Conroe架構的Core 2 Duo,早先推出的起始時脈產品是E6300(1.86GHz),而45nm製程的Core 2 Duo,速度最低的為E8200,便已具備2.667GHz工作時脈。由此推測,45nm製程不僅會將主流產品時脈提高到比Conroe多1GHz,也可望能正式挑戰4GHz超高時脈。 45nm也讓FSB前端匯流排速度得以提升,Penryn架構Xeon處理器已提供1600MHz速度的產品,至於一般桌上型產品,或許明年就能見到了吧。但這麼高的外頻速度,跳一階差距就很遠,所以Intel也導入了0.5倍頻設計。 以E8200(2.667GHz)跟E8400(3.0GHz)為例,時脈差距有333MHz,安插0.5倍頻設計的E8300(2.83GHz)進來,便能彌補稍大的間隔。這對於以後朝向1600MHz FSB發展的產品線佈局,也會有莫大幫助。 最後一點就是TDP部分,45nm製程確實可讓耗電量降低,但是在桌上型產品上,應該不會太快見到更低TDP的產品出現。Intel還是鎖定一般雙核心65W、一般四核心95W、極致版四核心130W,這三個相同於Conroe的規格為標的。 其抱持態度,是以相近的TDP值,去創造出更優異的效能。簡單講,就是追求高效能/消耗功率比(Performance/Watt,每瓦效能)。 Penryn核心架構新功能 不單單只是製程進步而已,延續Core微架構優異基礎,Intel為Penryn再加入多項新設計,總稱為Enhanced Intel Core Microarchitecture。因此雖然是「新製程+舊微架構」的組合,但處理器的功能變動卻不算小。 Intel Wide Dynamic Execution •Fast Radix-16 Divider Intel進一步改良除數器(Divider)設計,以往處理器內建的Radix-4、Radix-2除數器,每一工作周期(Cycle)僅能傳遞2bit資料,而新的Fast Radix-16 Divider,則是可以傳遞4bit資料。 Fast Radix-16 Divider能夠加快浮點運算、整體運算的速度,並具備延遲較低的優點。可為科學計算、數學運算、3D座標轉換等用途,帶來2倍的效能增強效果(遊戲也會受益)。 •Faster OS Primitive Support 當作業系統臨時阻擋,或是遮蔽中斷指令(Interrupts),進而阻礙一些關鍵代碼區段,或是需要獨占存取如I/O設備等狀況時。Faster OS Primitive Support具有的快速中斷遮蔽控制機能,可快速清除中斷(CLI)、重置中斷(STI),並快速進、出此一狀態模式,大幅改善此類階段性作業的效能。 Penryn架構還可以快速執行XCHG、ADD/XADD/NEG/BTS/AND、CMPXCHG等鎖定指令,以及快速存取RDTSC(Read Time-Stamp Counter,讀取時間戳記計數器)。Intel標榜這些技術可提高2倍執行效率,對資料庫伺服器、交易處理伺服器等應用,特別有所效能增益。 •Enhanced Intel Virtualization Technology Intel經由強化微架構設計,縮短VT-x指令轉換虛擬主機進入、離開時間,無須修改現有虛擬主機軟體,就能增加25~75%的執行效率。 Intel Advanced Smart Cache •24 Way Set Associativity 在偌大的快取記憶體上,加入可看作是小群組概念的Associativity(關聯性),將快取記憶體分割成多個區塊。如此,當處理器運算單元需要資料時,有了Associativity可以加速資料讀出、寫入,而不用大海撈針似的,在整個快取記憶體內尋找,延遲時間也會比較低。 但這又攸關著快取失誤率,以及額外的延遲時間。較多的Associativity可以降低資料被覆蓋機會,減少快取失誤提升命中率。但是Associativity配置太多,處理器逐一去找尋資料,延遲時間反而可能不減反增。 對此,Intel從以往採用的16 Way設計,在Penryn上增加到24 Way,以Penryn的L2 Cache數量來看,理論上應該能降低不少失誤率。但延遲時間部分,實在難以推論,就得讓測試數據來說話了。 Intel Smart Memory Access •Improved Store Forwarding 為進一步改善記憶體效能,Penryn加入Improved Store Forwarding功能,可加速讀取位在管線中,超過8byte位址範圍的儲存結果。Penryn不必等待結果寫入記憶體中,就能提前載入儲存結果,這項看來也是有降低延遲的作用。 •Higher bus speeds 由於Penryn還是未內建記憶體控制器,處理器與記憶體之間,資料傳輸率受限於前端匯流排(Front Side Bus,FSB),所以只能拉高速度來解決效能瓶頸。 在初代Core 2產品線,Intel推出了800MHz、1066MHz,乃至於最新的1333MHz速度產品。進入45nm製程之後,工作站、伺服器適用的Xeon,已經有1600MHz產品推出,桌上型產品當前還是維持在1333MHz速度。 各FSB頻率對應的資料傳輸理論值如下: 800MHz -> 6400MB/sec Intel Advanced Digital Media Boost •Intel SSE4 instructions Intel在Penryn架構上,首度導入最新的SSE4(Streaming SIMD Extension 4)指令集,能針對3D影像、向量繪圖運算、影像編碼處理、遊戲等多媒體用途,提供更強的加速效果。 儘管名為SSE4,但另一種普遍被認同的稱法是SSE 4.1,因為Penryn架只內建47個指令,然而Intel自己所制定的SSE4規格,指令總數應為54個。所短缺的部分,得等到下一代Nehalem處理器,才會完整呈現,屆時,就改叫作SSE 4.2吧。(雖然亂像是軟體的…) Penryn架構SSE4,新增支援兩個不同的32bit整數乘法運算,導入8bit無符號最小值/最大值運算,再加上16bit、32bit無符號與有符號運算能力。為編碼器增加新功能,提高向量整數、單精度代碼運算效率。 此外,也強化設計視訊編碼加速功能、浮點運算與內積積運算能力、加入串流負載指令。串流負載指令能以64byte的資料線寬度,讀取顯示卡圖幀緩衝區,帶來比8byte架構快上8倍的速度。大頻寬優勢能嘉惠於視訊處理、圖型影像、應用軟體,提升顯示卡影像晶片和處理器之間,所共享的資料存取效能。 Intel指出共有Microsoft、Sony、Adobe、DivX、ArcSoft等數十家廠商,已進行SSE4相容軟體開發案,預計2008年第一季,會有21款軟體上市。 •Super Shuffle Engine Super Shuffle引擎和SSE指令集有連帶關係。以往舊款處理器,僅具備64bit資料線寬度,處理Unpacking、Packing、Align Concatenated Sources、Wide Shifts、Insertion、Horizontal Arithmetic Functions Setup等,各種128bit不同性質指令時,得先拆解為兩個64bit指令再運作,這樣需要耗用兩個工作週期才能完成作業。 Penryn具備128bit寬度的資料線,處理128bit指令時,只要一個工作周期就能完成作業,可提供1倍的執行效率,和較低延遲時間。 下集預告 看過第一集的處理器外觀、特色簡介,以及第二集更深入的45nm製程探討、微架構新功能介紹,下一回我們將進入實戰階段,用最具體的效能測試數據,來驗證45nm處理器是否真的那麼強大、那麼省電、那麼冷靜。請拭目以待...
Intel的Tick Tock發展模型,將製程的演進設定為2年一次 


65nm與45nm處理器TDP相同,但時脈得以拉高,而且閒置時的耗電大幅降低
處理器晶圓大小比一比
45nm製程Core 2家族產品
65nm製程Core 2家族產品
1066MHz -> 8528MB/sec
1333MHz -> 10664MB/sec
1600MHz -> 12800MB/sec
QX9650的規格與功能示意圖
返回硬派技術 ![]() |
