View Single Post
Old 03-27-2012   #2
Romano
R11 Tuyệt Thế Thiên Hạ
 
Romano's Avatar
 
Join Date: May 2007
Posts: 138,643
Thanks: 9
Thanked 6,560 Times in 5,506 Posts
Mentioned: 3 Post(s)
Tagged: 0 Thread(s)
Quoted: 38 Post(s)
Rep Power: 174
Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10
Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10Romano Reputation Uy Tín Level 10
Default

Cách thức hoạt động như đă nêu: khi xử lư các game có hiệu suất khai thác GPU thấp, phần TDP "thừa" sẽ được các bộ điều khiển (controller) VRM tính toán và tự động tăng điện áp (Vcore, Vdd) để GPU có thể đạt mức xung cao hơn, từ đó cải thiện hiệu năng game (thông qua lượng fps). Dưới đây là bảng một số mức xung và điện áp mà AnandTech ghi nhận được khi benchmark GTX 680:



Mặc dù vậy, GPU Boost có vẻ không hiệu quả khi gaming là bao. Kết quả so sánh giữa khi không bật (-16%) và có bật (Stock) của AnandTech cho thấy bạn hầu như không nhận ra được khác biệt nào giữa chúng. Kể cả khi bạn khai thác GPU Boost ở mức tối đa th́ chênh lệch này cũng chỉ vài %:


Tại sao GPU Boost phát huy kém ? Có 2 lư do :

- Kiến trúc chip : một kiến trúc với hiệu năng trên từng MHz cao sẽ tăng lượng fps nhiều hơn
- Hiệu quả khai thác chip của game : những game vốn đă khai thác tốt GPU th́ lượng TDP "thừa" rất ít. Nếu quan hệ giữa game studio và nhà sản xuất GPU vốn đă tốt th́ gần như không có khoảng "thừa" nào để tận dụng tiếp
Những tính năng khác

Những thứ liệt kê sau đây thực ra không liên quan đến kiến trúc của Kepler. Song v́ chúng xuất hiện cùng lúc với sự ra mắt của GTX 680 nên chúng ta điểm qua để hiểu thêm xem ngoài năng lực game, NVIDIA c̣n đem đến cho người dùng những ǵ khác.

Adaptive V-Sync
Hầu hết các FPS gamer có thể từng nghe qua V-Sync, một tính năng giúp "ổn định" mức fps khi chơi. Các benchmark thường chỉ nêu ra mức fps trung b́nh (avg) mà card đạt được. Nhưng điều ảnh hưởng đến đôi mắt của gamer lại là 2 giá trị tối đa (max) và tối thiểu (min), nếu chênh lệch giữa min và max quá lớn sẽ gây ra hiện tượng xé h́nh (tear) khiến gamer thấy rất khó chịu.



V-Sync sinh ra với mục đích giới hạn lại mức chênh lệch trên, thường vào giữa 30 và 60 fps (với điều kiện card phải có khả năng đạt min > 30 fps và max > 60 fps). Song nó vẫn có nhược điểm : khi card chỉ xuất được < 60 fps th́ V-Sync lập tức "kéo" xuống c̣n 30 fps. Đặc điểm này phần nào vẫn gây bực bội cho gamer (nhưng vẫn ít hơn so với hiện tượng xé h́nh). Và NVIDIA khắc phục nốt vấn đề này bằng cách loại giới hạn "min" : ví dụ card xuất ra 52 fps th́ thứ được hiển thị trên màn h́nh vẫn là 52 fps. Tính năng này về căn bản là một phần của driver, không thuộc bản chất kiến trúc GPU.



FXAA & TXAA


Khử răng cưa (AA) và lọc đẳng hướng (AF) là 2 phương pháp truyền thống nhằm nâng cao chất lượng h́nh ảnh trong game. Tuy vậy không có ǵ "miễn phí" : mức fps sẽ bị giảm đi khi áp dụng các thuật toán này. Trong nhiều năm, cả AMD lẫn NVIDIA vẫn luôn nghiên cứu ra các thuật toán mới (chủ yếu là AA) nhằm vẫn giữ chất lượng h́nh ảnh ở mức cao mà chỉ "hao hụt" một ít hiệu năng đồ hoạ. Đến với lần này, NVIDIA giới thiệu 2 cơ chế AA mới : FXAA và TXAA.


Từ trên xuống : AA off, MSAA 4x, FXAA.

TXAA thực ra không phải hoàn toàn mới, nó là sự kết hợp của nhiều cơ chế AA trước đây. Kết quả là một cơ chế cho hiệu năng tương đương (TXAA1) với MSAA 8x hoặc cao hơn (TXAA2), nhưng mức "hao hụt" hiệu năng chỉ ngang với MSAA 2x hoặc 4x. Trong khi đó FXAA mang lại chất lượng h́nh ảnh tốt hơn MSAA 4x, tuy nhiên "cái giá phải trả" về hiệu năng là bao nhiêu th́ chúng ta không được rơ, chỉ biết rằng : wow, rất tuyệt !

Từ trên xuống : AA off, MSAA 4x, TXAA.
Một vấn đề "nhỏ" của FXAA và TXAA là hiện chưa có game nào khai thác được chúng. Sẽ cần nhiều thời gian để NVIDIA làm việc với các game studio và tích hợp chúng trong các bản driver mới.
Bindless Textures

Nếu lúc ra mắt HD 7970, AMD công bố về Partially Resident Textures (PRT) như là một phương pháp để tiết kiệm băng thông nhớ đối với nhu cầu về texture th́ nay với GTX 680, NVIDIA cũng có đ̣n đáp trả. Tuy về bản chất đều làm tăng tốc độ nạp texture, nhưng cách thức thực hiện hoàn toàn khác nhau.

Cách thức hoạt động của PRT.

Với AMD, ứng dụng đồ hoạ sẽ "băm" một khối texture lớn (megatexture) ra nhiều mảnh (64 KB). Sau đấy chọn ra các mảnh thực sự cần thiết đối với luồng xử lư và nạp vào các shader, giúp tiết kiệm đáng kể băng thông nhớ (v́ không nạp các mảnh thừa). Với NVIDIA, theo "truyền thống", shader sẽ truy cập đến texture thông qua một bảng tra cứu (binding table). Điều này làm hạn chế số lượng texture mà các shader có thể cùng truy cập trong một lúc (128 mẫu với các thế hệ trước). Tiến lên Kepler, NVIDIA bỏ qua bước tra cứu này và truy cập trực tiếp vào bộ nhớ để đọc texture. Nhờ đó, về lư thuyết các shader Kepler có thể đọc được cùng lúc > 1 triệu mẫu texture.

Bindless Texture của NVIDIA.
Hiển thị đa màn h́nh

Việc một GPU có thể xuất tín hiệu ra 2 màn h́nh khác nhau vốn đă có từ lâu. Song dường như nhiều nhà sản xuất "quên" rằng người dùng có thể sẽ cần nhiều màn h́nh hơn nên họ hầu như không thay đổi năng lực này của GPU (chỉ trừ một số card đồ hoạ chuyên dụng mới có tính năng này). Rồi AMD thực sự gây "shock" cho rất nhiều khách mời khi lần đầu tiên ra mắt ḍng card HD 5000 cách đây 3 năm : Eyefinity. Lần đầu tiên một chiếc card chơi game có thể xuất tối thiểu cùng lúc tín hiệu ra 3 màn h́nh khác nhau. Với một số phiên bản khác, AMD có thể đẩy con số này lên 6 hoặc thậm chí là 12 màn h́nh cùng lúc!

Trong 3 năm qua, NVIDIA không có ǵ đáp trả lại Eyefinity. Họ vẫn có thể xuất ra 3 màn h́nh nhưng lại cần đến 2 card GeForce hoạt động ở chế độ SLI mới làm được. Ngoài ra NVIDIA chỉ dừng được đến 3 màn h́nh, không hơn. Và hôm nay, thế hệ card Kepler đă khắc phục điểm yếu đó của NVIDIA : 4 màn h́nh cùng lúc. Mặc dù con số này vẫn kém phiên bản Eyefinity 6 và 12 của AMD, song "muộn c̣n hơn không". Với bước đi này của NVIDIA, cùng với thiết kế GPU trên Ivy Bridge sắp tới của Intel, hy vọng trong thời gian tới việc chơi trên nhiều màn h́nh sẽ trở nên phổ biến hơn và các gamer sẽ có cảm giác "không gian như thật" nhờ góc nh́n trong game được cải thiện đáng kể.


Tổng hợp thông số kỹ thuật

Bàn luận dông dài như thế, đă đến lúc chúng ta cần "ráp nối" các thành phần lại để ra một con chip hoàn chỉnh.




Thành phần cơ bản nhất của GK104 là SMX như đă nói ở phần trước (là sự ghép nối của nhiều SM từ kiến trúc Fermi). 1 SMX gồm 192 SP (hoặc nhân CUDA), 16 bộ Load / Store, 16 SFU, 1 PolyMorph Engine, 4 Warp Scheduler, 8 Dispatch Unit, L1 Cache 64 KB và 8 TMU. Lên cấp độ cao hơn, chúng ta có GPC : gồm 2 SMX và 1 Raster Engine. Mỗi GPC liên kết với 1 tŕnh điều khiển nhớ (MC) 64-bit và 8 ROP. Ở cấp độ toàn con chip, GK104 có 4 GPC và từ đấy có đên 4 MC 64-bit tạo thành giao tiếp nhớ 256-bit, 4 nhóm ROP tạo thành tổng 32 ROP có chung L2 Cache 512 KB. Tất cả dữ liệu ra vào 4 GPC, 4 MC và 32 ROP lẫn L2 Cache được phân phối bởi GigaThread Engine và giao tiếp PCI Express (PCIe) 3.0.



Từ đây, chúng ta có thể dự đoán phiên bản Kepler cấp thấp hơn (giả định GK106) sẽ có thông số như nào. Nhiều khả năng GK106 sẽ có 2 GPC với 4 SMX và 2 MC tạo thành giao tiếp nhớ 128-bit, lượng ROP c̣n 16 đơn vị và L2 Cache chỉ c̣n 256 KB. Tất nhiên GK106 vẫn cần một GigaThread Engine (nhỏ hơn) và giao tiếp PCIe 3.0 để "nói chuyện" với CPU.
Ở đây, chúng ta sẽ mượn lại kết quả benchmark từ AnandTech để thấy được hiệu năng của GTX 680:

Kết quả benchmark game
Không quá khó để thấy GTX 680 hầu như dẫn đầu trong mọi chiếc card đơn nhân hiện có (trừ một số kém HD 7970). Tuy vậy nếu bạn để ư kỹ hơn, sức mạnh của GTX 680 hầu như chỉ bằng 2,3 lần (hoặc thấp hơn) GTX 560 Ti. C̣n nhớ phần "SP gấp 4, hiệu năng gấp 2" chứ ? Kết hợp với chênh lệch về xung 1006 / 822 = 1,22, về lư thuyết GTX 680 sẽ nhanh hơn GTX 560 Ti 2,45 lần. Và chỉ cần thế GK104 trở thành GPU mạnh mẽ nhất cho game trong số các GPU hiện tại.

Crysis Warhead


Metro 2033




Dirt 3


Romano_is_offline  
Quay về trang chủ Lên đầu Xuống dưới Lên 3000px Xuống 3000px
 
Page generated in 0.10093 seconds with 10 queries