核心设计
理论浮点
Nvidia 在这一代消费级显卡Ada Lovelace上用上了台积电的N4工艺,终于不像之前Ampere一样用着落后当时一代的工艺了。

从硬件规格上来说,Ada Lovelace的旗舰型号AD102对比之前Ampere在传统性能(也就是FP32性能)上提升的幅度大约是2倍。AD102的4090总计浮点输出大约是82.6TFlops,这个数值大概是3090Ti 40TFlops的两倍。 而对于次旗舰4080系列而言,16GB的4080采用AD103核心,浮点大概48.7TFlops(对比3080Ti的34T 提升40%), 12GB的4080采用AD104核心,浮点大概40T(对比3080的30T提升33%)。
可以看到说Ada Lovelace的首发的卡,在理论性能上都是超过3090。但是,相对来说也就4090的提升比较大一些,4080系列无论对比3080还是对比3080Ti,提升都不足2倍。从核心规格上,12GB的4080更像是3070的替代版本(3070 20T),16GB版本的4080更像是3070Ti的替代版本(22T)。

内存系统
单纯从理论性能上来看,这代4000系列还是挺好看的。但是也需要注意到,这代的显存完全没有提升,甚至开倒车。4090保持了和3090Ti一样的21Gbps 384bit GDDR6X,带宽没有进步。4080 16GB则是23Gbps的256bit GDDR6X,4080 12GB的是21Gbps的192bit GDDR6X,这个对比3080Ti的384bit 19Gbps GDDR6X,3080的320bit 19Gbps GDDR6X来说都是开倒车。

具体来说
4080 12GB的21Gbps的192bit GDDR6X 只比3070的256bit 14Gbps GDDR6带宽高出12.5%。
4080 16GB则23Gbps的256bit GDDR6XL,反而落后 3080的320bit 19Gbps GDDR6X大约3.2%。
可以说从显存规格上来看,Ada Lovelace真的比较寒酸。4090可以说Ada Lovelace的架构升级,缓存增加,不太需要那么多显存,所以没升级。但是4080系列反向大砍刀,真的合适么?反正从我的角度来看,4080 16GB还勉强算是维持3080的定位,而4080 12GB应该叫做4070才对。老黄规格大缩水(参照4090)且大幅涨价,真让人无语。
实际性能


老黄这回官网给的性能预览比较少,乍看之下4090提升接近2倍吧,4080对比3080Ti提升50%-80%不等。 但您们有没有觉得很诡异? 4090对比3090Ti的浮点几乎翻倍,有这个成绩不奇怪。但是4080 16GB怎么在浮点提升仅40%,显存还开倒车的情况下,也获得接近2X的提升的?

但是仔细看了下,这应该是打开精选的优势,很适合新DLSS的测试(2077还有新RT),所以大概知道什么原因了吧。

如果换另外一张图来看,结果就合理多了。4090的性能对比3090的性能,在非新特性高度优化的地方,大概只有60%的提升....4080 12GB对比3090Ti基本持平(反正3090Ti对比3080Ti有多少提升你们知道)....
老黄的游戏提升,已经脱离了传统的FP32范畴,堆DLSS+RT这些到底算不算提升,仁者见仁智者见智吧...... 我是觉得说服力一般般。
新特性篇
如果说不看传统性能,那么Ada Lovelace倒是看点很多。

Ada Lovelace架构对比上一代Ampere架构,传统性能FP32 2X,光追性能提升2.6X(200T vs 78T),光流性能2.4X(300OFA vs 126OFA),而Tensor更是从320个增加到了1400个。
Transformer Engine
对于炼丹师来说,最为关心的还是这个Transformer Engine。当初Hopper发布的时候,就在想Ada会不会下放这个设计,很高兴老黄给了这个设计。
这个Transformer Engine是支持FP8的,如果用来加速训练必须要以混合精度的方式实现。以老黄的软件实力来看,我觉得可能宣称有水分,但是实际提升和效果应该都还是会很显著的,期待就是了。

DLSS3
伴随Ada Lovelace架构发布的还有FPS Turbo技术DLSS3。

对比之前的DLSS和DLSS2,DLSS3在工作方式上的改进还是不小的。DLSS3不仅有超分辨率技术,也还有基于光流的补帧设计,理论上可以做到更高的帧率。
老黄说这个技术有助于改善CPU瓶颈的时候,但我觉得DLSS的工作场景下基本也都是GPU瓶颈了,目前搭配旗舰卡跑高分辨率的时候,CPU性能都很富裕,应该也很少有人用低端CPU搭配RTX4080 4090吧?
DLSS3的补帧做到的画质怎样不知道,但是补帧技术天生需要用到至少2帧画面,会一定程度的增加延迟。如果DLSS3加持下,帧率不能提升2倍,那么实际延迟会增加的(DLSS技术都会增加延迟,但是可以降低单帧生成延迟)。
能耗比
最后我们聊一聊能耗比吧,老黄宣称Ada Lovelace是有两倍的能耗比,然后给了这一张图。
但是这个图怎么画出来只能问老黄,这个图显然也是有问题的....这个性能大概就是左边那种直接无脑加Tops的方法,150W的Ada比350W的Ampere还高,你敢信?

反正从绝对数值来看,这代Ada Lovelace的功耗都艹的很高,实际能耗比我觉得并不算好看。等实测吧。
售价
4000系列还是明显更贵了,4090是因为本身就是高溢价的看不出来,但是80系就真的涨价不少了...

RTX 4090 24GB 1599刀(比3090当时贵了100刀),国行12999 RMB
RTX 4080 16GB 1199刀 (3080 12GB起步 799刀),国行 9199 RMB
RTX 4080 12GB 899刀(3080 10GB起步 699刀,国行 7199 RMB
不过总体来说,真的很让人失望,4080都砍到了192bit的位宽和AD104核心+疯狂艹频了....但是依然还要7199RMB(899刀),人穷不配买GPU...