
NVIDIA GeForce RTX 40: todas las novedades
Hay muchas novedades que comentar, por lo que vamos a ordenarlas para entender mejor la dimensión que ha adquirido NVIDIA.
Chips de 5 nm con TSMC 4N
Samsung fue la elegida para fabricar los chips de las RTX 3000, pero después del “bombazo” de las RX 6000, NVIDIA ha ido a lo seguro. Ir a lo seguro en semiconductores es equivalente a contar con TSMC, y es que el gigante taiwanés suministra chips de 5 nm a muchos clientes (AMD, Apple, Qualcomm y ahora NVIDIA).
Avanzar de proceso se podría resumir en poder meter más transistores en una determinada área, lo que para NVIDIA supone una oportunidad de incorporar más CUDA Cores, RT Cores, SM, Tensor Cores, etc. En teoría, cuanto menos nanómetros, mejor rendimiento e inferior consumo, pero solo vemos aumentar el consumo de W, ¿por qué?
Aquí es donde se habla del “consumo relativo”, y hemos visto muchas diapositivas de NVIDIA y AMD comparando generación anterior con la nueva. En estos términos, está claro que las nuevas GPUs consiguen más rendimiento a igualdad de vatios (W), lo que le otorga una “eficiencia energética”, pero cuando te llegue la factura de la luz… igual no estás tan satisfecho/a.
De entrada, NVIDIA recomienda estas fuentes de alimentación:
Si no queremos que la mayoría de vatios se pierdan en forma de calor… tendremos que optar por fuentes de alimentación Gold o Platinum (como mínimo).
Se lleva diciendo que la muerte de la Ley Moore ya está aquí, pero algo tendrán entre manos los ingenieros.
Arquitectura Ada Lovelace: más potencia
Ya sabéis que Ada Lovelace sucede a Ampere como arquitectura de GeForce, la familia de tarjetas gráficas para gaming. El primer cambio está en el mismo chip: más Stream Multiprocessors que Ampere, concretamente un 71% más si cogemos como referencia la GPU AD102 (RTX 4090) y la GA102 (RTX 4090).
Otra novedad es que los Tensor Cores son compatibles con FP8 con el fin de doblar el rendimiento de FP16, debido a que estamos ya en los Tensor Cores de 4ª generación. Y es que cada núcleo Tensor puede hacer 256 cálculos FP16 por reloj, pero esto no es lo más interesante.
Todos sabemos que la IA o Inteligencia Artificial ha subido como la espuma los 2 últimos años, y a NVIDIA no le ha pillado por sorpresa porque viene aplicándola desde hace años. Para que os hagáis una idea, la RTX 4090 puede alcanzar los 661 TFLOPs en FP16 y 1321 TFLOPs en FP8, mientras que la RTX 3090 Ti llega a un máximo de 321 TFLOps FP16.
Haciendo matemáticas básicas, estamos hablando de un aumento teórico del rendimiento del 107% solo basándonos en las nuevas frecuencias y rendimiento de núcleos. Desde NVIDIA dijeron que este rendimiento se trasladaría al renderizado y Ray Tracing.
Shader Execution Reordering y Opacity Micro-Map para Ray Tracing
Esta es una nueva función a la que denominan SER, por la cual NVIDIA firma que traerá un incremento del rendimiento general del 25%, pudiendo mejorar los cálculos Ray Tracing hasta en un 200%. El problema está en que para poder disfrutar de este “subidón” de FPS, debe implementarse por el desarrollador del videojuego de forma individual, usando las extensiones de NVIDIA (ya conocéis su política de código cerrado).
Por otro lado, tenemos los míticos RT Cores, esas piezas hardware encargadas de realizar los cálculos de Ray Tracing en las RTX 4000, como en las anteriores familias NVIDIA. En las RTX 40 se han duplicado respecto a las Ampere, pero una de las claves está en el Opacity Micro-Map (OMM).
El OMM es un motor que ayuda a que el Ray Tracing sea más rápido cuando nos encontramos en escenarios plagados de partículas, hojas de árboles o cualquier estructura que pueda crear sombra (como las vallas).
Siguiendo con el Ray Tracing, NVIDIA ha incorporado en las RTX 4000 el motor Displaced Micro-Mesh (DMM), algo así como la “micromalla desplazada”. Este motor permite que se cree la estructura Bounding Volume Hierarchy (BVH) hasta 10 veces más rápido, usando un 5% de memoria menos de almacenamiento.
Supongo que te preguntarás, vale pero, ¿qué es el BVH? Se trata de una estructura de árbol que se usa cuando hay un conjunto de objetos. Estos objetos tienen volúmenes delimitadores que forman lo que llaman “nodos de hojas de árbol”. Los nodos se agrupan como conjuntos pequeños y luego se insertan en conjuntos más grandes. Entonces, el BVH se usa para realizar estas operaciones de agrupaciones de objetos geométricos de forma eficiente, ya sea en colisiones o en Ray Tracing.
Eso sí, os adelantamos que el OMM y el DMM tienen que ser integrados por los desarrolladores en los videojuegos, y para ello bastaría con un parche nuevo.
Memoria GDDR6 y GDDR6X para NVIDIA RTX 4000
El único cambio o novedad que podemos destacar es el aumento de velocidad de GDDR6 a un máximo de 20 Gbps. Aunque teníamos la esperanza de que las RTX 4080 y 4090 trayesen GDDR6X de 24 Gbps, NVIDIA finalmente ha puesto el freno y vienen con 21-22 Gbps de velocidad. Lo único que se rumorea son los 24 Gbps para una posible RTX 4090 Ti.
Como era de esperar, los modelos inferiores equiparán GDDR6 a velocidades de unos 18 o 20 Gbps, al contrario de las RTX 3050 a 3070 que usan entre 14 y 15 Gbps.
Más memoria caché como respuesta a Infinity Cache
AMD se ha apuntado un tanto con Infinity Cache, demostrando que incorporar más memoria caché a la GPU puede otorgar más FPS en el videojuego. Esto se potenció con las AMD Radeon RX 6000, llegando a usar hasta 128 MB L3 en las RX 6900 XT.
NVIDIA tenía que responder, así que decidió incorporar 32 MB de L2 en una interfaz de 128 bits, mientras que la RTX 4090 obtiene hasta 96 MB por tener una interfaz de 384 bits. Aun así, parece que NVIDIA ha querido deshabilitar parte de los bloques, por lo que la cifra total se queda en 72 MB L2.
Sí, AMD usa L3 y NVIDIA L2, ¿cuál puede ser la causa? La razón podría estar en que la caché L2 tiene una latencia más baja y es más pequeña. Sin embargo, NVIDIA tiene que recortar costes por todos lados, y meter más memoria a una GPU significa más coste de producción.
NVIDIA DLSS 3, ¿solo en RTX 40?
Estamos de acuerdo en que una de las grandes novedades está en el Deep Learning Super Sampling de NVIDIA para sus RTX 4000. El primer apunte importante es que DLSS 3 está limitado a las RTX 40, nada de RTX 30 o RTX 20. No obstante, se ha dichos desde NVIDIA que cabe la posibilidad de que DLSS 3 se pueda usar en Ampere.
¿Por qué? Bueno, la razón estaría en que NVIDIA ha modificado esta 3ª versión de DLSS de tal manera que se necesita una actualización arquitectónica. La principal novedad está en la nueva versión del OFA (Optical Flow Accelerator o Acelerador de flujo óptico), que coge 2 frames anteriores y genera vectores de movimiento.
Estos vectores se suministran a la unidad Optical Multi Frame Generation, que, combinada con el reescalado y el DLSS en modo “rendimiento, la tarjeta gráfica solo tiene que renderizar ⅛ de los píxeles que son enviados a la pantalla.
Antes, NVIDIA utilizaba el OFA para reducir la latencia en VR y AR, así como la fluidez de vídeo, compresión o estabilización. Pasamos de 126 Teraops en INT8 con Ampere a unos 305 teraops en Ada Lovelace.
¿Tan importante es? Que aumenta FPS en el juego es una obviedad, pero en muchas reviews aseguran que Frame Generation no es para tanto como dice NVIDIA.
Especificaciones de NVIDIA GeForce RTX 4000
Vamos con las especificaciones de NVIDIA, ya que a estas alturas solo tenemos la ficha técnica oficial de 3 modelos. Debo decir que justo en el momento en el que escribo se acaban de filtrar las especificaciones de la RTX 4070.
Especificaciones |
RTX 4070 |
RTX 4070 Ti |
RTX 4080 |
RTX 4090 |
GPU |
AD104 |
AD103 |
AD102 |
|
Proceso |
5 nm |
|||
CUDA Cores |
5888 |
7680 |
9728 |
16384 |
Tensor Cores/TMUs |
240 |
240 |
304 |
512 |
SM/RT Cores |
64 |
60 |
112 |
176 |
Frecuencia base |
1920 MHz |
2310 MHz |
2205 MHz |
2235 MHz |
Frecuencia Boost |
2475 MHz |
2610 MHz |
2505 MHz |
2520 MHz |
VRAM |
12 GB GDDR6X |
16 GB GDDR6X |
24 GB GDDR6X |
|
Bus |
192 bit |
256 bit |
384 bit |
|
Ancho de banda |
504.2 GB/s |
716.8 GB/s |
1008 GB/s |
|
Velocidad de memoria |
21 Gbps |
22.4 Gbps |
21 Gbps |
|
Caché L2 |
N/A |
48 MB |
64 MB |
72 MB |
PCIe |
4.0 x16 |
4.0 x16 |
4.0 x16 |
|
Puertos |
1 x HDMI 2.1 3x DisplayPort 1.4 |
|||
TDP |
200W |
285 W |
320 W |
450 W |
Fuente recomendada |
650W |
700 W |
750 W |
850 W |
Dimensiones aprox |
2-slot 285 x 112 x 42 mm |
3-slot 310 x 140 x 61 mm |
3-slot 304 x 137 x 61 mm |
|
Fecha de salida |
13/4/23 |
5/1/23 |
16/11/22 |
12/10/22 |
Precio de salida |
A partir de 650€ |
Desde 909€ |
Desde 1469€ |
Desde 1959€ |
Aprovecho para comentar que estos precios de salida se rebajaron en seguida tras ver NVIDIA que no tenían las ventas que esperaban. Por ejemplo, la RTX 4090 se llegó a rebajar unos 90€ en tan solo 2 meses.
Próximos lanzamientos de NVIDIA GeForce RTX 40
¿Qué hay sobre la mesa? Pues el primer nombre es la RTX 4060 Ti. Todas las informaciones apuntan a que su lanzamiento tendrá lugar en mayo, es decir, dentro de un mes aproximadamente. Será la primera GPU con GDDR6, ya que la RTX 4070 incorpora GDDR6X como novedad principal.
Lo cierto es que NVIDIA está lanzando productos de forma más rápida que en 2020-2021, ya que ha estado lanzando GPUs 2 años (dentro de la misma versión, claro).
Recuerda que en PcComponentes tenemos la mayoría de modelos custom de las NVIDIA GeForce RTX 4000 a un precio súper competitivo, ¿te lo vas a perder?