Остальной компьютер не угонится: анализ технологий NVIDIA RTX 40-серии

NVIDIA продолжает четко следовать двухлетнему циклу разработки видеокарт — до конца года в продажу поступят первые модели новой 40-й серии. Традиционно это будут самые продвинутые варианты: RTX 4090 и две версии 4080. Все карты просто под завязку нашпигованы вычислительной мощью и новыми технологиями. Сегодня мы разберемся подробнее, на что они способны.

Новые видеокарты сделаны на техпроцессе TSMC 4N — это специально разработанная для NVIDIA версия 5 нм техпроцесса. Он позволил 40-й серии преодолеть двухгигагерцевый барьер частоты графического процессора — представленные видеокарты работают на частоте от 2,25 ГГц и разгоняются аж до 2,61 ГГц (а реальные частоты традиционно будут еще выше минимум на 100-200 МГц). Генеральный директор NVIDIA Дженсен Хуанг заявил, что в лаборатории они разгоняли эти чипы аж до 3 ГГц, так что не исключено, что у новых карт есть неплохой разгонный потенциал.

Благодаря новому техпроцессу на каждом чипе помещается больше ядер CUDA — у RTX 4090 их аж 16 тысяч, что в 1,5 раза больше, чем у текущего флагмана RTX 3090 Ti. Для сравнения, у полного чипа AD102, который будет использоваться для неигровых целей, ядер CUDA не сильно больше — 18432. В RTX 4090 вместе с увеличенной частотой это должно дать прирост производительности в обычных играх в районе 1,9 раз. NVIDIA заявляет о примерно схожем приросте производительности в 2 раза по сравнению с 3090 Ti.

Сравнение пока без точных цифр, а режим RT Overdrive, когда все источники света в Cyberpunk 2077 начнут работать при помощи RTXDI (трассировка прямого света), появится более реалистичное глобальное освещение с несколькими отскоками лучей света (как в Metro Exodus Enhanced Edition), более качественные отражения и т.д., вообще пока недоступен, но намек понятен — ожидайте в районе двухкратного прироста чисто самого железа.

Однако NVIDIA обещает прирост в 2-4 раза, но в играх с трассировкой лучей и с использованием DLSS 3.0 (об этом подробнее ниже). Для увеличения производительности трассировки лучей и пути NVIDIA использует несколько новых технологий: Shader Execution Reordering (SER), Opacity Micro-Maps и Micro-Mesh.

Shader Execution Reordering (SER) напоминает дефрагментацию. Обычно при трассировки видеокарта исполняет шейдеры объектов при попадании в них виртуального луча. Лучи при этом могут попадать в совершенно разные объекты сцены с разными шейдерами. Есть попадание — шейдер пошел в работу. Это очевидный подход, но не оптимальный, потому что каждый новый шейдер надо подгружать в кэш видеокарты, что замедляет работу и увеличивает нагрузку на кэш, память и мультипроцессоры, каждый из которых в идеале должен обрабатывать по 16 потоков за такт. SER старается оптимизировать исполнение шейдеров и упорядочивает данные таким образом, чтобы видеокарта могла исполнять шейдер какой-нибудь условной вазы для всей вазы, а не для каждого пикселя по отдельности. Судя по всему, для этого в RTX 4090 увеличили размер кэша L2 аж до 96 Мб (по предположению Tom’s Hardware, официально не подтверждено) по сравнению со всего 6 Мб кэша в RTX 3090 Ti. Только само использование SER дает прирост RT-производительности в районе 25%.

Движок Opacity Micro-Maps, новый блок в RT-ядре третьего поколения, обрабатывает так называемые «микро-карты прозрачности» для двукратного ускорения обработки полупрозрачных элементов вроде мелкой растительности. Еще в RT-ядра был добавлен движок Micro-Meshes, по сути — тесселяция для трассировки лучей. Микро сетки позволяют делать невероятно детализированные модели, которые занимают очень мало места в видеопамяти и оптимизированы для трассировки лучей (модели с микро-сетками обрабатываются в разы быстрее при построении BVH).

NVIDIA (вполне обоснованно) надеется, что игры в будущем будут делать больший упор на трассировку лучей. В таких случаях, по словам NVIDIA, даже RTX 4080 12 Gb будет обходить текущего лидера RTX 3090 Ti почти в 3 раза при использовании DLSS 3. Звучит смело, но посмотрим.

GeForce RTX 4090

Новый BFG (Big F**king GPU) GeForce RTX 4090 должен быть примерно в два раза быстрее 3090 при энергопотреблении на уровне 3090 Ti. Дизайн корпуса остался примерно тем же, но теперь карта использует более маленький корпус (на 1 см короче, что немаловажно при таких размерах) и на 10% больший кулер. Как и раньше, вместе с картами Founders Edition будет идти переходник с трех (!) коннекторов PCIe 8-pin на PCIe Gen 5, также вы сможете запитать карту одним кабелем PCIe Gen 5 на 450 Вт или выше, которые будут идти с новыми блоками питания, сделанными по стандарту ATX 3.0.

GeForce RTX 4090GeForce RTX 3090 TiGeForce RTX 3090GeForce RTX 2080 TiАрхитектураAda LovelaceAmpereAmpereTuringТехпроцессTSMC 4NSamsung 8NSamsung 8NTSMC 12FFNЯдра CUDA1638410752104964352Стриминговые мультипроцессоры128 (2x FP32)84 (2x FP32)2x FP321x FP32TFLOPS FP3282,64035,613,5Базовая частота2,23 ГГц1,67 ГГц1,4 ГГц1,35 ГГцЧастота с бустом2,25 ГГц1,86 ГГц1,7 ГГц1,64 ГГцКоличество памяти24 Гб GDDR6X24 Гб GDDR6X24 Гб GDDR6X11 Гб GDDR6Ширина шины памяти384-bit384-bit384-bit352-bitPCIeGen 4Gen 4Gen 4Gen 3Ядра трассировки лучейGen 3Gen 2Gen 2Gen 1Тензорные ядраGen 4Gen 3Gen 3Gen 2ВидеовыходыHDMI 2.1a DisplayPort1.4aHDMI 2.1a DisplayPort 1.4aHDMI 2.1a DisplayPort 1.4aHDMI 2.0b DisplayPort 1.4aNVIDIA Encoder (NVENC)Gen 8Gen 7Gen 7Gen 7NVIDIA Decoder (NVDEC)Gen 5Gen 5Gen 5Gen 4Аппаратное декодирование AV1ЕстьЕстьЕстьНетАппаратное кодирование AV1ЕстьНетНетНетЭнергопотребление450 Вт450 Вт350 Вт260 ВтРекомендуемая мощность БП850 Вт850 Вт750 Вт650 ВтДлина304 мм313 мм313 мм267 ммШирина137 мм138 мм138 мм118 ммВысота3 слота (61 мм)3 слота 3 слота2 слота

GeForce RTX 4090 — самая «простая» из всей линейки. Она как RTX 3090 в свое время, только мощнее, быстрее, сильнее. Никаких сюрпризов, только скорости и новые фичи. Доступна карта будет с октября 2022 года.

GeForce RTX 4080 (16 Gb)

А GeForce RTX 4080 гораздо интереснее. Во-первых, их две — одна на 16 Гб, другая на 12. Само по себе это не так удивительно — в 30-ой серии есть 3080 с 10 и с 12 Гб видеопамяти. Но если карты 30-ой серии ничем, кроме количества модулей памяти и цены не отличаются, то с 4080 с 12 и 16 Гб дела совсем иначе.

Во-вторых, 4080 16 Гб Founders Edition теперь будет идти в том же корпусе и с теми же кулерами, что и 4090. RTX 3080 FE и 3080 Ti FE были высотой в два слота расширения, а 4080 будет в три. Возможно, это одна из причиной, по которой NVIDIA отказалась от SLI и NVLink — никакого моста и никаких материнских плат не напасёшься с такими размерами.

GeForce RTX 4090GeForce RTX 3090GeForce RTX 4080 (16 Gb)GeForce RTX 4080 (12 Gb)АрхитектураAda LovelaceAmpereAda LovelaceAda LovelaceТехпроцессTSMC 4NSamsung 8NTSMC 4NTSMC 4NЯдра CUDA163841049697287680Стриминговые мультипроцессоры128 (2x FP32) 84 (2x FP32)76 (2x FP32)60 (2x FP32)TFLOPS FP3282,635,648,740Базовая частота2,23 ГГц1,4 ГГц2,21 ГГц2,31 ГГцЧастота с бустом2,25 ГГц1,7 ГГц2,51 ГГц2,61 ГГцКоличество памяти24 Гб GDDR6X24 Гб GDDR6X16 Гб GDDR6X12 Гб GDDR6XШирина шины памяти384-bit384-bit256-bit192-bitPCIeGen 4Gen 4Gen 4Gen 4Ядра трассировки лучейGen 3Gen 2Gen 3Gen 3Тензорные ядраGen 4Gen 3Gen 4Gen 4ВидеовыходыHDMI 2.1a DisplayPort 1.4aHDMI 2.1a DisplayPort 1.4aHDMI 2.1a DisplayPort 1.4aHDMI 2.1a DisplayPort 1.4aNVIDIA Encoder (NVENC)Gen 8Gen 7Gen 8Gen 8NVIDIA Decoder (NVDEC)Gen 5Gen 5Gen 5Gen 5Аппаратное декодирование AV1ЕстьЕстьЕстьЕстьАппаратное кодирование AV1ЕстьНетЕстьЕстьЭнергопотребление450 Вт350 Вт320 Вт285 ВтРекомендуемая мощность БП850 Вт750 Вт750 Вт700 ВтДлина304 мм313 мм304 ммНет примераШирина137 мм138 мм137 ммНет примераВысота3 слота (61 мм)3 слота 3 слота (61 мм)Нет примера

GeForce RTX 4080 FE будет потреблять 320 Вт электроэнергии и выйдет в ноябре 2023 года.

GeForce RTX 4080 (12 Gb)

Самая интересная карта из анонса — GeForce RTX 4080 на 12 Гб. У неё не будет Founders Edition, ее можно будет купить только у партнёров вроде Palit, ASUS, MSI, GALAX и т.д. У неё самые высокие частоты, но самое низкое количество ядер CUDA — аж в раза меньше, чем в RTX 4090. И самое необычное, шина на 192-bit, тоже в два раза уже, чем у 4090. Это, возможно, не будет такой большой проблемой с учетом качественного сжатия, а также большого и быстрого L2 кэша в новых видеокартах, но игры с трассировкой лучей требуют активного взаимодействия процессора с видеокартой, а грядущая технология DirectStorage будет напрямую загружать сжатые игровые данные в память карты — по шине. Это все не очень критично для большинства игр и игроков, но очень странно, что настолько другая карта получила брендинг 4080, несмотря на ощутимо более слабое железо. Некоторые источники заявляют, что изначально эта карта задумывалась как RTX 4070, но по каким-то причинам была переименована. Возможно, подошел бы и другой вариант нейминга, где RTX 4080 сохраняет название, а старшая модель переименовывается в RTX 4080 Ti, но NVIDIA от этого отказалась — и, увы, кто-то из покупателей наверняка запутается, считая, что он покупает ту же карту, просто с меньшим объемом памяти (а это не так).

Выйдет GeForce RTX 4080 на 12 Гб тоже в ноябре 2022 года.

Цены

NVIDIA анонсировала рекомендованные розничные цены на три старшие видеокарты RTX 40-серии. RTX 4090 будет стоить в США $1599, на 100 долларов дороже, чем RTX 3090 два года назад, но на 400 долларов меньше, чем вышедшая в этом году RTX 3090 Ti. RTX 4080 идет сразу в двух версиях. За видеокарту с 16 Гб памяти NVIDIA хочет от $1199, а с 12 Гб памяти — $899. Разница в 300 долларов (больше 18 тысяч рублей по текущему курсу на момент написания статья) существенна для разницы в 4 Гб видеопамяти, но на деле это две разные видеокарты. RTX 4080 16 Gb стоит столько же, сколько NVIDIA просит за Ti-версии 80-ой линейки карт, а вот RTX 4080 аж на 200 долларов дороже своего собрата из прошлого поколения.

Мы не знаем какими будут розничные цены RTX 40-ой серии в России, но если бы формула подсчета оставалась прежней, то по текущему курсу доллара RTX 4080 с 12 Гб памяти будет стоить от 71 тысячи рублей, RTX 4080 с 16 Гб памяти — 93 тысячи рублей (на 24 тысячи дешевле, чем при той же цене в долларах), а RTX 4090 хоть и стала на 100 долларов дороже, чем RTX 3090, но в рублевом эквиваленте это выразилось в цене на 14 тысяч меньше — 123 тысячи рублей.

MSRP в СШАРекомендованная цена в РоссииGeForce RTX 3090 Ti$1999Не объявленаGeForce RTX 4090$1599~122 990 руб (предположительно)GeForce RTX 3090$1499136 990 рубGeForce RTX 4080 (16 Gb)$1199~92 990 руб (предположительно)GeForce RTX 3080 Ti$1199116 900 рублейGeForce RTX 2080 Ti$119995 990 рубGeForce RTX 4080 (12 Gb)$899~70 900 руб (предположительно)GeForce RTX 3080 (12 Гб)$799Не объявленаGeForce RTX 2080$79963 990 рубGeForce RTX 3080$69963 490 рубGeForce RTX 2080 Super$69956 990 руб

После обвала крипты и перехода самой популярной для майнинга видеокартами криптовалюты Ethereum на механизм Proof-of-Stake (работает по совершенно другому принципу и не требует майнинга) вторичный рынок заполнился дешевыми видеокартами RTX 30-ой и 20-ой серии. Это обвалило невероятно высокие цены на видеокарты, поэтому мы ожидаем, что наши цены будут актуальны в диапазоне +10-20 тысяч рублей в зависимости от модели, если не случится нового ажиотажа и скачка цен.

NVLink и SLI

Ни в официальной информации, ни в утечках нет и следа коннекторов NVLink или SLI для соединения нескольких видеокарт в одну связку. Еще на запуске RTX 30-серии NVIDIA заявила, что больше не будет поддерживать многовидеокартные режимы работы игр, потому что они не были популярны, но требовали много ресурсов для поддержки в играх и драйверах. Тогда коннектор NVLink остался только на старшей модели RTX 3090. В 40-серии, судя по всему, поддержки NVLink или SLI не будет вообще.

DLSS 3.0

Новая версия DLSS будет работать только на RTX 40-серии. Сама по себе технология DLSS при помощи машинного обучения реконструирует изображение низкого разрешения в высокое, добавляя в него детали.

Прирост производительности достигается благодаря уменьшению разрешения, что помогает уменьшить нагрузку на видеокарту. Но в некоторых играх производительность ограничивает не GPU, а процессор.

DLSS 3.0 добавляет дополнительный шаг — генерацию новых кадров при помощи оптического потока. Это примерно тот же эффект, что у плагинов для программ видеомонтажа вроде Twixtor — анализируются два кадра и создаются новые кадры между ними. Было 30 FPS, стало 60. Было 60, стало 120. Во многих телевизорах тоже есть такая функция, но она гораздо проще — смешивает предыдущий кадр со следующим и получает огромное количество визуальных артефактов и дополнительную задержку минимум в два кадра. Поэтому все специалисты рекомендуют отключать эту функцию, потому что она создает визуальные артефакты, портит художественную задумку режиссеров и операторов кино, а в играх еще и добавляет ощутимый лаг, потому что любая пост-обработка занимает время, а оптический поток — один из самых «тяжелых» эффектов.

Конечно, NVIDIA знает о всех этих проблемах. Во-первых, DLSS уже имеет в своем распоряжении не только финальные пиксели, но и векторы движения, которые позволят уменьшить артефакты, потому что алгоритму не придется гадать какое на экране происходит движение — он будет точно это знать. Во-вторых, DLSS 3.0 будет работать только на GeForce RTX 40-ой серии, где есть специальный ускоритель генератора оптического потока, который должен минимизировать задержку и быть достаточно быстрым, чтобы не тормозить обработку. На видеокартах 20 и 30-серии такого специализированного чипа нет, поэтому игры с поддержкой DLSS 3.0 будут работать по старой схеме как DLSS 2.0.

Есть еще и проблема генерации кадров в целом. Новые сгенерированные кадры — они «ненастоящие», они просто продолжают показывать то, что уже происходило. Когда они показываются, вы не можете контролировать происходящее на экране. DLSS 3.0 будет использовать уже существующую технологию NVIDIA Reflex, которая оптимизирует нагрузку на процессор и видеокарту, чтобы уменьшить задержки. К тому же проблема с задержкой заметна только когда игра не реагирует несколько кадров подряд, а при высоких фреймрейтах задержка во время «лишних» кадров должна быть менее заметна, потому что каждый отдельный кадр находится на экране меньше времени.

Результаты DLSS 3.0 впечатляют — от двухкратного до 5+ кратного прироста производительности. В абсолютных значениях FPS пока неизвестно, но намек ясен.

Использовать DLSS 3.0 тоже никто не заставляет. В играх, судя по всему, будут раздельные переключатели между функционалом DLSS 2.0 и включением DLSS 3.0, т.е. генератора оптического потока. NVIDIA уверяет, что технология легко интегрируется в любую игру с поддержкой DLSS 2.0 и Reflex (это сейчас умеют практически все популярные движки), но даст ли она реальное преимущество в играх — пока непонятно. Киберспортсмены могут сразу не волноваться, это точно не к ним, у них каждая миллисекунда задержки может быть разницей между победой и проигрышем, а вот играть в сюжетные игры в 4К120 или даже 8К60 — очень даже неплохой вариант, когда чисто железо уже не дотягивает.

Ускорение видео

Видеокарты NVIDIA уже давно поддерживают аппаратное ускорения декодирования и кодирования двух самых популярных видеокодеков — h264 (AVCHD) и h265 (HEVC). Декодирование нужно, чтобы не напрягать центральный процессор, когда вы смотрите фильм, сериал или даже видео в браузере, а кодирование пригодится если вы стримите или монтируете видео. В плане декодирования у 40-й серии все как было — аппаратное ускорение вплоть до современного крайне эффективного кодека AV1, на который постепенно переходят Netflix и YouTube. На YouTube есть тестовые видео в 8К60 в AV1, и они могут быть серьезной задачей даже для самых мощный современных процессоров вроде AMD Ryzen 5900X и Intel Core i9-12900K. В 40-ой серии появится аппаратное ускорение кодирование видео в этот формат, в том числе в популярной программе для профессионального монтажа и цветокоррекции DaVinci Resolve и в программе для стриминга и записи геймплея OBS Studio.

Даже если вы не стримите и не делаете видео, это все равно важная новость, потому что она расширяет экосистему кодека AV1. Сейчас у сервисов вроде YouTube и Twitch одна из самых больших технических проблем — качество изображения. Повышать битрейт сложно, потому что качество стриминга зависит не только от самих YouTube или Twitch, но и от всей инфраструктуры интернета от сервера до зрителя. Если вы смотрите видео на телефоне в электричке, то вам важнее, чтобы видео не прерывалось, чем его качество. AV1 позволяет получать существенно более высокое качество видео с тем же битрейтом, чем популярные сейчас h264 (опубликованный аж в 2004 году) или разработанный Google VP9 (выпущенный в 2013 году). Оба устарели, но у AV1 пока нет поддержки в устройствах Apple, хотя компания участвовала в его разработке. Это замедляет повсеместное принятие его как нового стандарта, поэтому чем больше на рынке устройств с поддержкой AV1, тем лучше для всех.

Партнерские карты

Как обычно, большую часть видеокарт будет не от самой NVIDIA, а от ее партнёров-производителей. Palit, ASUS, MSI, GALAX, GIGABYTE и другие уже анонсировали первые линейки новых карт и их объединяет одно общее решение. Почти все будут занимать три или даже четыре слота расширения. В маленький корпус такие карты не влезут. Зато есть модели со встроенными экранами и с водяным охлаждением.

Новым поколением карт NVIDIA как всегда задала моду на ближайшие два года. Теперь слово за разработчиками игр — продолжат ли они с тем же энтузиазмом перенимать новые технологии, особенно учитывая тот факт, что консоли, и так достаточно слабые в трассировки лучей, за новой версией RTX точно не угонятся.

Источник