Характеристики 3090, 3080, 3070. Подробное сравнение с 2080 (и 2080TI)

Делитесь и голосуйте:

Можно с уверенностью сказать, что серия RTX 20 никогда особо не привлекала игровую и майнинг аудиторию, чего пыталась достичь Nvidia.

Несмотря на то, что архитектура Turing обеспечивает поддержку аппаратного-ускорения трассировки лучей и технологии «Deep Learning Super Sampling» (DLSS) на основе искусственного интеллекта, мы все равно видели относительно скромный выигрыш с точки зрения традиционной производительности - в сочетании с более высокими ценами (на 20-ю линейку) по сравнению с 10 линейкой – означало, что большинство геймеров и майнеров не стремились к обновлению и использовали свои старые видеокарты.

С Ampere Nvidia пытается решить эту проблему. Количество ядер было значительно увеличено по всем направлениям: RTX 3090 может похвастаться невероятными 10496 ядрами CUDA, а RTX 3080 - 8704.

Память также была обновлена до новой GDDR6X от Micron, которая в сочетании с более широким 320-битным интерфейсом памяти обеспечивает почти на 70% более высокую пропускную способность, чем RTX 2080.

Благодаря переходу на 8-нм узел Samsung, GPU RTX 3080 также оснащен впечатляющими 28 миллиардами транзисторов.

Компания также продолжила развивать свои функции RTX, заявляя о значительном улучшении производительности ядер RT и Tensor по сравнению с Turing.

Можно с уверенностью сказать, что прием технологии RTX в целом был довольно прохладным (со стороны потребителей), но с запуском DLSS 2.0 в апреле и ядрами RT 2-го поколения от Nvidia, которые предположительно увеличивают пропускную способность в два раза по сравнению с ядрами первого поколения, Ampere может изменить мнение потребителей.

Все эти улучшения сопровождаются повышенным энергопотреблением, несмотря на то, что Nvidia перешла с 12-нанометрового техпроцесса TSMC на 8-нанометровый технологический узел Samsung в 30-й серии.

Общая графическая мощность или TGP - энергопотребление всей карты - теперь составляет до 320 Вт для RTX 3080, что на 28% больше, чем у флагмана последнего поколения, RTX 2080 Ti.

Несмотря на это, мы также можем отметить, что Clock Speed был немного снижен по сравнению с 20-й серией, при этом RTX 3080 имеет Boost Clock 1710 MHz, по сравнению с Clock Speed 1815 MHz у RTX 2080 Super.

Ampere вносит несколько ключевых изменений в архитектуру GPU и далее мы о них поговорим!

Новый SM в картах Nvidia 30 серии

Одной из самых ярких особенностей RTX 30-й серии было невероятно высокое количество ядер. Учитывая, что RTX 2080 Ti, выпущенный с 4352 ядрами CUDA, был самым загруженным из стека GeForce 20-й серии, было довольно удивительно видеть, что даже RTX 3070 превосходит этот показатель, а RTX 3080 так вообще имеет вдвое больше ядер.

Это результат того, что Nvidia удвоила количество FP32 ALU на SM. Если у Turing был выделенный путь к данным для операций INT, то с Ampere он теперь разделен между INT и FP32.

Tony Tamasi, вице-президент по техническому маркетингу в Nvidia, объяснил это изменение (на Reddit):

«Одной из ключевых целей разработки SM Ampere 30-й серии было достижение вдвое большей производительности для операций FP32 по сравнению с Turing SM. Для достижения этой цели Ampere SM включает новые конструкции каналов данных для операций FP32 и INT32.

Один канал данных в каждом разделе состоит из 16 ядер CUDA FP32, способных выполнять 16 операций FP32 за такт. Другой путь данных состоит из 16 ядер CUDA FP32 и 16 ядер INT32. В результате этой новой конструкции каждый раздел Ampere SM способен выполнять либо 32 операции FP32 за такт, либо 16 операций FP32 и 16 операций INT32 за такт. Все четыре раздела SM вместе могут выполнять 128 операций FP32 за такт, что вдвое превышает скорость FP32 SM по Turing, или 64 операции FP32 и 64 INT32 за такт.

Удвоение скорости обработки для FP32 повышает производительность для ряда распространенных графических и вычислительных операций и алгоритмов. Современные шейдерные нагрузки обычно содержат смесь арифметических инструкций FP32, таких как FFMA, сложение с плавающей запятой (FADD) или умножение с плавающей запятой (FMUL), в сочетании с более простыми инструкциями, такими как добавление целых чисел для адресации и выборки данных, сравнение с плавающей запятой или min / max для результатов обработки и т. д.

Прирост производительности будет зависеть от уровня шейдера и приложения в зависимости от сочетания инструкций. Шейдеры шумоподавления с трассировкой лучей - хорошие примеры, которым можно значительно улучшить удвоение пропускной способности FP32.

Удвоение математической пропускной способности потребовало удвоения поддерживающих ее путей данных, поэтому Ampere SM также удвоил общую память и производительность кэша L1 для SM. (128 байт / такт на Ampere SM против 64 байтов / такт по Turing). Общая пропускная способность L1 для GeForce RTX 3080 составляет 219 ГБ / с против 116 ГБ / с для GeForce RTX 2080 Super.

Как и предыдущие графические процессоры NVIDIA, Ampere состоит из кластеров обработки графики (GPC), кластеров обработки текстур (TPC), потоковых мультипроцессоров (SM), растровых операторов (ROPS) и контроллеров памяти.

GPC - это доминирующий аппаратный блок высокого уровня, в котором все ключевые графические процессоры находятся внутри GPC. Каждый GPC включает в себя выделенный Raster Engine, а теперь также включает в еще два раздела ROP (каждый раздел содержит восемь блоков ROP), что является новой функцией для GPU NVIDIA Ampere Architecture GA10x.

Более подробную информацию об архитектуре NVIDIA Ampere можно найти в официальном документе NVIDIA Ampere Architecture White Paper, который будет опубликован в ближайшие дни».

Память GDDR6X RTX 3090 3080 307

Еще одним шагом вперед является использование памяти GDDR6X в RTX 3080 и RTX 3090, однако RTX 3070 останется на GDDR6. Разработанный в сотрудничестве с Micron, GDDR6X использует новую 4-уровневую импульсную амплитудную модуляцию (PAM4) вместо предыдущей 2-уровневой NRZ, которая используется с GDDR6 (не-X).

Там, где NRZ может отправлять только двоичные данные, PAM4 - как следует из названия - может отправлять один из наших уровней напряжения с шагом 250 mV за такт. Nvidia утверждает, что это позволяет GDDR6X «передавать в два раза больше данных, чем память GDDR6».

RTX 3080 оснащен 10 ГБ памяти GDDR6X с тактовой частотой 19 Gbps. В сочетании с 320-битным интерфейсом памяти пропускная способность памяти достигает 760 ГБ / с, в то время как RTX 3090 способен достигать 936 ГБ / с.

Кроме того, Nvidia изменила реакцию памяти на разгон - как мы увидим позже в обзоре. Nvidia дали официальный ответ по этому поводу:

«Одной из конструктивных особенностей, которые мы добавили для повышения надежности памяти, является обнаружение ошибок транзакций и их воспроизведение.

То есть, когда кодирование показывает, что произошла ошибка передачи данных, передача с ошибкой повторяется или «воспроизводится» до тех пор, пока правильная транзакция с памятью не будет успешной. По мере того, как вы нажимаете на разгон и вызываете больше ошибок, повторные попытки транзакций уменьшают полезную полосу пропускания памяти и, таким образом, снижают производительность.».

Улучшения RT и Tensor

Наряду с улучшениями самих тензорных ядер и RT-ядер, Nvidia также представила то, что она называет параллелизмом второго поколения.

С Turing, GPU был ограничен одновременным выполнением конвейеров шейдеров и RT, в то время как любые рабочие нагрузки DLSS (Tensor) должны были идти дальше по конвейеру. С Ampere теперь можно выполнять операции шейдера, RT и DLSS одновременно, повышая производительность для конечного пользователя.

Используя Wolfenstein Youngblood в качестве примера, если бы Ampere попытался отрендерить кадр с трассировкой лучей с помощью программного обеспечения, без использования ядер RT или Tensor, Nvidia утверждает, что мы будем смотреть на время кадра в 37 мс, или около 27 кадров в секунду. Благодаря ядрам RT трассировку лучей значительно проще запускать, чем через программное обеспечение, поэтому время кадра можно сократить до 11 мс.

После добавления DLSS к рабочей нагрузке через ядро ??Tensor время рендеринга дополнительно сокращается до 7,5 мс.

Nvidia утверждает, что одновременное выполнение всех трех операций повысит производительность еще больше, с временем кадра 6,7 мс, или 149 кадров в секунду.

RTX IO - технология Nvidia

Последняя ключевая функция, которую мы хотим здесь затронуть - это RTX IO.

Nvidia объясняет это, указывая на постоянно растущие скорости SSD, которые теперь дико быстрее, чем традиционные HDD.

Однако увеличение скорости приводит к возникновению узких мест в традиционных подсистемах ввода-вывода, поэтому разработчики обращаются к методам сжатия без потерь.

Nvidia утверждает, что такие методы, выполняемые с помощью SSD PCIe Gen4, могут использовать «десятки CPU ядер», ограничивая производительность ввода-вывода и влияя на «потоковые системы следующего поколения, в которых нуждаются большие игры с открытым миром».

Решение - RTX IO. Это новый API, целью которого является обеспечение декомпрессии без потерь на базе графического процессора, перемещение работы с центрального процессора на графический процессор, который, как утверждает Nvidia, может обеспечить «достаточную мощность декомпрессии для поддержки даже нескольких SSD Gen4. Это может обеспечить скорость ввода-вывода более чем в 100 раз по сравнению с традиционными HDD и снизить загрузку процессора в 20 раз».

Государство и общество

Ждем новостей

Нет новых страниц

Следующая новость