Энергоэффективность и разгон
Безусловно, переход на новый 7-нм техпроцесс первого поколения родил в головах пользователей мысль, что новые процессоры просто обязаны брать 5 ГГц, на которых не только можно будет работать а и, обмазавшись, пойти на форум вести баталии с оппонентами.
На слайде с презентации AMD на E3 мы можем увидеть значение 4600 МГц. К сожалению это не то о чем мечтали, но и не так уж и плохо. Давайте разбираться что, как и почему.
Первое самое важно, что обязан вам сказать — частота не главное. Львиная доля успеха Mattise заключается в архитектуре, и только небольшая часть — это техпроцесс.
Уменьшение размеров технологической нормы создает ряд проблем в самом кристалле и за его пределами. Даже если не учитывать TDP и частоту, сама по себе возможность помещать структуры в кремний и затем интегрировать этот кремний в подложку является крайне сложной и дорогостоящей разработкой.
В большинстве случаев подобные кардинальные изменения, которые получил Matisse, тянут на новый сокет. В нашем случае компания AMD преподнесла пользователям подарок — процессорный разъем остался неизменным.
Тем не менее, в бочке меда при желании можно найти ложку дегтя. В данном случае произошло пять важных вещей, которые повлияли на разгон в силу физических закономерностей:
1) Подключение чиплетов к кремневой подложке отразилось на расположении сигнальных линий, которые далеко не все имеют оптимальную длину или местоположение, дабы обеспечить требуемые соотношения полезного сигнала к шуму. Это не есть плохо, но, конечно, немного хуже, нежели если б это был сокет АМ5. Безусловно, глобальная переработка коснулась и линий питания.
Кроме того, процессоры с двумя CCD (Ryzen 9 3900X и 3950X) должны быть более требовательны к FCLK из-за всегда присутствующего расхождения в сигнализации CCD. При этом обычно один из CCD предпочитает более низкое напряжение, чем другой, и так далее.
2) Техпроцесс, туннелирование элекронов и обратный ток.
Отдельные транзисторы на чипе формируются методом фотолитографии. В этом случае на кремниевую подложку наносят тонкую фоточувствительную полимерную пленку, называемую фоторезистом. Затем этот фотослой обрабатывают светом (производят так называемое экспонирование) через фотошаблон с необходимым рисунком. Проэкспонированные участки смываются в проявителе, а затем производится вытравливание кристаллов.
Компании уменьшают техпроцессы, чтобы увеличить количество продукции из одной заготовки и снизить энергопотребление финального чипа. Производитель получает возможность увеличить быстродействие микросхемы, оставив её размеры на прежнем уровне.
Долгое время эта тенденция (на уменьшение техпроцессов) оставалась справедливой. Но сейчас ИТ-компании начали откладывать или вообще прекращать разработку новых техпроцессов. Отчасти это связано с удорожанием оборудования и высоким уровнем брака. Пример 10 нм от Intel.
Возвращаясь к нашему случаю, в преимуществах мы получили удвоение плотности размещения транзисторов при в два раза меньшем энергопотреблении.
Туннелирование электронов — когда затвор становится слишком тонким, и электроны могут проходить через него, тогда заряд, накопленный на затворе транзистора, может быть потерян, что требует от пользователя его возобновления. В результате получается транзистор, который потребляет больше тока, что, в свою очередь, приводит к большему рассеиванию тепла. Отдельные транзисторы имеют почти неизмеримые величины потерь тока и повышение температуры, но когда несколько миллиардов транзисторов размещаются на одном куске кремния, эффект накапливается и становится серьезной проблемой. Также ток не просто вытекает из затвора, ток может туннелировать от источника к стоку, если они находятся в непосредственной близости, что может препятствовать способности транзисторов контролировать ток.
Также при повышении напряжения ток утечки возрастает по линейному закону или еще более круто. Влияние же температуры на ток утечки выражено сравнительно слабо. Образование тока утечки, как правило, связано с несовершенством технологии изготовления, потому не удивляйтесь, когда читаете новость, что ваш любимый процессор получил новый степпинг. Этот процесс усовершенствования является по сути бесконечным.
Еще одним интересным нюансом является канальный ток. Канальный ток является основной составляющей для кремниевых р-n переходов, выполненных по планарной технологии. Не вдаваясь здесь в особенности планарной технологии, отмечу, что при ее использовании поверхность кремниевых р-n переходов покрывается защитной пленкой SiO2. Это покрытие, с одной стороны, практически устраняет ток поверхностной утечки, но, с другой стороны, порождает канальный ток. Канальный ток возникает за счет образования канала (очень тонкого слоя) n-типа в приповерхностной области р-типа, покрытой пленкой SiO2. К счастью канальный ток очень маленький — десятые доли или единицы наноампер, потому его не рассматриваем как фактор (как и не рассматриваем тепловой ток и ток термогенерации), который повлияет на тепловыделение и разгон наших «камней».
3) Фазы. Переход на более тонкий техпроцесс повлиял на рабочее напряжение, что соответственно означает низкий КПД VRM из-за более высоких токов и очень низкого рабочего цикла преобразователя. Решается зачастую это путем увеличения кол-ва фаз и в большинстве случаев это даблеры. Вам это может показаться смешным или даже маркетинговым ходом жадных производителей материнских плат, но отнюдь это не так. Я напомню, совсем недавно, когда была рождена линейка Intel X299, были те самые многочисленные проблемы с VRM, так как серия процессоров HEDT работала на низком рабочем напряжении. Именно поэтому, дабы не совершать ошибок конкурента, компания AMD подготовила чипсет X570. Большинство плат на своем борту имеют от 12 до 16 фаз, топологию Daysi chain нового поколения и, конечно же, PCI Express Gen 4.
Возможно, вас количество фаз напугает, постараюсь успокоить. Во-первых, сейчас престижно иметь под своим крылом продукты, которые на бумаге и в живую производят впечатление, и не важно, есть ли востребованность или нет. Во-вторых, мы получаем продукт для настоящих энтузиастов, а кто вы — выбирать вам и вашему бюджету.
Превратились ли в тыкву текущие серии плат? — отчасти. В основном за бортом частично остались серии A320 и B350 ввиду своих слабых VRM и собственного ценового класса, который из-за себестоимости проектировки и бюджетной элементной базы не может предложить новой архитектуре/чипсету полноценную «совместимость» на приемлемом уровне. В качестве примера я покажу картинку от своих партнеров в лице TechPowerUP.
На картинке материнская плата ASUS Prime B350 c 3900Х на борту во время стресс теста. Как видите температуры VRM достаточно, чтобы жарить барбекю. Потому я Вам советую отнестись серьезно к проблеме нехватки мощностей при покупке Ryzen 9 3900Х или 3950Х.
4) Площадь и температура. В пункте номер 2 я писал о туннелировании и проблемах отводах тепла от маленьких кристаллов. Дабы решить проблему отвода тепла, компания AMD убила сразу двух зайцев: удвоенный кэш L3 не только увеличивает производительность в приложениях, а и служит своего рода «радиатором», ведь он теперь занимает половину площади кристалла.
Если говорить о числах, то ключевой показатель размеров одного CCX (комплекса) Zen+ равен 60 квадратных миллиметров, из которых 44 мм2 это ядра, а 16 мм2 — 8 МБ L3 на CCX. Если собрать все блоки в кучу мы получим 213 мм2.
Для Zen 2 один чиплет имеет размер 74 мм2, из которых 31,3 мм2 представляют собой кремневый кусок с 16 МБ L3, что в свою очередь приближается к 50% от всей площади одного CCD (чиплета).
К чему я это пишу? Самым большим ограничением является интенсивность тепла на площадь. Считаем приблизительные значения:
- Ryzen 7 2700Х с площадью кристалла 213мм2 и TDP 145 Вт мы получаем 0,68 Вт/мм2;
- Ryzen 7 3700Х с площадью ССD в 74мм2 и TDP 95 Вт мы получаем 1,28 Вт/мм2;
- Для Core i9-9900К при площади в 174мм2 и ТDP 200 Вт мы получаем всего 0,87 Вт/мм2.
Итого, наш разгон очень существенно ограничен площадью для передачи тепла, в частности импульсов тепла. Безусловно, припой под крышкой все же лучше темопасты, но глядя на предварительные обзоры с ручным разгоном, все выглядит довольно печально.
5) SIDD и Ti-состояния. Многие из вас наверно догадываются, что производители процессоров всегда делают сортировку чипов в своих продуктах, на техническом сленге это именуется биннингом.
Процессоры можно разделить условно на два лагеря: с высокими токами утечки (high SIDD) и с низкими токами утечки (low SIDD). Как всегда, существуют различия между образцами в пределах одного и того же уровня утечки, что означает наличие хороших и плохих образцов в категориях как с низкой, так и с высокой утечкой.
Образцы с более низкими характеристиками утечки потребуются напряжения, превышающие пределы спецификации или технологического процесса, а образцы с малой утечкой потребляет значительно меньше тока, чем часть с большой утечкой, но обычно требуется более высокий уровень напряжения для достижения той же частоты.
Образцы со сверхвысокими токами утечки встречаются гораздо чаще, и поэтому серия процессоров «X» основана на кремнии с высокими токами утечки.
Дабы вы лучше поняли меня, начнем с небольшого экскурса в историю и рассмотрим Ryzen 7 1700 и 1800Х на субмаксимальных частотах для домашнего пользования в 3900 МГц.
Процессор Ryzen 7 1700 имеет VID 1,35 В для ручной частоты P0 в 3900 МГц. Это указывает на то, что образец ЦП имеет низкий SIDD (статическая утечка).
Процессор Ryzen 7 1800X имеет VID 1.275, что соответственно награждает этот процессор титулом high SIDD.
Образец с высоким SIDD с запасом P0 VID, безусловно, сможет достичь частоты X при гораздо более низком напряжении, чем образец с низким SIDD .Однако это не делает экземпляры с высокой утечкой лучше.
Экземпляры с высокой утечкой требуют значительно меньшего напряжения, чем модели с малой утечкой, но в то же время они потребляют больший ток и нагреваются гораздо быстрее, чем экземпляры с малой утечкой. Также их напряжение пробоя ниже. Образец с высокой утечкой может выгореть при 1,55 В, в то время как образец с низкой утечкой имеет шанс умереть только на 1,65 В.
Более высокие токи вызывают большие потери проводимости, которые сами по себе уже повышают температуру в процессоре. Что собственно мы видим на картинке, на идентичной частоте разница в температуре составляет не менее 7 градусов. Более высокие токи утечки также значительно увеличивают нагрузку на VRM материнской платы.
Идем дальше, процессоры Ryzen 5 2600/2600X и Ryzen 7 2700/2700X.
В этом случае мы видим результаты, которые не соответствуют вышеописанной теории. Объяснение крайне простое: каждый техпроцесс совершенствуется, производство становится более опытным и количество брака со временем становится меньше. В случае Zen+ мы видим, что «камни» с суффиксом Х и без находятся на примерно одинаковом уровне SIDD и бининг выполняется в рамках идентичного SIDD.
Существует еще один нюанс, о котором мало кто знает. Высокий SIDD все же лучше из-за электронной баллистики и Ti-состояний (XFR/PBO). На определенной температуре транзистор может быть больше «разогнан» для заданного напряжения.
Ключ в том, чтобы уравновесить увеличение мощности утечки при более высоких температурах с динамическим снижением мощности в Ti-состояниях, где Ti-состояния: управление питанием процессора в области температурной инверсии.
В свою очередь инверсия температуры — это эффект на уровне транзистора, который может улучшить производительность при достижении определенной. Звучит бредово? Разбираемся.
Лет 6 назад это в значительной степени игнорировалось, потому что это не происходит в типичной рабочей области процессора, но инверсия температуры становится все более важной в современных и будущих технологиях. Существует сатья «Ti-states: Processor power management in the temperature inversion region», опубликованная на ieeexplore.ieee.org, в которой изучается влияние инверсии температуры на проектирование архитектуры и управление питанием и производительностью. В ней предоставили первый общедоступный комплексный анализ на основе результатов измерений влияния температурной инверсии на реальный процессор с использованием AMD A10-8700P в качестве образца.
Результаты демонстрируют, что дополнительный интервал синхронизации, введенный инверсией температуры, может обеспечить более чем 5% преимущества снижения Vdd, и это улучшение увеличивается до более чем 8% при работе в околопороговой области низкого напряжения. Чтобы использовать эту возможность, авторы представили Ti-состояния — это метод управления питанием, который устанавливает напряжение процессора на основе температуры кремния в реальном времени для повышения энергоэффективности.
Ti-состояния приводят к измеренной экономии энергии от 6% до 12% в диапазоне различных температур по сравнению с фиксированным запасом. По мере того, как технология масштабируется до FD-SOI и FinFET, демонстрируется, что существует идеальная рабочая температура для различных рабочих нагрузок, чтобы максимизировать преимущества инверсии температуры. Ключ состоит в том, чтобы уравновесить увеличение мощности утечки при более высоких температурах с динамическим уменьшением мощности Ti-состояниями. Прогнозируемая оптимальная температура обычно составляет около 60 °C и обеспечивает экономию энергии от 8% до 9%. Оптимальная высокая температура может быть использована для снижения затрат на проектирование и эксплуатационной мощности в режиме общего охлаждения.
Теория теорией, но как же практика? Пару дней назад мне попалось на глаза видео от gamersnexus, в которой ребята охлаждали процессор Ryzen 9 3900Х и смотрели на показатели буста в зависимости от температуры. На удивление там так же фигурирует число в 60 градусов, которое позволяет процессору бустить лучше, нежели на температурах более 60 градусов.
Совпадение? Не думаю. Идем дальше.
Следующее, что может броситься в глаза, так это Clock Ramping.
Функция, которая позволяет процессору более свободно переключаться между различными P-состояниями, а также переходить из режима ожидания в режим быстрой загрузки с определенным интервалом. Это было сделано путем передачи управления P-состояния от операционной системы к процессору, который реагирует, основываясь на пропускную способность команд и запросов.
Техническое название это CPPC2 или Collaborative Power Performance Control. Метрики AMD утверждают, что это может увеличить пакетные рабочие нагрузки, а также загрузку приложений. Суб-тест запуска приложений PCMark 10 показал увеличение производительности на 6% во время запуска приложений.
Еще одна интересная деталь любого Zen — это огромные количества датчиков, которые отслеживают состояние каждого ядра, каждого модуля.
Стоит отметить, что число управляемых цепей питания в ядре Ryzen превышает 1300 штук (для первого поколения), а число встроенных датчиков температуры и токов достигает нескольких десятков тысяч.
Также не стоит забывать новое управление напряжением в архитектурах Zen, своего рода попытка организовать значительно более тонкую настройку мощности на уровне ядра на основе сбора информации, которая имеется у этого ядра и всего чипа.
В Zen , напряжение, поступающее с модуля регулятора напряжения (VRM), подается на RVDD, плоскость металлического корпуса, которая распределяет самый высокий запрос VID из всех ядер. В Zen (любом) каждое ядро имеет цифровой регулятор LDO (низкий уровень выпадения) и цифровой синтезатор частоты (DFS) для изменения частоты и напряжения между состояниями питания на основе отдельных ядер. LDO регулирует RVDD для каждой области питания и создает оптимальный VDD на ядро, используя систему датчиков, встроенную во весь чип. Это в дополнение к другим свойствам является контрмерой против «обвисания».
Говоря на простом языке, высокое напряжение, которое вы могли видеть во время однопоточной нагрузке при использовании Pinnacle Ridge, или видите сейчас в Matisse, не является проблемой. Во всех случаях вы видите максимальное напряжение, которое получил RVDD и распределил на несколько успешных ядер, при этом остальные ядра получили куда меньшее напряжение, дабы уменьшить энергопотребление и тем самым снизить тепловыделение.
В дополнение к схеме LDO интегрированной для каждого ядра, имеется детектор снижения энергопотребления с малой задержкой, который может запускать цифровые LDO для включения большего количества драйверов для противодействия сбоям.
Большее количество датчиков по всей матрице используется для измерения многих состояний процессора, включая частоту, напряжение, мощность и температуру. Эти данные, в свою очередь, используются для характеристики рабочей нагрузки, адаптивного напряжения, настройки частоты и динамического тактирования. Адаптивное масштабирование напряжения и частоты (AVFS) является встроенной замкнутой системой, которая регулирует напряжение в режиме реального времени после измерений на основе собранных сенсорных данных. Это часть технологии AMD Precision Boost Override, обеспечивающей высокую степень гранулярности с тактовыми частотами вплоть до 25 МГц.