Наконец, 12 октября покров таинственности был сорван: именно тогда состоялся долгожданный анонс процессоров AMD FX, в основе которых лежит микроархитектура Bulldozer. Чипмейкер представил целую линейку CPU — носителей этой микроархитектуры, которая включает четырех-, шести- и восьмиядерные модели. Кроме прочего, компания AMD возродила торговую марку «FX», имя которой в прошлом носили продукты для энтузиастов. Действительно, все процессоры AMD FX нынешнего поколения имеют разблокированный на повышение коэффициент умножения, что, по идее, должно сделать их привлекательными для любителей разгона. Гибко варьируя количеством функциональных блоков и рабочими частотами, AMD удалось заполнить практически все основные рыночные ниши, начиная от недорогих игровых систем и заканчивая предложениями для конфигураций верхнего ценового диапазона. Полный модельный ряд новейших процессоров AMD в сравнении с четырех- и шестиядерными Phenom II выглядит так:
FX 8150 | FX 8120 | FX 6100 | FX 4100 | Phenom II X6 | Phenom II X4 | |
Ядро | Zambezi | Zambezi | Zambezi | Zambezi | Thuban | Deneb |
Разъем | Socket AM3/AM3+ | Socket AM3/AM3+ | Socket AM3/AM3+ | Socket AM3/AM3+ | Socket AM2+/AM3 | Socket AM2+/AM3 |
Техпроцесс CPU, нм | 32 | 32 | 32 | 32 | 45 | 45 |
Количество транзисторов, млн. | 2000 | 2000 | 2000 | 2000 | 904 | 758 |
Площадь кристалла, кв. мм | 315 | 315 | 315 | 315 | 346 | 243 |
Число ядер | 8 | 8 | 6 | 4 | 6 | 4 |
Номинальная частота, МГц | 3600 | 3100 | 3600 | 3100 | 2600 — 3300 | 3200 — 3700 |
Частота Turbo Core, МГц | 3900/4200* | 3400/4000* | 3300/3900* | 3600/3800* | 3100 — 3700 | — |
Частота NB, МГц | 2200 | 2200 | 2200 | 2200 | 2000 | 2000/1800 |
Объем L1 кэша, КБ | 16 x 8 + 64 x 4 | 16 x 8 + 64 x 4 | 16 x 6 + 64 x 3 |
16 x 4 + 64 x 2 | 128 x 6 | 128 x 4 |
Объем L2 кэша, КБ | 2048 x 4 |
2048 x 4 |
2048 x 4 |
2048 x 4 |
512 x 6 |
512 x 4 |
Объем L3 кэша, МБ | 8 | 8 | 8 | 8 | 6 | 6 |
Множитель | 18 | 15,5 | 16,5 | 18 | 13 — 16,5 | 16 — 18,5 |
Каналов памяти | 2 | 2 | 2 | 2 | 2 | 2 |
Поддерживаемый тип памяти | DDR3 1333/1600/1866 | DDR3 1333/1600/1866 | DDR3 1333/1600/1866 | DDR3 1333/1600/1866 | DDR2 800/1066, DDR3 1333/1600 | DDR2 800/1066, DDR3 1333/1600 |
Шина для связи с чипсетом | Hyper Transport 3.1 | Hyper Transport 3.1 | Hyper Transport 3.1 | Hyper Transport 3.1 | Hyper Transport 3.0 | Hyper Transport 3.0 |
Частота Hyper Transport, МГц | 5200 | 5200 | 5200 | 5200 | 4000 | 4000 |
Рабочее напряжение, В | 0,825-1,4 | 0,825-1,4 | 0,825-1,4 | 0,825-1,4 | 0,825-1,4 | 0,825-1,4 |
TDP, Вт | 125 | 125 | 95 | 95 | 125 | 125 |
Рекомендованная стоимость, $ | 245 | 205 | 165 | 115 | 165 — 205 | 117 — 185 |
Если закрыть глаза на количество вычислительных ядер, в сравнении с предшественниками процессоры FX получили более быструю шину Hyper Transport 3.1, поддержку скоростной памяти DDR3 1866 МГц и увеличенную до 8 Мбайт кэш-память 3-го уровня. Кроме того, обращаем ваше внимание на достаточно высокие тактовые частоты, которые вплотную приблизились, а в отдельных случаях даже преодолели рубеж в 4000 МГц. Если исходить из рекомендованной цены, четырехъядерный процессор FX 4100 должен конкурировать с двухядерными Sandy Bridge и младшими Phenom II X4; соперниками шестиядерного FX 6100 станут младшие модели Core i5 и шестиядерные Phenom II X6. Восьмиядерные модели FX 8120 и FX 8150 играют в «высшей лиге», где правят бал старшие Core i5 и Core i7, которые до сих пор показывали великолепный уровень производительности. Как видно, позиционирование новых процессоров AMD FX обязывает их держаться на уровне очень серьезных соперников, так что новичкам придется ой как нелегко!
Микроархитектура Bulldozer: строение и особенности функционирования
Прежде всего, необходимо отметить, что AMD FX являются чистокровными центральными процессорами и не имеют в своем составе графического ядра. Конечно, в этой связи можно обвинить AMD в непоследовательности, ведь продвижение на рынок APU (Accelerated Processing Unit) — одна из основных стратегических инициатив компании. Взамен встроенного видеоадаптера пользователи получают полную совместимость AMD FX с производительной платформой Socket AM3/AM3+, для которой предлагается множество отличных системных плат и обеспечена поддержка всех актуальных возможностей расширения. Специально для процессоров FX компания AMD выпустила обновленную 9-ю серию наборов системной логики.
Напомним основные возможности флагманского чипсета AMD 990FX. Итак, он позволяет строить графические конфигурации AMD CrossFireX и NVIDIA SLI, благодаря южному мосту SB950 поддерживает стандарт SATA 6 Гбит/с, но лишен возможности подключения устройств USB 3.0. Что касается материнских плат Socket AM3, основанных на наборах системной логики предыдущих поколений, то после обновления микрокода прошивки они тоже должны будут поддерживать Bulldozer. Но это уже зависит от конкретной модели.
Одной из ключевых особенностей процессоров на базе микроархитектуры Bulldozer стал переход на 32-нм литографический процесс, который на протяжении почти двух лет весьма успешно используется основным конкурентом — компанией Intel. Кроме потенциального уменьшения энергопотребления и улучшения разгонного потенциала, этот факт положительно отразился на стоимости производства полупроводниковых кристаллов. AMD уже нельзя назвать новичком в деле освоения 32-нм техпроцесса: именно с таким уровнем детализации выпускаются вполне удачные APU Llano, которые хоть и не завоевали признания среди энтузиастов, зато отлично подходят для построения недорогих и компактных универсальных ПК. Благодаря применению современных технологий производства чип (несмотря на то что содержит почти 2000 млн. транзисторов) вышел весьма компактным. Восьмиядерные AMD FX 8150 имеют площадь ядра всего в 315 мм², что меньше, чем у флагманов предыдущего поколения — Phenom II X6, кристалл которых занимает целых 346 мм². Впрочем, до показателей четырехъядерных Sandy Bridge процессорам AMD FX все же далеко, так как у первых чип, несмотря на наличие встроенного графического акселератора, занимает всего 216 мм².
Главные нововведения, которые были сделаны в микроархитектуре Bulldozer, коснулись алгоритма выполнения многопоточных вычислений. Долгое время центральные процессоры были способны выполнять единственный вычислительный поток в один момент времени. Так называемая одновременная работа нескольких программ осуществлялась при помощи обработчика прерываний, то есть вычислительные задачи разных приложений по очереди получали кратковременный доступ к ресурсам процессора. Именно благодаря этому стала возможной работа многозадачных операционных систем. Стоит ли говорить, что скорость работы в таком режиме была невысокой. В то же время, разработчики CPU стали замечать, что в нагрузке разные функциональные блоки процессора могут простаивать без работы, пока другие заняты обработкой вычислительного потока. Именно это и натолкнуло их на совместное использование одних и тех же ресурсов процессора для обработки нескольких вычислительных потоков. Компания Intel внедрила такую возможность под названием Hyper-Threading в свои процессоры еще в далеком 2002 году. Данный принцип дает некоторый прирост в определенном типе задач. В то же время, подход AMD к реализации многопоточных вычислений долгое время оставался неизменным: каждый поток должен выполняться на отдельном ядре. Теперь же, после оптимизации производительности отдельных узлов процессора и тщательного анализа нагрузки, разработчики AMD посчитали, что быстродействия некоторых узлов вполне достаточно для обслуживания сразу двух независимых вычислительных потоков. Такой подход позволил здорово сократить количество транзисторов, но сохранить высокую продуктивность. Теперь же, в свете увеличения требований к быстродействию при сохранении приемлемых параметров энергопотребления, разработчики вынуждены искать пути увеличения количества исполняемых за такт инструкций.
Итак, в основе всех центральных процессоров AMD FX лежит полупроводниковый кристалл, состоящий из четырех вычислительных модулей, каждый из которых снабжен собственным массивом кэш-памяти 2-го уровня, общего кэша 3-го уровня объемом 8 Мбайт, двухканального контроллера памяти DDR3, контроллеров шины HyperTransport и встроенного северного моста.
Очевидно, что младшие модели получаются из полноценных чипов путем отключения отдельных функциональных блоков. Глядя на структуру кристалла Zambezi невольно создается впечатление, что перед нами обычный четырехъядерный процессор. На самом деле это не так, и более всего данный факт демонстрирует строение вычислительного модуля — структурной единицы процессоров AMD FX.
В состав вычислительного модуля входят два блока целочисленных вычислений (ALU), каждый из которых способен выполнять до четырех инструкций за такт, снабженных собственной кэш-памятью 1-го уровня для хранения данных. Все остальные блоки, такие как предсказатель ветвлений, декодер инструкций, буферная память для хранения инструкций и массив кэш-памяти 2-го уровня размеров 2 Мбайт, представлены в единичном экземпляре. Очевидно, разработчики посчитали, что производительности этих блоков достаточно для обслуживания двух ALU.
Кроме того, каждый из вычислительных модулей располагает блоком вычислений с плавающей точкой (FPU), который также подвергся значительным доработкам. Так к стандартным SIMD-расширениям добавились наборы SSE4.1 и SSE4.2, а также специфические инструкции XOP, AES и AVX, которые позволяют значительно повысить быстродействие при условии их поддержки со стороны программного обеспечения. Интересно выглядит возможность выполнения 256-битных инструкций AVX, для этого задействуются ресурсы сразу двух блоков, каждый из которых способен обрабатывать 128-битные команды FMAC. При этом блок FPU способен выполнять две коротких инструкции AVX одновременно.
Как видно, микроархитектура Bulldozer имеет весьма продвинутые возможности вычисления, особенно в сравнении с процессорами AMD предыдущих поколений. Однако за такое технологическое преимущество приходится платить необходимостью тщательной оптимизации программного кода. В противном случае, особенно в старых приложениях, уровень быстродействия может быть далеким от ожидаемого.
Пару слов следует сказать про организацию внутренней памяти AMD FX, которые стали чемпионами не только по количеству ядер, но и по суммарному объему кэша. Как мы уже говорили, каждый из блоков целочисленных вычислений располагает буфером для хранения данных объемом 16 Кбайт, при этом оба буфера могут использоваться для работы блока FPU. Для хранения инструкций каждый вычислительный модуль располагает отдельным кэшем L1 объемом 64 Кбайт, а промежуточные данные накапливаются в кэш-памяти второго уровня, размеры которого составляют впечатляющие 2 Мбайт. Общий для всех четырех вычислительных блоков массив кэша 3-го уровня имеет объем 8 Мбайт и обладает ассоциативностью в 64 линии на каждый модуль. Благодаря применению эксклюзивной организации кэшей 2-го и 3-го уровней можно говорить об их суммарном объем в 16 Мбайт. Не удивительно, что кристалл Bulldozer получился таким сложным, львиная доля транзисторного бюджета отведена для организации внутренней памяти процессора. Заметим, что рабочая частота кэш-памяти L3 может составлять 2000 МГц или 2200 МГц в зависимости от модели процессора.
Как видно из краткого описания дизайна ядра, микроархитектура Bulldozer, несмотря на все свои новшества, не лишена некоторых недостатков. Все-таки на каждый вычислительный модуль приходится только один предсказатель ветвлений, блок выборки инструкций и один декодер инструкций, который, к слову, способен обрабатывать не более четырех инструкций за такт. Посмотрим, как поведет себя AMD FX в реальных приложениях, но интуиция подсказывает, что в приложениях, активно использующих FPU, но не имеющих программной оптимизации для новых наборов SIMD-инструкций, новейшие процессоры будут демонстрировать уровень производительности, характерный для четырехъядерных моделей.
Помимо архитектуры изменения претерпели и механизмы управления энергопотребления. Несмотря на большее количество транзисторов и высокие тактовые частоты, даже старшие восьмиядерные AMD FX имеют тепловой пакет, не превышающий 125 Вт. Конечно, определенную роль в этом сыграл и 32-нм технологический процесс, благодаря которому штатное напряжение питания не превышает 1,4 В, но основная заслуга все таки принадлежит продвинутым механизмам регулировки тактовых частот и питающих напряжений. Первое поколение данной концепции было реализовано в Phenom II X6, где в случае вычислительной нагрузки не более трех потоков, частоты трех активных ядер могли повышаться на 400 МГц. Процессоры AMD FX предлагают гораздо более гибкий поход к управлению ключевыми параметрами быстродействия. Так, благодаря применению силовых вентильных транзисторов диспетчер энергосбережения процессора способен отключать целые функциональные блоки. При отсутствии нагрузки вычислительный модуль вместе с массивом кэш-памяти 2-го уровня может полностью отключаться, высвобождая часть бюджета TDP. В то же время, тактовая частота и напряжение активных вычислительных модулей может повышаться, причем прирост частоты в режиме Max Turbo достигает солидных 900 МГц. Согласитесь, столь агрессивный алгоритм работы автоматического разгона нам еще не встречался. Более того, при равномерной нагрузке всех вычислительных модулей существует возможность увеличения тактовой частоты порядка 300 МГц. Собственно, это и есть режим работы Turbo Core, причем он будет активен до тех пор, пока энергопотребление процессора не выходит за рамки теплового пакета. Иными словами, самое понятие «штатная тактовая частота» для AMD FX теряет свой первоначальный смысл.
И все было бы очень хорошо, если бы не было так грустно. А дело в том, что планировщик процессов операционных систем Windows пока недостаточно оптимизирован для процессоров AMD FX. Существует вероятность того, что два потока одного приложения будут выполняться на целочисленных вычислительных блоках разных модулей, что не позволит процессору перейти в режим Max Turbo и потребует повторной загрузки данных и инструкций в кэш-память. В идеальном случае планировщик операционной системы должен учитывать архитектурные особенности Bulldozer, в этом случае комбинация использования Turbo Core и Max Turbo должны дать максимальный положительный эффект.
Уже сейчас известно, что планировщик заданий будущей Microsoft Windows 8 будет оптимизирован для работы на процессорах Bulldozer. А что касается дня сегодняшнего, возможно, будет выпущено обновление для нынешних операционных систем, или же программисты AMD наконец-то разработают «чудо-драйвер»…