Как показала практика, идея объединения вычислительных ядер и графического акселератора в одном полупроводниковом кристалле оказалась вполне жизнеспособной. Представленные в начале 2011 года гибридные процессоры APU (Accelerated Processing Unit) E-Series завоевали популярность в качестве отличной основы для экономичных неттопов, а их мобильные версии C-series хорошо зарекомендовали себя как платформа для нетбуков. Впрочем, их производительность оказалась достаточной лишь для базовых задач, таких как работа в несложных офисных приложениях, серфинг сети Интернет и воспроизведение мультимедийного контента. Логическим развитием концепции Fusion стал выпуск более производительных APU A-Series — гибридных процессоров Llano, предназначенных для использования в составе платформы Lynx для настольных систем и платформы Sabine для производительных мобильных устройств.
APU A-series. Взгляд изнутри
При разработке APU A-series инженеры AMD решили нетривиальную задачу, разместив на одном полупроводниковом кристалле полноценный четырехъядерный х86-процессор, мощный графический ускоритель и северный мост. Все это стало возможно благодаря применению тонкого технологического процесса с детализацией 32 нм. APU A-Series содержит около 1450 млн. транзисторов, что почти на 60% больше, чем у шестиядерного процессора Thuban. При этом площадь ядра составила всего 228 кв.мм. Таким образом, несмотря на высокую сложность, себестоимость чипов APU должна быть достаточно низкой.
В состав гибридного процессора Llano входят четыре вычислительных ядра и двухканальный контроллер оперативной памяти, поддерживающий модули DDR3. Графическая подсистема состоит из пяти SIMD-массивов, по 80 потоковых процессоров в каждом, и блока аппаратного декодирования видео Unified Video Decoder третьего поколения. Северный мост отвечает за взаимодействие между узлами APU и обеспечивает поддержку интерфейса с системной логикой. Контролер шины PCI Express обеспечивает работу 24 линий для подключения дискретного видеоадаптера, причем четыре линии отводятся для связи с системной логикой, еще четыре можно использовать для подключения дополнительных контроллеров, а оставшиеся 16 можно разделить пополам для организации AMD CrossFireX.
Вычислительные ядра основаны на микроархитектуре К10 «Stars», отсутствие кэш-памяти третьего уровня роднит APU A-Series с нынешними AMD Athlon II X4. Небольшие изменения дизайна позволяют рассчитывать на прирост производительности до 6% в сравнении с равночастотными процессорами Propus. Большинство улучшений носят косметический характер, единственными серьезными нововведениями стали увеличение кэш-памяти второго уровня до 1024 Кбайт на ядро и оптимизация контроллера ОЗУ, который получил официальную поддержку модулей DDR3 1866 МГц. Кроме того, появился отдельный аппаратный блок целочисленного деления, были улучшены алгоритмы предвыборки, а буферы переупорядочивания инструкций и загрузки/сохранения увеличили свои размеры.
На текущий момент семейство APU A-Series для настольной платформы Lynx включает только трех- и четырехъядерные модели. В скором времени не исключено расширение продуктовой линейки двухъядерными гибридными процессорами.
Процессор | A8-3850 | A8-3800 | A6-3650 | A6-3600 | A6-3500 |
Разъем | Socket FM1 | Socket FM1 | Socket FM1 | Socket FM1 | Socket FM1 |
Техпроцесс, нм | 32 | 32 | 32 | 32 | 32 |
Число ядер | 4 | 4 | 4 | 4 | 3 |
Номинальная частота, МГц | 2900 | 2400 | 2400 | 2100 | 2100 |
Частота Turbo Core, МГц | – |
2700 | – | 2400 | 2400 |
Графическое ядро | Radeon HD 6550D | Radeon HD 6550D | Radeon HD 6530D | Radeon HD 6530D | Radeon HD 6530D |
Поддерживаемый тип памяти | DDR3-1866 | DDR3-1866 | DDR3-1866 | DDR3-1866 | DDR3-1866 |
TDP, Вт | 100 | 65 | 100 | 65 | 65 |
Обращаем ваше внимание, что гибридные процессоры Llano получили уникальный процессорный разъем Soсket FM1, который имеет 905 контактов. Кроме того, все APU A-Series обладают поддержкой инструкций MMX, SSE, SSE2, SSE3, SSE4a, Enhanced 3DNow!, AMD64. Имеется технология виртуализации AMD-V, а также аппаратная защита от ошибок переполнения буфера NX-bit. Различия заключаются в тактовой частоте и количестве активных процессорных ядер, а также характеристиках встроенного видеоядра. Кроме параметров, определяющих быстродействие, типичное тепловыделение играет ключевую роль при выборе области применения APU. Модели с тепловыделением до 65 ватт ориентированы на использование в составе тихих медиацентров или экономичных системах, в то время как более мощные решения предназначены для работы в универсальных домашних конфигурациях.
При разработке гибридных процессоров Llano инженеры AMD применили новый подход к управлению электропитанием, который теперь заключается в гибком управлении энергопотреблением отдельных функциональных блоков в рамках жестких ограничений теплового пакета. Благодаря возможности отключения неиспользуемых узлов появилась возможность увеличивать быстродействие тех вычислительных устройств, на которые приходится наибольшая нагрузка. Эта функция называется Turbo Core, она уже знакома благодаря процессорам AMD Phenom II X6, но в данном случае используется несколько другой алгоритм. Тактовая частота и напряжение процессорных ядер будут увеличиваться до тех пор, пока тепловыделение остается в заданных рамках. За работу данной функции отвечает отдельный аппаратный блок P-state manager, так что её функционирование не зависит от операционной системы. Благодаря технологии AMD Turbo Core некоторые из процессоров Llano способны увеличивать свою тактовую частоту на 300 МГц, что самым положительным образом должно сказаться на их производительности.
Один из ключевых моментов архитектуры процессоров Llano — организация взаимодействия между функциональными блоками. Для связи графического ядра и северного моста используется высокоскоростная шина Radeon Memory Bus, её пропускная способность составляет 29,8 Гбайт/с, в точности, как у двухканальной памяти DDR3 1866 МГц.
В дополнение к этому, имеется шина Fusion Compute Link (FCL), которая должна обеспечивать прямой доступ GPU к оперативной памяти. По своей природе FCL близка к хорошо известной шине HyperTransport, она использует похожий протокол на физическом уровне, но имеет параллельную организацию. Очевидно, такое решение должно улучшить производительность APU в некоторых типах задач.