Усовершенствования, которые принесет переход на новый техпроцесс, интересно рассмотреть с позиций количественного сравнения. Например, четырехъядерные процессоры Penryn будут включать около 820 млн. транзисторов, которые разместятся на двух кристаллах площадью 107 мм2. Для сравнения, современные четырехъядерные процессоры Intel Kentsfield имеют 582 млн. транзисторов, при этом площади кристаллов четырехъядерных процессоров, выпускающихся по 65-нм нормам, составляют 143 мм2.
Новшества, которые принесет следующее поколение процессоров, можно рассматривать по отношению к пяти современным технологиям Intel: Wide Dynamic Execution, Advanced Smart Cache, Smart Memory Access, Advanced Digital Media Boost, Intelligent Power Capability.
Механизм Wide Dynamic Execution обеспечивает выполнение большего числа команд за один тактовый цикл, что увеличивает производительность и помогает добиться повышения энергоэффективности. В рамках этой технологии компания Intel представит усовершенствованный более быстрый блок деления, основанный на базе методики radix-16, а также улучшенную технологию виртуализации Enhanced Intel Virtualization Technology. Инновационная архитектура на базе radix-16 позволит существенно уменьшить задержки при выполнении целочисленных операций деления, а также операций деления с плавающей запятой.
Технология Advanced Smart Cache нацелена на обеспечение более высокой производительности и эффективности кэш-памяти. В процессорах семейства Penryn компания Intel решила увеличить объем кэша. Так, двухъядерные процессоры будут оснащаться кэшем L2 емкостью до 6 Мб, а отдельные четырехъядерные модели обзаведутся 12-Мб (
!!!) кэш-памятью. О частотных характеристиках пока говорится в ключе преодоления планки 3 ГГц.
В рамках технологии Smart Memory Access говорится об увеличении пропускной способности шины. Подтверждается информация об освоении шины FSB 1600 МГц. Сообщается, что шина FSB 1600 МГц появится в некоторых моделях процессоров для серверов и рабочих станций; когда будут выпущены модели с высокоскоростной шиной для настольных ПК, пока не уточняется.
Технология Advanced Digital Media Boost применяется для ускорения обработки видео, изображения и речевых потоков. Для повышения производительности при обработке медиаданных Intel решила добавить к архитектуре ISA набор расширений SSE4 (Streaming SIMD Extensions 4), который станет доступным для большинства массовых секторов рынка ПК с появлением 45-нм процессоров. Этот новый набор команд включает множество инновационных инструкций (их насчитывается около 50), которые условно можно разделить на две группы:
Примитивы векторизации для компиляторов и ускорители мультимедийных приложений;
Ускорители обработки строк и текстовой информации.
Пожалуй, на SSE4 остановлюсь детальнее, поскольку технология является одним из ключевых нововведений. Для начала опишем приложения, которые затронет это усовершенствование. Улучшения коснутся графики, кодирования и обработки видео, создания трехмерных изображений, игр, Web-серверов, серверов приложений. Как утверждает Intel, увеличится производительность приложений с высокой интенсивностью вычислений - анализа хранилищ данных, СУБД, сложных алгоритмов поиска и сопоставления, алгоритмов сжатия звука, видео, изображений и данных, алгоритмов синтаксического анализа и анализа логических состояний, а также многих других.
По словам Intel, SSE4 – самое масштабное и значительное расширение архитектуры Intel ISA со времени появления SSE2. Набор команд SSE4 содержит несколько примитивов векторизации для компиляторов, обеспечивающих дальнейшее увеличение производительности и эффективности мультимедийных приложений. Имеются также и новые инновационные инструкции для обработки строк.
Еще одним усовершенствованием является механизм перестановок - Super Shuffle Engine. Новый блок умеет выполнять перестановки значений сразу во всем 128-разрядном регистре за один такт. Это существенно повышает производительность при обработке операций, связанных с перестановкой (упаковка, распаковка, сдвиг упакованных значений, вставка). Сравнение количества тактов, нужных для выполнения базовых операций SSE, приведено на диаграмме. В среднем наблюдается двукратное увеличение производительности.
Интересные новшества касаются уменьшения уровня потребления мощности и увеличения показателя «производительность на ватт». В связи с этим Intel представила две новые технологии: Deep Power Down Technology и Enhanced Dynamic Acceleration Technology.
Технология Deep Power Down Technology будет внедрена, в первую очередь, в процессоры для мобильных платформ (Mobile Penryn). Для понижения энергопотребления в режиме бездействия добавлено еще одно особое состояние процессора, именуемое как Deep Power Down Technology State, или C6. В этом режиме предусмотрено отключение ядер, при этом также полностью отключается кэш-память. Это позволяет существенно понизить напряжение ядра и потребляемой мощности, что, в свою очередь, увеличивает время работы батареи.
Интересным нововведением является технология Enhanced Dynamic Acceleration Technology (EDAT). Её идея состоит в следующем. Для простоты возьмем случай с двухъядерным процессором. Поскольку в однопоточных приложениях от многоядерности толку мало, основную роль здесь играет производительность отдельно взятого ядра. Поэтому Intel предусмотрела увеличение частоты работающего ядра (non-idle core), в то время как второе (idle core) находится в одном из состояний бездействия (C3-C6) и его тепловыделение резко сокращается. Эту разницу использует работающее ядро и повышает свою частоту до достижения процессором граничного уровня TDP. Для наглядности приводим следующую иллюстрацию.
Теперь об уровне TDP 45-нм процессоров. К сожалению, пока нет данных о тепловыделении мобильных чипов. Двухъядерные Penryn для настольных ПК попадут в энергетический класс 65 Вт, а для их четырехъядерных родственников предусмотрены тепловые пакеты 95 и 130 Вт. В серверном сегменте для двухъядерных Intel Xeon уровни TDP составят 40, 65 и 80 Вт, а для четырехъядерных – 50, 80 и 120 Вт.
Согласно внутренним тестам Intel, в игровых приложениях наблюдается 20-ти процентный прирост производительности новых чипов, а в операциях с декодированием видео (при условии использования SSE4) – более 40% прирост. Если сравнивать серверный процессор Penryn с частотой более 3 ГГц и самый мощный четырехъядерный Xeon (Xeon X5355, 2,66 ГГц, FSB 1333 МГц), прирост в приложениях, интенсивно использующих операции с плавающей запятой и чувствительных к пропускной способности, составит около 45%.
А вот собственно и фотография самого кристала Penryn: