Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.

Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть

Презентация на тему Программирование процессора Cell

Содержание

2. Сравнение современных процессоров
3. Реализации систем на базе CellRoadrunner – самый
4. Реализации систем на базе CellСистемы на базе Cell – самые «зеленые»
5. Реализации систем на базе CellПродукты IBMIBM BladeCenter
7. Sony PlayStation3 в ИВМиМГ в отделе МО
8. ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и
9. Структура обычного многоядерного узлаВсе ядра в узле равноправныеКластер МВС-100К (Москва)Кластер НКС-30Т (Новосибирск)
10. Структура процессора CellМногоядерный процессор CellPower Processor Element
11. Структура процессора Cell1 ядро PPEядро общего назначения
12. Виды параллелизма в процессоре CellМногоядерность. Независимые задачи,
13. Виды параллелизма в процессоре CellМногоядерность. Независимые задачи,
14. Виды параллелизма в процессоре CellМногоядерность. Независимые задачи,
15. Модель памятиОбщее адресное пространствоPPE…Обычные операции чтения и
16. Сравнение подсистем памятиОбычная иерархия памятиИерархия памяти ядра SPE
17. Сравнение подсистем памятиОбычная иерархия памятиЯдро может обращаться
18. Сравнение подсистем памятиИерархия памяти ядра SPEЯдро SPE
19. Выполнение обменов на фоне вычисленийвремяLoad 1Count 1Store
20. ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и
21. Программирование CellДля организации вычислений на Cell необходимо:Разделить
22. Сравнение параллельных вычислений на Cell с «традиционными»
23. Сравнение параллельных вычислений на Cell с «традиционными»
24. Кластер + библиотека MPIНа каждом узле работает
25. Сравнение параллельных вычислений на Cell с «традиционными»
26. PPEFunction offload model{…matrix a, b, c;multiply(a, b,
27. SPESPESPESPEPPEПортфель задачwork() { … }work() { …
28. SPESPESPESPEPPEПотоковый конвейерstep1() { … }step2() { …
29. Взаимодействующие процессы с общей памятьюSPEPPESPESPESPESPESPESPESPEОбщая памятьМодели программирования процессора Cell
30. Взаимодействующие процессы с распределенной памятьюSPEPPESPESPESPESPESPESPESPEПамять PPEМодели программирования процессора Cell
31. ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и
32. Библиотека libspe2LibSPE предоставляет интерфейс к базовым средствам
33. Библиотека libspe2: Программа «Hello, World!»Программа для PPE
34. Библиотека libspe2: Программа «Hello, World!»main(){ …}main(){ …}spu_prog.cspu-gcc
35. Создание параллельной программы для Cell:В программе на
36. Программа для PPE многопоточная#include #include #define NTHREADS
37. ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и
38. DMA-передача – блок данных до 16 KB:Операция
39. DMA-передача данныхМожет запускаться и на PPE, и на SPEОбщее адресное пространствоSPESPESPESPEМеханизмы передачи данных и сообщений
40. DMA-передача данныхМожет запускаться и на PPE, и на SPEОбщее адресное пространствоSPESPESPESPEМеханизмы передачи данных и сообщений
41. DMA-передача данныхМожет запускаться и на PPE, и на SPEОбщее адресное пространствоSPESPESPESPEМеханизмы передачи данных и сообщений
42. DMA-передача данныхБлоки данных должны быть выровнены в
43. DMA-передача данныхЧтобы упорядочить выполнение передач, используются специальные
44. Программа для SPE// GET: Передача данных из
45. Mailbox: передача 4-байтовых сообщенийPPESPEspe_in_mbox_write()spu_read_in_mbox()spe_out_mbox_read()spu_write_out_mbox()spe_out_mbox_status()spe_in_mbox_status()spu_stat_in_mbox()spu_stat_out_mbox()блокированные передачинеблокированные передачиinoutМеханизмы передачи данных и сообщений
46. Mailbox: передача 4-байтовых сообщенийSignal: передача 4-байтовых сообщенийPPESPEspe_in_mbox_write()spu_read_in_mbox()spe_out_mbox_read()spu_write_out_mbox()spe_out_mbox_status()spe_in_mbox_status()spu_stat_in_mbox()spu_stat_out_mbox()PPESPEspe_signal_write()spu_read_signal1()spu_stat_signal1()spu_stat_signal2()spe_signal_write()spu_read_signal2()блокированные передачинеблокированные передачиinoutsig1sig2Механизмы передачи данных и сообщений
47. Фрагмент программы для PPE…while ( spe_out_mbox_status(spe) ==
48. Локальная память SPE отображается в общее адресное
49. Регистры mailbox-ов и сигналов SPE отображаются в
50. ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и
51. Все регистры SPE векторные длиной 16 байт.Все
52. Локальная память SPEОбъем локальной памяти для данных
53. Векторные типы данных
54. Векторные типы данныхЭлементы векторных типов данных выравниваются
55. Команды уровня компилятораДля манипуляции векторными данными используются
56. Операции над векторамиАрифметические операции над элементами векторов:d
57. Операции над векторамиОперации преобразования скалярных и векторных
58. Операции над векторамиОперации для манипулирования элементами векторов:Сдвиг,
59. void mulv (float *a, float *b, float
60. Особенности векторизации вычисленийПростой пример:for (i=0; i
61. Особенности векторизации вычисленийОперанды должны быть приведены к одному типуПример:int a[n];short int b[n];for (i=0; i
62. Особенности векторизации вычисленийОперанды должны быть выровнены друг относительно друга
63. Особенности реализации скалярных вычисленийПри выполнении операции над
64. Оптимизация целочисленной арифметикиНа SPE отсутствует 32-битное умножение.Используйте
65. Оптимизация условных переходовУстранение условных переходовПодсказка компилятору
66. ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и
67. Средства программирования процессоров CellСредства от IBM (IBM
68. СсылкиIBM Cell Broadband Engine resource center, http://www.ibm.com/developerworks/power/cell/documents.htmlCell
69. Скачать презентацию
70. Похожие презентации

Сравнение современных процессоров

Главная
Информатика
Программирование процессора Cell

Программирование процессора CellКиреев С.Е.Летняя школа по параллельному программированию, Новосибирск, 28 августа 2009

Реализации систем на базе CellRoadrunner – самый мощный суперкомпьютер в мире на

Реализации систем на базе CellСистемы на базе Cell – самые «зеленые»

Реализации систем на базе CellПродукты IBMIBM BladeCenter QS 212 × Cell B.E.

Sony PlayStation3 в ИВМиМГ в отделе МО ВВС1 процессор CELL B.E. 3.2

ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и компиляция простых программМеханизмы передачи данных

Структура обычного многоядерного узлаВсе ядра в узле равноправныеКластер МВС-100К (Москва)Кластер НКС-30Т (Новосибирск)

Структура процессора CellМногоядерный процессор CellPower Processor Element – ядро общего назначения (главное)Synergistic

Структура процессора Cell1 ядро PPEядро общего назначения (PowerPC, 2 потока)выполняет код операционной

Виды параллелизма в процессоре CellМногоядерность. Независимые задачи, которые могут быть выполнены одновременно

Модель памятиОбщее адресное пространствоPPE…Обычные операции чтения и записи данных(read / write)Отображение локальной

Сравнение подсистем памятиОбычная иерархия памятиИерархия памяти ядра SPE

Сравнение подсистем памятиОбычная иерархия памятиЯдро может обращаться к данным в оперативной памятиПосле

Сравнение подсистем памятиИерархия памяти ядра SPEЯдро SPE может обращаться к данным в

Выполнение обменов на фоне вычисленийвремяLoad 1Count 1Store 1Load 2Count 2Store 2времяLoad 1Count

Программирование CellДля организации вычислений на Cell необходимо:Разделить задачу на независимые фрагменты для

Сравнение параллельных вычислений на Cell с «традиционными» подходамиSMP-узел + потоки (OpenMP, PThreads,

Кластер + библиотека MPIНа каждом узле работает один или несколько процессовДанные распределены

Сравнение параллельных вычислений на Cell с «традиционными» подходамиУзел на базе процессоров CellНа

PPEFunction offload model{…matrix a, b, c;multiply(a, b, c);}SPEmultiply(){ …}mul(){ … }Статическое или

SPESPESPESPEPPEПортфель задачwork() { … }work() { … }work() { … }work() {

SPESPESPESPEPPEПотоковый конвейерstep1() { … }step2() { … }step4() { … }step3() {

Взаимодействующие процессы с общей памятьюSPEPPESPESPESPESPESPESPESPEОбщая памятьМодели программирования процессора Cell

Взаимодействующие процессы с распределенной памятьюSPEPPESPESPESPESPESPESPESPEПамять PPEМодели программирования процессора Cell

Библиотека libspe2LibSPE предоставляет интерфейс к базовым средствам программирования процессора Cell, реализованным аппаратно.Разработка

Библиотека libspe2: Программа «Hello, World!»Программа для PPE (ppu_prog.c)#include extern spe_program_handle_t spu_hello;int main

$Библиотека libspe2: Программа «Hello, World!»main(){ …}main(){ …}spu_prog.cspu-gcc -o spu_prog spu_prog.cspu_progКомпиляция программы для$ Создание параллельной программы для Cell:В программе на PPE создать несколько параллельных потоков,В

Создание параллельной программы для Cell:В программе на PPE создать несколько параллельных потоков,В

Программа для PPE многопоточная#include #include #define NTHREADS 40extern spe_program_handle_t spu_hello;void *thread_func (void

DMA-передача – блок данных до 16 KB:Операция Get: общая память ? память SPEОперация

DMA-передача данныхМожет запускаться и на PPE, и на SPEОбщее адресное пространствоSPESPESPESPEМеханизмы передачи данных и сообщений

DMA-передача данныхБлоки данных должны быть выровнены в памяти по границе 16 байт.Размер

DMA-передача данныхЧтобы упорядочить выполнение передач, используются специальные варианты команд get и put:Barrier: getb,

Программа для SPE// GET: Передача данных из PPE в SPEvoid get (void

Mailbox: передача 4-байтовых сообщенийPPESPEspe_in_mbox_write()spu_read_in_mbox()spe_out_mbox_read()spu_write_out_mbox()spe_out_mbox_status()spe_in_mbox_status()spu_stat_in_mbox()spu_stat_out_mbox()блокированные передачинеблокированные передачиinoutМеханизмы передачи данных и сообщений

Mailbox: передача 4-байтовых сообщенийSignal: передача 4-байтовых сообщенийPPESPEspe_in_mbox_write()spu_read_in_mbox()spe_out_mbox_read()spu_write_out_mbox()spe_out_mbox_status()spe_in_mbox_status()spu_stat_in_mbox()spu_stat_out_mbox()PPESPEspe_signal_write()spu_read_signal1()spu_stat_signal1()spu_stat_signal2()spe_signal_write()spu_read_signal2()блокированные передачинеблокированные передачиinoutsig1sig2Механизмы передачи данных и сообщений

Фрагмент программы для PPE…while ( spe_out_mbox_status(spe) == 0 ); // ожидание данных в

Локальная память SPE отображается в общее адресное пространство.Обращение SPE к заданному участку

Регистры mailbox-ов и сигналов SPE отображаются в общее адресное пространство.Запись/чтение заданного элемента

Все регистры SPE векторные длиной 16 байт.Все арифметические инструкции являются параллельными по

Локальная память SPEОбъем локальной памяти для данных и кода: 256 KBЧтение и

Векторные типы данныхЭлементы векторных типов данных выравниваются автоматически.Элементы других типов можно выравнивать

Команды уровня компилятораДля манипуляции векторными данными используются intrinsics – встроенные в компилятор

Операции над векторамиАрифметические операции над элементами векторов:d = spu_add(a,b);d = spu_sub(a, b);d

Операции над векторамиОперации преобразования скалярных и векторных данных:d = spu_insert(s, v, n);d

Операции над векторамиОперации для манипулирования элементами векторов:Сдвиг, вращение элементовd = spu_rl(a, count);d

void mulv (float *a, float *b, float *c, int n){ int i,

Особенности векторизации вычисленийПростой пример:for (i=0; i

Особенности векторизации вычисленийОперанды должны быть приведены к одному типуПример:int a[n];short int b[n];for (i=0; i

Особенности векторизации вычисленийОперанды должны быть выровнены друг относительно друга

Особенности реализации скалярных вычисленийПри выполнении операции над скалярными переменными в памяти происходит

Оптимизация целочисленной арифметикиНа SPE отсутствует 32-битное умножение.Используйте short int вместо int, где

Оптимизация условных переходовУстранение условных переходовПодсказка компилятору

Средства программирования процессоров CellСредства от IBM (IBM Cell SDK)Библиотека libspe 2.0Библиотеки векторизованых

СсылкиIBM Cell Broadband Engine resource center, http://www.ibm.com/developerworks/power/cell/documents.htmlCell Developer's Corner, http://www.power.org/resources/devcorner/cellcornerSTI Center of

Слайды презентации

Слайд 2 Сравнение современных процессоров

Слайд 3 Реализации систем на базе Cell
Roadrunner – самый мощный

Реализации систем на базе CellRoadrunner – самый мощный суперкомпьютер в мире

суперкомпьютер в мире на базе процессоров Opteron и Cell

Слайд 4 Реализации систем на базе Cell
Системы на базе Cell

– самые «зеленые»

Слайд 5 Реализации систем на базе Cell
Продукты IBM
IBM BladeCenter QS

Реализации систем на базе CellПродукты IBMIBM BladeCenter QS 212 × Cell

21
2 × Cell B.E. 3.2 GHz
IBM BladeCenter QS 22
2

× PowerXCell 8i 3.2 GHz
2 × PowerXCell 8i 4.0 GHz

Продукты Mercury Computer Systems
Mercury Dual Cell Based System 2
2 × Cell B.E. 3.2 GHz
Mercury Dual Cell Based Blade 2
2 × Cell B.E. 3.2 GHz
Mercury PCI Express Cell Accelerator Board 2
1 × Cell B.E. 2.8 GHz

Продукты Fixstars
Fixstars GagaAccell 180 Accelerator Board
1 × PowerXCell 8i 2.8 GHz

Продукты Т-Платформы
PeakCell S
2 × PowerXCell 8i 3.2 GHz
PeakCell W
2 × PowerXCell 8i 3.2 GHz
PeakCell YPS
4 × PowerXCell 8i 3.2 GHz

Слайд 6

Слайд 7 Sony PlayStation3 в ИВМиМГ в отделе МО ВВС
1 процессор

Sony PlayStation3 в ИВМиМГ в отделе МО ВВС1 процессор CELL B.E.

CELL B.E. 3.2 GHz
1 ядро PPE
6 ядер SPE
256 MB

оперативной памяти

Слайд 8 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 9 Структура обычного многоядерного узла
Все ядра в узле равноправные
Кластер

МВС-100К (Москва)
Кластер НКС-30Т (Новосибирск)

Слайд 10 Структура процессора Cell
Многоядерный процессор Cell
Power Processor Element –

Структура процессора CellМногоядерный процессор CellPower Processor Element – ядро общего назначения

ядро общего назначения (главное)
Synergistic Processor Element – векторные ядра

(дополнительные)
Element Interconnect Bus – быстрая шина

Слайд 11 Структура процессора Cell
1 ядро PPE
ядро общего назначения (PowerPC,

Структура процессора Cell1 ядро PPEядро общего назначения (PowerPC, 2 потока)выполняет код

2 потока)
выполняет код операционной системы
управляет ходом вычислений

8 ядер SPE
специализированные

векторные ядра
(особый набор команд)
обеспечивают вычислительную мощность процессора
работают с ограниченной локальной памятью: 256 KB
имеют много регистров: 128

Шина EIB
асинхронная
имеет высокую пропускную способность
обеспечивает большое число одновременных запросов

Слайд 12 Виды параллелизма в процессоре Cell
Многоядерность. Независимые задачи, которые могут

Виды параллелизма в процессоре CellМногоядерность. Независимые задачи, которые могут быть выполнены

быть выполнены одновременно на разных ядрах:
2 аппаратных потока PPE
8

программ SPE

Данные и вычисления необходимо разрезать на фрагменты и распределять между ядрами

Слайд 13 Виды параллелизма в процессоре Cell
Многоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:
2 аппаратных потока PPE
8

программ SPE

Векторизация. Регулярные векторные данные, обработка которых может быть векторизована:
SPE SIMD
PPE VMX

Данные необходимо группировать в вектора и следить за выравниванием

Слайд 14 Виды параллелизма в процессоре Cell
Многоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:
2 аппаратных потока PPE
8

программ SPE

Векторизация. Регулярные векторные данные, обработка которых может быть векторизована:
SPE SIMD
PPE VMX

Асинхронная передача данных

Необходимо использовать специальные алгоритмы для совмещения передач данных и вычислений

Слайд 15 Модель памяти
Общее адресное пространство
PPE
…
Обычные операции чтения и записи

Модель памятиОбщее адресное пространствоPPE…Обычные операции чтения и записи данных(read / write)Отображение

данных
(read / write)
Отображение локальной памяти SPE
Локальная память SPE
Явные операции

передачи данных
(put / get)

SPE

…

Обычные операции чтения и записи данных (read / write)

Отображение локальной памяти SPE

Локальная память SPE

SPE

Слайд 16 Сравнение подсистем памяти

Обычная иерархия памяти
Иерархия памяти ядра SPE

Слайд 17 Сравнение подсистем памяти
Обычная иерархия памяти
Ядро может обращаться к

Сравнение подсистем памятиОбычная иерархия памятиЯдро может обращаться к данным в оперативной

данным в оперативной памяти
После запроса данные из памяти придут

неизвестно когда
Гарантировать приход данных вовремя можно с помощью:
Правильного порядка обращений к данным
Предвыборки

Кэш

Оперативная
память

Данные

Запрос данных

Обычное
процессорное ядро

Запрос данных

Данные

Слайд 18 Сравнение подсистем памяти
Иерархия памяти ядра SPE
Ядро SPE может

Сравнение подсистем памятиИерархия памяти ядра SPEЯдро SPE может обращаться к данным

обращаться к данным в локальной памяти
Ядро может отправлять запрос

на перемещение данных из оперативной в локальную память (или обратно) и проверять его завершение
Данные из локальной памяти доступны за константное время

Оперативная
память

Данные

Запрос на копирование данных

Запрос данных

Данные

Ядро SPE

локальная
память
SPE

Слайд 19 Выполнение обменов на фоне вычислений
время
Load 1
Count 1
Store 1
Load

Выполнение обменов на фоне вычисленийвремяLoad 1Count 1Store 1Load 2Count 2Store 2времяLoad

2
Count 2
Store 2
время
Load 1
Count 1
Store 1
Load 2
Count 2
Store 2
Count

Load 3

Load 4

Count 4

Store 3

Вычисления с одним буфером на SPE

Вычисления с двумя буферами на SPE

Load – копирование данных в память SPE
Count – выполнение вычислений
Store – копирование результата из памяти SPE

Слайд 20 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 21 Программирование Cell
Для организации вычислений на Cell необходимо:

Разделить задачу

Программирование CellДля организации вычислений на Cell необходимо:Разделить задачу на независимые фрагменты

на независимые фрагменты для обработки на ядрах SPE

Организовать передачу

данных между ядрами на одновременно с вычислениями

Выполнить векторизацию вычислений на ядрах SPE

Слайд 22 Сравнение параллельных вычислений на Cell с «традиционными» подходами
SMP-узел

Сравнение параллельных вычислений на Cell с «традиционными» подходамиSMP-узел + потоки (OpenMP,

+ потоки (OpenMP, PThreads, …)

Кластер + библиотека MPI

Узел на

базе процессоров Cell

Слайд 23 Сравнение параллельных вычислений на Cell с «традиционными» подходами
SMP-узел

+ потоки (OpenMP, PThreads, …)
На одном узле работают несколько

потоков исполнения
Данные одинаково доступны всем потокам
Каждый поток выполняет свою часть работы над общими данными

Данные обрабатываются в том месте, где они хранятся

4-core SMP

Слайд 24 Кластер + библиотека MPI
На каждом узле работает один

Кластер + библиотека MPIНа каждом узле работает один или несколько процессовДанные

или несколько процессов
Данные распределены по процессам
Каждый процесс выполняет свою

часть работы над своими данными
Процессы обмениваются сообщениями

Сравнение параллельных вычислений на Cell с «традиционными» подходами

Данные обрабатываются в том месте, где они хранятся

C
L
U
S
T
E
R

Слайд 25 Сравнение параллельных вычислений на Cell с «традиционными» подходами
Узел

Сравнение параллельных вычислений на Cell с «традиционными» подходамиУзел на базе процессоров

на базе процессоров Cell
На ядре PPE работает главный поток
На

ядрах SPE работают вычислительные потоки
копируют блоки данных из общей памяти в локальную память ядра
производят вычисления над данными в локальной памяти
копируют результаты в общую память

PPE

SPE

Для обработки данные необходимо скопировать в локальную память ядер SPE

Слайд 26 PPE
Function offload model
{…
matrix a, b, c;
multiply(a, b, c);
}
SPE
multiply()
{

PPEFunction offload model{…matrix a, b, c;multiply(a, b, c);}SPEmultiply(){ …}mul(){ … }Статическое

…
}

mul()
{ … }
Статическое или динамическое распределение подзадач
Модели программирования процессора

Cell

Слайд 27 SPE
SPE
SPE
SPE
PPE
Портфель задач
work() { … }
work() { … }
work()

{ … }
work() { … }
Task
Task
Task
Task
Task
Task
main()
{ …
AddTask();
…
}
Task
Очередь

задач

Модели программирования процессора Cell

Слайд 28 SPE
SPE
SPE
SPE
PPE
Потоковый конвейер
step1() { … }
step2() { … }
step4()

{ … }
step3() { … }
Input
data
Output
data
main()
{ …
make_input();
…

get_output();
…
}

Модели программирования процессора Cell

Слайд 29 Взаимодействующие процессы с общей памятью
SPE
PPE

SPE

SPE

SPE

SPE

SPE

SPE

SPE

Общая память

Модели программирования процессора

Cell

Слайд 30 Взаимодействующие процессы с распределенной памятью
SPE
PPE

SPE

SPE

SPE

SPE

SPE

SPE

SPE

Память PPE
Модели программирования процессора

Cell

Слайд 31 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 32 Библиотека libspe2
LibSPE предоставляет интерфейс к базовым средствам программирования

Библиотека libspe2LibSPE предоставляет интерфейс к базовым средствам программирования процессора Cell, реализованным

процессора Cell, реализованным аппаратно.
Разработка программы:
Создается отдельная программа для PPE,
Создается

отдельная программа для SPE,
PPE-программа запускает SPE-программу,
SPE-программа может вызвать callback-функцию вызвавшей ее PPE-программы.

Слайд 33 Библиотека libspe2: Программа «Hello, World!»
Программа для PPE (ppu_prog.c)
#include
extern

Библиотека libspe2: Программа «Hello, World!»Программа для PPE (ppu_prog.c)#include extern spe_program_handle_t spu_hello;int

spe_program_handle_t spu_hello;
int main ()
{
unsigned int entry = SPE_DEFAULT_ENTRY;

spe_context_ptr_t spe;

spe = spe_context_create (0, NULL);
spe_program_load (spe, &spu_hello);
spe_context_run (spe, &entry, 0, (void *) 10, (void *) 20, NULL);
spe_context_destroy (spe);

return 0;
}

Программа для SPE (spu_prog.c)
#include
int main (unsigned long long spe, unsigned long long argp, unsigned long long envp)
{
printf("Hello, World! (%llu,%llu)\n", argp, envp);
return 0;
}

Слайд 34
Библиотека libspe2: Программа «Hello, World!»
main()
{
…
}
main()
{
…
}
spu_prog.c
spu-gcc -o spu_prog

$Библиотека libspe2: Программа «Hello, World!»main(){ …}main(){ …}spu_prog.cspu-gcc -o spu_prog spu_prog.cspu_progКомпиляция программы$

spu_prog.c

spu_prog
Компиляция программы для Cell:
ppu_prog.c
spu_hello

ppu-embedspu spu_hello spu_prog spu_prog.o
ppu-gcc -o prog

ppu_prog.c spu_prog.o -lspe2

spu_prog.o

prog

Исполняемый файл для SPE

Исполняемый файл для PPE+SPE

Слайд 35

Создание параллельной программы для Cell:
В программе на PPE

Создание параллельной программы для Cell:В программе на PPE создать несколько параллельных

создать несколько параллельных потоков,
В потоках запустить программы на SPE.
main()
{

…
…
…
…
}

thread_func() { … }

pthread_create()

main() { … }

SPE

run()

PPE

Библиотека libspe2: Многопоточная программа «Hello, World!»

Слайд 36 Программа для PPE многопоточная
#include
#include
#define NTHREADS 40
extern

Программа для PPE многопоточная#include #include #define NTHREADS 40extern spe_program_handle_t spu_hello;void *thread_func

spe_program_handle_t spu_hello;

void thread_func (void data)
{
unsigned int entry =

SPE_DEFAULT_ENTRY;
spe_context_ptr_t spe;
spe = spe_context_create (0,NULL);
spe_program_load (spe, &spu_hello);
spe_context_run (spe, &entry, 0, (void *)data, (void *)NTHREADS, NULL);
spe_context_destroy (spe);
return 0;
}

int main ()
{ pthread_t tid [NTHREADS];
unsigned long i;
for (i=0;i // Параллельная часть
for (i=0;i return 0;
}

Библиотека libspe2: Многопоточная программа «Hello, World!»

Слайд 37 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 38 DMA-передача – блок данных до 16 KB:
Операция Get: общая

DMA-передача – блок данных до 16 KB:Операция Get: общая память ? память

память ? память SPE
Операция Put: память SPE ? общая память
Mailbox-ы

– очереди 32-битных сообщений:
SPE in (4)
SPE out (1)
SPE out interrupt (1)
Сигналы – 32-битные сообщения:
Только к SPE

Механизмы передачи данных и сообщений

Слайд 39 DMA-передача данных
Может запускаться и на PPE, и на

SPE
Общее адресное пространство
SPE

SPE

SPE

SPE

Механизмы передачи данных и сообщений

Слайд 40 DMA-передача данных
Может запускаться и на PPE, и на

SPE
Общее адресное пространство
SPE

SPE

SPE

SPE

Механизмы передачи данных и сообщений

Слайд 41 DMA-передача данных
Может запускаться и на PPE, и на

SPE
Общее адресное пространство
SPE

SPE

SPE

SPE

Механизмы передачи данных и сообщений

Слайд 42 DMA-передача данных
Блоки данных должны быть выровнены в памяти

DMA-передача данныхБлоки данных должны быть выровнены в памяти по границе 16

по границе 16 байт.
Размер передаваемых данных может быть 1,2,4,8,16

или 16*N байтов.
Для идентификации группы DMA-передач используются 5-битные DMA-тэги.
Тэг позволяет проверить статус или дождаться завершения соответствующей группы DMA-передач.

Механизмы передачи данных и сообщений

Слайд 43 DMA-передача данных
Чтобы упорядочить выполнение передач, используются специальные варианты

DMA-передача данныхЧтобы упорядочить выполнение передач, используются специальные варианты команд get и

команд get и put:
Barrier: getb, putb
Fence: getf, putf
Механизмы передачи данных и

сообщений

время

Слайд 44 Программа для SPE

// GET: Передача данных из PPE

Программа для SPE// GET: Передача данных из PPE в SPEvoid get

в SPE
void get (void *dest_lsa, unsigned long long sour_ea,

unsigned long size)
{
int tag=mfc_tag_reserve(), mask=1<
mfc_get (dest_lsa, sour_ea, size, tag, 0, 0); // запуск передачи данных
mfc_write_tag_mask (mask);
mfc_read_tag_status_any(); // ожидание завершения передачи

mfc_tag_release(tag);
}

// PUT: Передача данных из SPE в PPE
void put (void *sour_lsa, unsigned long long dest_ea, unsigned long size)
{
int tag=mfc_tag_reserve(), mask=1<
mfc_put (sour_lsa, dest_ea, size, tag, 0, 0); // запуск передачи данных
mfc_write_tag_mask (mask);
mfc_read_tag_status_any(); // ожидание завершения передачи

mfc_tag_release();
}

Библиотека libspe 2.0: Пример передачи данных DMA

Слайд 45 Mailbox: передача 4-байтовых сообщений

PPE
SPE

spe_in_mbox_write()
spu_read_in_mbox()
spe_out_mbox_read()
spu_write_out_mbox()
spe_out_mbox_status()
spe_in_mbox_status()
spu_stat_in_mbox()
spu_stat_out_mbox()
блокированные передачи
неблокированные передачи
in
out
Механизмы передачи данных

и сообщений

Слайд 46 Mailbox: передача 4-байтовых сообщений

Signal: передача 4-байтовых сообщений
PPE
SPE

spe_in_mbox_write()
spu_read_in_mbox()
spe_out_mbox_read()
spu_write_out_mbox()
spe_out_mbox_status()
spe_in_mbox_status()
spu_stat_in_mbox()
spu_stat_out_mbox()
PPE
SPE
spe_signal_write()
spu_read_signal1()
spu_stat_signal1()
spu_stat_signal2()
spe_signal_write()
spu_read_signal2()

блокированные передачи
неблокированные

передачи
in
out
sig1
sig2
Механизмы передачи данных и сообщений

Слайд 47 Фрагмент программы для PPE

…
while ( spe_out_mbox_status(spe) == 0

Фрагмент программы для PPE…while ( spe_out_mbox_status(spe) == 0 ); // ожидание данных

); // ожидание данных в очереди
spe_out_mbox_read(spe ,&data ,1); // чтение одного

элемента из очереди
data++; // изменение данных
spe_signal_write(spe, SPE_SIG_NOTIFY_REG_1, data); // запись в регистр сигнала 1
…

Фрагмент программы для SPE

…
spu_write_out_mbox(data); // запись элемента данных в очередь
data=spu_read_signal1(); // чтение данных из регистра сигнала 1
…

Библиотека libspe 2.0: Программа «Ping-pong»

Слайд 48 Локальная память SPE отображается в общее адресное пространство.
Обращение

Локальная память SPE отображается в общее адресное пространство.Обращение SPE к заданному

SPE к заданному участку адресного пространства позволяет обращаться к

памяти другого SPE.

Адресное пространство

SPE

spe_ls_area_get()

Передача данных между SPE

Слайд 49 Регистры mailbox-ов и сигналов SPE отображаются в общее

Регистры mailbox-ов и сигналов SPE отображаются в общее адресное пространство.Запись/чтение заданного

адресное пространство.
Запись/чтение заданного элемента адресного пространства позволяет одному SPE

отправлять и получать сообщения другого SPE.

Адресное пространство

SPE

spe_ps_area_get()

put

get

Передача сообщений между SPE

Слайд 50 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 51 Все регистры SPE векторные длиной 16 байт.
Все арифметические

Все регистры SPE векторные длиной 16 байт.Все арифметические инструкции являются параллельными

инструкции являются параллельными по данным и работают с векторами.
Скалярные

операции выполняются путем соответствующего использования векторных команд.
Скалярные аргументы, необходимые некоторым инструкциям, располагаются в «предпочтительных» позициях вектора:

Программирование вычислений на SPE

Слайд 52 Локальная память SPE
Объем локальной памяти для данных и

Локальная память SPEОбъем локальной памяти для данных и кода: 256 KBЧтение

кода: 256 KB
Чтение и запись локальной памяти всегда выполняется

выровненными блоками размером 16 байт:
Если адрес не выровнен, он автоматически округляется до 16 байт
Защита памяти отсутствует
Можно свободно читать и писать в области данных, кода и стека

Слайд 53 Векторные типы данных

Слайд 54 Векторные типы данных
Элементы векторных типов данных выравниваются автоматически.
Элементы

Векторные типы данныхЭлементы векторных типов данных выравниваются автоматически.Элементы других типов можно

других типов можно выравнивать явно:
unsigned char buffer[1024] attribute ((aligned(16)));
Пример

инициализации векторной переменной:
vector float vf1 = { 1.0, 2.0, 3.0, 4.0 };
vector float vf2[2] = {{1.0, 2.0, 3.0, 4.0}, {5.0, 6.0, 7.0, 8.0}};
vector float vf3[2] = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0};

Слайд 55 Команды уровня компилятора
Для манипуляции векторными данными используются intrinsics

Команды уровня компилятораДля манипуляции векторными данными используются intrinsics – встроенные в

– встроенные в компилятор команды:
Специальные (specific) – отображаются в

одну инструкцию процессора,
Например: d = si_to_int(a);
Обобщенные (generic) – отображаются в одну или несколько инструкций процессора в зависимости от входных параметров,
Например: c = spu_add (a, b);
Составные (built-ins) – последовательности обобщенных и специальных intrinsics (объединенные для удобства).
Например, команды DMA-передачи.

Слайд 56 Операции над векторами
Арифметические операции над элементами векторов:
d =

Операции над векторамиАрифметические операции над элементами векторов:d = spu_add(a,b);d = spu_sub(a,

spu_add(a,b);
d = spu_sub(a, b);
d = spu_madd(a, b, c);
d =

spu_mul(a, b);
…
Логические операции над битами векторов:
d = spu_and(a, b);
d = spu_or(a, b);
d = spu_eqv(a, b);
…
Более сложные операции: библиотека simdmath.

Слайд 57 Операции над векторами
Операции преобразования скалярных и векторных данных:
d

Операции над векторамиОперации преобразования скалярных и векторных данных:d = spu_insert(s, v,

= spu_insert(s, v, n);
d = spu_splats(s);
d = spu_promote(s, n);
s

= spu_extract(v, n);
Операции преобразования типов:
d = spu_convtf(a, scale);
d = spu_convts(a, scale);
d = spu_extend(a);
…

Слайд 58 Операции над векторами
Операции для манипулирования элементами векторов:
Сдвиг, вращение

Операции над векторамиОперации для манипулирования элементами векторов:Сдвиг, вращение элементовd = spu_rl(a,

элементов
d = spu_rl(a, count);
d = spu_sl(a, count);
…
Перестановка элементов векторов
d

= spu_sel(a, b, pattern);
d = spu_shuffle(a, b, pattern);
…

Слайд 59 void mulv (float a, float b, float *c,

void mulv (float *a, float *b, float *c, int n){ int

int n)
{
int i, j, k;
vector float *bv

= (vector float *) b;
vector float *cv = (vector float *) c;
vector float s, t;

s = spu_splats(0.0);
for (i=0; i
for (i=0; i for (k=0; k {
s = spu_splats ( a[i*n+k] );
for (j=0; j { t = spu_mul (s, bv[k*n/4+j] );
cv[i*n/4+j] = spu_add ( cv[i*n/4+j], t );
}
}
}

Пример: векторное умножение матриц

Слайд 60 Особенности векторизации вычислений
Простой пример:
for (i=0; i

Слайд 61 Особенности векторизации вычислений
Операнды должны быть приведены к одному

типу
Пример:
int a[n];
short int b[n];
for (i=0; i

a[i] + b[i];

Слайд 62 Особенности векторизации вычислений
Операнды должны быть выровнены друг относительно

друга

Слайд 63 Особенности реализации скалярных вычислений
При выполнении операции над скалярными

Особенности реализации скалярных вычисленийПри выполнении операции над скалярными переменными в памяти

переменными в памяти происходит следующее:

Чтение векторов, содержащих операнды, в

регистры,
Относительное выравнивание операндов в векторах,
Выполнение операции над векторами,
Чтение вектора, содержащего результат,
Помещение результата в нужную позицию результирующего вектора,
Запись результирующего вектора в память.

Это очень долго!

Слайд 64 Оптимизация целочисленной арифметики
На SPE отсутствует 32-битное умножение.
Используйте short

Оптимизация целочисленной арифметикиНа SPE отсутствует 32-битное умножение.Используйте short int вместо int,

int вместо int, где это возможно.
short int i,k;
for (i=0;

i for (k=0; k x[i*N+k]=i + k;

Слайд 65 Оптимизация условных переходов
Устранение условных переходов

Подсказка компилятору

Слайд 66 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 67 Средства программирования процессоров Cell
Средства от IBM (IBM Cell

Средства программирования процессоров CellСредства от IBM (IBM Cell SDK)Библиотека libspe 2.0Библиотеки

SDK)
Библиотека libspe 2.0
Библиотеки векторизованых операций: SIMD Math Library, MASS

Library, FFT, Game math, Image Processing, Matrix, Vector, Multi-precision math, BLAS, LAPACK, Monte-Carlo
Sync Library: атомарные операции, мьютексы, условные переменные, …
Software managed cache
Распараллеливающие векторизующие компиляторы (OpenMP): xlc, xlf
DaCS – Data Communication and Synchronization library
ALF – Accelerated Library Framework

Другие средства
BSC Cell Superscalar
Mercury Computer Systems: MultiCore Framework
RapidMind
Gedae

Слайд 68 Ссылки
IBM Cell Broadband Engine resource center, http://www.ibm.com/developerworks/power/cell/documents.html
Cell Developer's

Corner, http://www.power.org/resources/devcorner/cellcorner
STI Center of Competence for the Cell Broadband

Engine Processor, http://sti.cc.gatech.edu
Barcelona Supercomputing Center: Cell Superscalar, www.bsc.es/cellsuperscalar
RapidMind Development Platform, www.rapidmind.net
Mercury Computer Systems: MultiCore Framework, http://www.mc.com/software/multicore_framework.aspx

- Предыдущая Звук А

Следующая - Глюкоза

Презентация к уроку-игре по информатике 211

Компьютер 135

Проведение контрольной работы 167

День безопасного Рунета 165

урок для 4 класса 184

Аттестационная работа. Курс по выбору Дополнительные главы по информатике и ИКТ 148

Программное и аппаратное обеспечение компьютера 198

Дополнительные возможности MS PowerPoint 211

Алгоритм командалары 199

Конвертирование данных из текстовых файлов в Ms Exel 201

Пересечение и объединение множеств 251

Функции, функциональное программирование 161

СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ 185

Презентация по информатике на тему Базовые логические элементы ЭВМ (9 класс) 174

HTML - первые шаги 275

Компьютерная графика 227

Программный датчик деформаций MSC 164

Кодирование информации. Двоичное кодирование информации 192

Презинтация к уроку Информация и информационные процессы в живой и неживой природе 214

Элементы теоретического программирования 148

Исследование многообразия видов операционных систем, на которых базируются смартфоны 147

Передача информации в компьютерных сетях 157

Полетно-информационное обслуживание малой авиации 173

Работа с объектами текстового документа 175

Что такое findslide.org?

Обратная связь

Презентация на тему Программирование процессора Cell

Содержание

Слайд 2 Сравнение современных процессоров

Слайд 3 Реализации систем на базе CellRoadrunner – самый мощный

суперкомпьютер в мире на базе процессоров Opteron и Cell

Слайд 4 Реализации систем на базе CellСистемы на базе Cell

– самые «зеленые»

Слайд 5 Реализации систем на базе CellПродукты IBMIBM BladeCenter QS

212 × Cell B.E. 3.2 GHzIBM BladeCenter QS 222

Слайд 6

Слайд 7 Sony PlayStation3 в ИВМиМГ в отделе МО ВВС1 процессор

CELL B.E. 3.2 GHz1 ядро PPE6 ядер SPE256 MB

Слайд 8 ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и компиляция

простых программМеханизмы передачи данных и сообщенийПрограммирование вычислений на SPEБиблиотеки

Слайд 9 Структура обычного многоядерного узлаВсе ядра в узле равноправныеКластер

МВС-100К (Москва)Кластер НКС-30Т (Новосибирск)

Слайд 10 Структура процессора CellМногоядерный процессор CellPower Processor Element –

ядро общего назначения (главное)Synergistic Processor Element – векторные ядра

Слайд 11 Структура процессора Cell1 ядро PPEядро общего назначения (PowerPC,

2 потока)выполняет код операционной системыуправляет ходом вычислений8 ядер SPEспециализированные

Слайд 12 Виды параллелизма в процессоре CellМногоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:2 аппаратных потока PPE8

Слайд 13 Виды параллелизма в процессоре CellМногоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:2 аппаратных потока PPE8

Слайд 14 Виды параллелизма в процессоре CellМногоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:2 аппаратных потока PPE8

Слайд 15 Модель памятиОбщее адресное пространствоPPE…Обычные операции чтения и записи

данных(read / write)Отображение локальной памяти SPEЛокальная память SPEЯвные операции

Слайд 16 Сравнение подсистем памятиОбычная иерархия памятиИерархия памяти ядра SPE

Слайд 17 Сравнение подсистем памятиОбычная иерархия памятиЯдро может обращаться к

данным в оперативной памятиПосле запроса данные из памяти придут

Слайд 18 Сравнение подсистем памятиИерархия памяти ядра SPEЯдро SPE может

обращаться к данным в локальной памятиЯдро может отправлять запрос

Слайд 19 Выполнение обменов на фоне вычисленийвремяLoad 1Count 1Store 1Load

2Count 2Store 2времяLoad 1Count 1Store 1Load 2Count 2Store 2Count

Слайд 20 ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и компиляция

простых программМеханизмы передачи данных и сообщенийПрограммирование вычислений на SPEБиблиотеки

Слайд 21 Программирование CellДля организации вычислений на Cell необходимо:Разделить задачу

на независимые фрагменты для обработки на ядрах SPEОрганизовать передачу

Слайд 22 Сравнение параллельных вычислений на Cell с «традиционными» подходамиSMP-узел

+ потоки (OpenMP, PThreads, …)Кластер + библиотека MPIУзел на

Слайд 23 Сравнение параллельных вычислений на Cell с «традиционными» подходамиSMP-узел

+ потоки (OpenMP, PThreads, …)На одном узле работают несколько

Слайд 24 Кластер + библиотека MPIНа каждом узле работает один

или несколько процессовДанные распределены по процессамКаждый процесс выполняет свою

Слайд 25 Сравнение параллельных вычислений на Cell с «традиционными» подходамиУзел

на базе процессоров CellНа ядре PPE работает главный потокНа

Слайд 26 PPEFunction offload model{…matrix a, b, c;multiply(a, b, c);}SPEmultiply(){

…}mul(){ … }Статическое или динамическое распределение подзадачМодели программирования процессора

Слайд 27 SPESPESPESPEPPEПортфель задачwork() { … }work() { … }work()

{ … }work() { … }TaskTaskTaskTaskTaskTaskmain(){ … AddTask(); …}TaskОчередь

Слайд 28 SPESPESPESPEPPEПотоковый конвейерstep1() { … }step2() { … }step4()

{ … }step3() { … }InputdataOutputdatamain(){ … make_input(); …

Слайд 29 Взаимодействующие процессы с общей памятьюSPEPPESPESPESPESPESPESPESPEОбщая памятьМодели программирования процессора

Cell

Слайд 30 Взаимодействующие процессы с распределенной памятьюSPEPPESPESPESPESPESPESPESPEПамять PPEМодели программирования процессора

Cell

Слайд 31 ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и компиляция

простых программМеханизмы передачи данных и сообщенийПрограммирование вычислений на SPEБиблиотеки

Слайд 32 Библиотека libspe2LibSPE предоставляет интерфейс к базовым средствам программирования

процессора Cell, реализованным аппаратно.Разработка программы:Создается отдельная программа для PPE,Создается

Слайд 33 Библиотека libspe2: Программа «Hello, World!»Программа для PPE (ppu_prog.c)#include extern

spe_program_handle_t spu_hello;int main (){ unsigned int entry = SPE_DEFAULT_ENTRY;

Слайд 34 Библиотека libspe2: Программа «Hello, World!»main(){ …}main(){ …}spu_prog.cspu-gcc -o spu_prog

spu_prog.cspu_progКомпиляция программы для Cell:ppu_prog.cspu_helloppu-embedspu spu_hello spu_prog spu_prog.oppu-gcc -o prog

Слайд 35 Создание параллельной программы для Cell:В программе на PPE

создать несколько параллельных потоков,В потоках запустить программы на SPE.main(){

Слайд 36 Программа для PPE многопоточная#include #include #define NTHREADS 40extern

spe_program_handle_t spu_hello;void *thread_func (void *data){ unsigned int entry =

Слайд 37 ПланАрхитектура процессора CellПринципы программированияБазовые средства программированияСоздание и компиляция

простых программМеханизмы передачи данных и сообщенийПрограммирование вычислений на SPEБиблиотеки

Слайд 38 DMA-передача – блок данных до 16 KB:Операция Get: общая

память ? память SPEОперация Put: память SPE ? общая памятьMailbox-ы

Слайд 39 DMA-передача данныхМожет запускаться и на PPE, и на

SPEОбщее адресное пространствоSPESPESPESPEМеханизмы передачи данных и сообщений

Слайд 40 DMA-передача данныхМожет запускаться и на PPE, и на

SPEОбщее адресное пространствоSPESPESPESPEМеханизмы передачи данных и сообщений

Слайд 41 DMA-передача данныхМожет запускаться и на PPE, и на

Слайд 3 Реализации систем на базе Cell
Roadrunner – самый мощный

Слайд 4 Реализации систем на базе Cell
Системы на базе Cell

Слайд 5 Реализации систем на базе Cell
Продукты IBM
IBM BladeCenter QS

21
2 × Cell B.E. 3.2 GHz
IBM BladeCenter QS 22
2

Слайд 7 Sony PlayStation3 в ИВМиМГ в отделе МО ВВС
1 процессор

CELL B.E. 3.2 GHz
1 ядро PPE
6 ядер SPE
256 MB

Слайд 8 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 9 Структура обычного многоядерного узла
Все ядра в узле равноправные
Кластер

МВС-100К (Москва)
Кластер НКС-30Т (Новосибирск)

Слайд 10 Структура процессора Cell
Многоядерный процессор Cell
Power Processor Element –

ядро общего назначения (главное)
Synergistic Processor Element – векторные ядра

Слайд 11 Структура процессора Cell
1 ядро PPE
ядро общего назначения (PowerPC,

2 потока)
выполняет код операционной системы
управляет ходом вычислений

8 ядер SPE
специализированные

Слайд 12 Виды параллелизма в процессоре Cell
Многоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:
2 аппаратных потока PPE
8

Слайд 13 Виды параллелизма в процессоре Cell
Многоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:
2 аппаратных потока PPE
8

Слайд 14 Виды параллелизма в процессоре Cell
Многоядерность. Независимые задачи, которые могут

быть выполнены одновременно на разных ядрах:
2 аппаратных потока PPE
8

Слайд 15 Модель памяти
Общее адресное пространство
PPE
…
Обычные операции чтения и записи

данных
(read / write)
Отображение локальной памяти SPE
Локальная память SPE
Явные операции

Слайд 16 Сравнение подсистем памяти

Обычная иерархия памяти
Иерархия памяти ядра SPE

Слайд 17 Сравнение подсистем памяти
Обычная иерархия памяти
Ядро может обращаться к

данным в оперативной памяти
После запроса данные из памяти придут

Слайд 18 Сравнение подсистем памяти
Иерархия памяти ядра SPE
Ядро SPE может

обращаться к данным в локальной памяти
Ядро может отправлять запрос

Слайд 19 Выполнение обменов на фоне вычислений
время
Load 1
Count 1
Store 1
Load

2
Count 2
Store 2
время
Load 1
Count 1
Store 1
Load 2
Count 2
Store 2
Count

Слайд 20 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 21 Программирование Cell
Для организации вычислений на Cell необходимо:

Разделить задачу

на независимые фрагменты для обработки на ядрах SPE

Организовать передачу

Слайд 22 Сравнение параллельных вычислений на Cell с «традиционными» подходами
SMP-узел

+ потоки (OpenMP, PThreads, …)

Кластер + библиотека MPI

Узел на

Слайд 23 Сравнение параллельных вычислений на Cell с «традиционными» подходами
SMP-узел

+ потоки (OpenMP, PThreads, …)
На одном узле работают несколько

Слайд 24 Кластер + библиотека MPI
На каждом узле работает один

или несколько процессов
Данные распределены по процессам
Каждый процесс выполняет свою

Слайд 25 Сравнение параллельных вычислений на Cell с «традиционными» подходами
Узел

на базе процессоров Cell
На ядре PPE работает главный поток
На

Слайд 26 PPE
Function offload model
{…
matrix a, b, c;
multiply(a, b, c);
}
SPE
multiply()
{

…
}

mul()
{ … }
Статическое или динамическое распределение подзадач
Модели программирования процессора

Слайд 27 SPE
SPE
SPE
SPE
PPE
Портфель задач
work() { … }
work() { … }
work()

{ … }
work() { … }
Task
Task
Task
Task
Task
Task
main()
{ …
AddTask();
…
}
Task
Очередь

Слайд 28 SPE
SPE
SPE
SPE
PPE
Потоковый конвейер
step1() { … }
step2() { … }
step4()

{ … }
step3() { … }
Input
data
Output
data
main()
{ …
make_input();
…

Слайд 29 Взаимодействующие процессы с общей памятью
SPE
PPE

SPE

SPE

SPE

SPE

SPE

SPE

SPE

Общая память

Модели программирования процессора

Слайд 30 Взаимодействующие процессы с распределенной памятью
SPE
PPE

SPE

SPE

SPE

SPE

SPE

SPE

SPE

Память PPE
Модели программирования процессора

Слайд 31 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 32 Библиотека libspe2
LibSPE предоставляет интерфейс к базовым средствам программирования

процессора Cell, реализованным аппаратно.
Разработка программы:
Создается отдельная программа для PPE,
Создается

Слайд 33 Библиотека libspe2: Программа «Hello, World!»
Программа для PPE (ppu_prog.c)
#include
extern

spe_program_handle_t spu_hello;
int main ()
{
unsigned int entry = SPE_DEFAULT_ENTRY;

Слайд 34
Библиотека libspe2: Программа «Hello, World!»
main()
{
…
}
main()
{
…
}
spu_prog.c
spu-gcc -o spu_prog

spu_prog.c

spu_prog
Компиляция программы для Cell:
ppu_prog.c
spu_hello

ppu-embedspu spu_hello spu_prog spu_prog.o
ppu-gcc -o prog

Слайд 35

Создание параллельной программы для Cell:
В программе на PPE

создать несколько параллельных потоков,
В потоках запустить программы на SPE.
main()
{

Слайд 36 Программа для PPE многопоточная
#include
#include
#define NTHREADS 40
extern

spe_program_handle_t spu_hello;

void thread_func (void data)
{
unsigned int entry =

Слайд 37 План
Архитектура процессора Cell
Принципы программирования
Базовые средства программирования
Создание и компиляция

простых программ
Механизмы передачи данных и сообщений
Программирование вычислений на SPE
Библиотеки

Слайд 38 DMA-передача – блок данных до 16 KB:
Операция Get: общая

память ? память SPE
Операция Put: память SPE ? общая память
Mailbox-ы

Слайд 39 DMA-передача данных
Может запускаться и на PPE, и на

SPE
Общее адресное пространство
SPE

SPE

SPE

SPE

Механизмы передачи данных и сообщений

Слайд 40 DMA-передача данных
Может запускаться и на PPE, и на

SPE
Общее адресное пространство
SPE

SPE

SPE

SPE

Механизмы передачи данных и сообщений

Слайд 41 DMA-передача данных
Может запускаться и на PPE, и на

SPE
Общее адресное пространство
SPE

SPE

SPE

SPE

Механизмы передачи данных и сообщений

Слайд 42 DMA-передача данных
Блоки данных должны быть выровнены в памяти

по границе 16 байт.
Размер передаваемых данных может быть 1,2,4,8,16

Слайд 43 DMA-передача данных
Чтобы упорядочить выполнение передач, используются специальные варианты

команд get и put:
Barrier: getb, putb
Fence: getf, putf
Механизмы передачи данных и

Слайд 44 Программа для SPE

// GET: Передача данных из PPE

в SPE
void get (void *dest_lsa, unsigned long long sour_ea,

передачи
in
out
sig1
sig2
Механизмы передачи данных и сообщений

Слайд 47 Фрагмент программы для PPE

…
while ( spe_out_mbox_status(spe) == 0

); // ожидание данных в очереди
spe_out_mbox_read(spe ,&data ,1); // чтение одного