Ответ: (+) («Телесистемы»: Конференция «Цифровые сигнальные процессоры (DSP) и их применение»)

[an error occurred while processing this directive] Ответ: (+)

(«Телесистемы»: Конференция «Цифровые сигнальные процессоры (DSP) и их применение»)

Отправлено SM 11 марта 2003 г. 13:44
В ответ на: Т.е. при 150 мгц можно ожидать 50-100 MFLOPS ? отправлено _Igor 11 марта 2003 г. 13:09

Подробно. Команда умножения занимает пути чтения M-юнитов на 4 цикла. M юнитов 2 штуки. То есть при программной конвейеризации можно максимум выполнить за 4 такта 2 умножения double*double.
Сложение и вычитание - занимают L-юнит на 2 такта. L-юнитов тоже 2, так что на 1 такт одно сложение. Сравнение - S-юнит 2 такта - аналогично 1 такт одно сравнение. Остальное - преобразования float<=>double, int<=>double, аппроксимация 1/x и квадратного корня - за 1 такт до 2-х штук. (преобразования L-юнит делает, корни и обратеые значения - S-юнит). Учитывая, что L M и S юниты работают параллельно - то при ЖУТКО ОПТИМАЛЬНОМ коде можно выжать на 150 МГЦ порядка 300..375 MFLOPS. Против 600..900 на float. Но это только на циклах, причем хорошо ложащихся на архитектуру. Из-за того, что все операции c double выдают результат с задержкой в 4...9 тактов от момента исполнения команды и используют пару регистров для храния данных и результата то грамотная оптимизация кода с double есть мягко говоря геморрой.

Составить ответ ||| Конференция ||| Архив

Ответы

Ответ: — _Igor (11.03.2003 15:04, 407 байт)
- Вобщем Вы тут правы. TMS обходит шарка (при одной тактовой) дааалеко не всегда. Но зато 64 бит IEEE. — SM (11.03.2003 15:12, пустое)

Перейти к списку ответов ||| Конференция ||| Архив ||| Главная страница ||| Содержание ||| Без кадра

E-mail: info@telesys.ru

Ответы

Отправка ответа