[an error occurred while processing this directive]
|
Подробно. Команда умножения занимает пути чтения M-юнитов на 4 цикла. M юнитов 2 штуки. То есть при программной конвейеризации можно максимум выполнить за 4 такта 2 умножения double*double.
Сложение и вычитание - занимают L-юнит на 2 такта. L-юнитов тоже 2, так что на 1 такт одно сложение. Сравнение - S-юнит 2 такта - аналогично 1 такт одно сравнение. Остальное - преобразования float<=>double, int<=>double, аппроксимация 1/x и квадратного корня - за 1 такт до 2-х штук. (преобразования L-юнит делает, корни и обратеые значения - S-юнит). Учитывая, что L M и S юниты работают параллельно - то при ЖУТКО ОПТИМАЛЬНОМ коде можно выжать на 150 МГЦ порядка 300..375 MFLOPS. Против 600..900 на float. Но это только на циклах, причем хорошо ложащихся на архитектуру. Из-за того, что все операции c double выдают результат с задержкой в 4...9 тактов от момента исполнения команды и используют пару регистров для храния данных и результата то грамотная оптимизация кода с double есть мягко говоря геморрой.
E-mail: info@telesys.ru