Не число умножений надо сокращать, а оптимизировать повторное использование коэффициентов, позаботившись предварительно о ПРАВИЛЬНОМ их размещении в регистрах, а не в ОЗУ - при малой длине КИХ это будет весьма эффективно, тем более для такого тормоза как ARM