чтобы освоить архитектуру для написания высокоэффективного ассемблерного кода двух дней явно не хватит. В одном процессоре оптимально работать с битами, а в другом с числами, в одном эффективен декрементируемый счетчик цикла с проверкой на ноль, а в другом оптимальнее применять инкрементируемый со сравнением с константой. Нюансов много и браться за ассемблер есть смысл только когда эти нюансы досконально знаешь. Все знать невозможно, поэтому на незнакомых процессорах эффективнее писать программы на C.