1) на многопроцессорной машине - собираешь ядро с поддержкой SMP (или NUMA)
пишешь многопоточную программу (POSIX threads / OpenMP / ...) - вуаля
2) кластер - качаешь какую-нибудь реализацию MPI (MPICH / LAM) или DVM или ...
ставишь, пишешь программу с использованием установленной библиотеки - вуаля
3) наверное еще много способов