1) на многопроцессорной машине - собираешь ядро с поддержкой SMP (или NUMA)
    пишешь многопоточную программу (POSIX threads / OpenMP / ...) - вуаля
2) кластер - качаешь какую-нибудь реализацию MPI (MPICH / LAM) или DVM или ...
    ставишь, пишешь программу с использованием установленной библиотеки  -   вуаля
3) наверное еще много способов  
