C'est "simplement" une transformée de Fourier inverse. La transformée de Fourier te donne le spectre d'un son :
La transformée inverse te donne le son à partir du spectre. Donc mon soft lit simplement l'image (basse fréquences en bas, haute en haut) et génère le son en conséquence. C'est un peu comme le truc du visage d'aphex :