Num ambiente fechado, o receptor vai captar vários reflexos do sinal originário. Isto gera umas distorções no sinal, que seriam difíceis de tratar simplesmente tentando sincronizar com uma referência local (ex. outro cristal de 32khz). Então o que geralmente é feito é usar um filtro que extrai a frequência dominante no receptor, que dá feedback num oscilador local, compensando o atraso. Ambos os sinais (recebidos e o oscilado) são jogados num comparador (quando o circuito é analógico, geralmente se usa um amp-op), e o sinal de saída, convertido numa escala, é memorizado. Isto é uma fase de auto-calibração, se você reparar, todo alarme de carro leva um tempinho pra armar o ultra-som, durante este tempo mudanças não disparam.
Bom, o que ocorre é que quando se introduz um objeto, ela perturba a relação entre as reflexões do sinal, o que por sua vez vai tirar o sinal recebido de fase com o sinal do oscilador de referência, o que vai mudar o valor na saída do comparador, causando o disparo. De certa forma isto lembra o uso tradicional do efeito doppler, devido a variação de frequencia percebida, embora não haja simplesmente um movimento de afastar/aproximar nem do transmissor nem do receptor, e sim uma perturbação nas distâncias diretas ou indiretas entre eles, causado pelas reflexões.
Por baixo do pano, há sim uma lógica doppler, mas ela não é usada como em um radar, onde é feita uma quantificação linear do resultado, aqui o que importa é qualificar como "dentro do ambiente percebido" ou "dinâmica do ambiente mudou".
Mudanças muito lentas vão reajustando o oscilador do comparador, e não causam alterações que gerem disparos, isto é necessário para compensar principalmente a mudança de temperatura, que faz o ar expandir/contrair, causando mudança nas dinâmicas. Fora que o transmissor/receptor costuma ser o mesmo modelo de capsula piezo, o que teoricamente faz com que elas respondam de forma semelhante a temperatura.
Falei muita asneira?
