Irfad2, considerando o que você escreveu, vamos nos concentrar na falta de volume.
Não sei se você conhece um detalhe que pode gerar este sintoma de saturar quando aumentar o volume, antes de chegar no nível desejado ou esperado: tensão insuficiente para alimentar o amplificador.
Veja por exemplo o LM384, página 4 de
http://www.national.com/ds/LM/LM384.pdf
Segundo seu post inicial são necessários 2 Wrms com falante de 4 ohms, então você precisa de 12Vcc no mínimo com este amplificador. Mas ainda assim você está sem folga: teria 10% de distorção (bem audível) se chegar em 2,5 W. Então deveria ser pelo menos 14Vcc de alimentação para que seja necessário chegar a 3,5 W para ocorrer 10% de distorção.
Mas um único LM384 não pode ser ligado em bridge, então seria melhor procurar outro para baixar a tensão necessária.
O TDA2822 (uma unidade pode ser ligada em bridge) precisa de 9Vcc com carga de 8 ohms para entregar no máximo de 0,8W mantendo distorção abaixo de 1%, sendo 0,2% até 0,7W. Em carga de 4 ohms a coisa piora.
Ambos tem rejeição de apenas cerca de 30dB do ruído na tensão de alimentação, então é bom você pensar em alimentação estabilizada, um 78xx serve.
TDA7056B (também pode ser bridge) pode lhe entregar até 5W em 8 ohms. Mas a distorção só é menor que 1% até 3W, subindo para 2% com 4W (8 ohms). Mas para isso precisa de alimentar com 14Vcc.
Como você quer 2W, então pode ser que 12Vcc já esteja suficiente.
Este tem a vantagem de controle de volume por um nível de tensão contínua em um pino específico, para não precisar usar potenciômetro nem trim-pot. Veja no datasheet como funciona. Também tem vários tipos de proteção. Por hora eu sugiro este. Um pouco mais resistente aos ruídos de alimentação, mas talvez um 78xx seja necessário para acabar com zumbido nos momentos de silêncio da voz.
Se não falar alto o suficiente então há outros...
O ajuste de graves e agudos é possível, mas no seu caso tem que ter bastante ganho ou atenuação para que nossa percepção subjetiva conclua que está ok, pois estamos escutando apenas fala, que tem uma faixa de freqüências curta em relação à música. Se fosse música, a percepção subjetiva provavelmente concluiria que está ok usando um circuito com ganho ou atenuação menor. Deve ser isso que aconteceu com seu circuito. Depois pensamos em uma solução.