Estimado,
Creo que no puedes reparar ese tipo de situacion sin que interrumpas el servicio ya que ambos servidores realizan distintas funciones, si fuera una nube interna en que los equipos estuvieran sincronizados entre si, podrias apuntar a uno u a otro dependiendo de cual falle.
Por lo que sea cual sea el tipo de SO para el servidor tendrias problemas a lo que llamas "Tolerancia a fallos".
Quizas lo mejor sea configurar ambos servidores iguales y con rsync ejecutar un script tipo "cloud", asi podrias levantar los servicios de manera mas expedita en caso que tengas problemas con cualquiera de los 2 equipos.
Si tienes me das mas detalles tecnicos te podria ayudar mejor.
Suerte!