Una revisión de la literatura y un marco para la evaluación humana de modelos de lenguaje generativos de gran escala en el cuidado de la salud