He estado buscando lo mismo desde hace unos días. Hasta ahora he encontrado Sphinx4 y FreeTTS. Ambas son implementaciones de Java y parece que Sphinx se actualiza con bastante frecuencia a diferencia de FreeTTS. El único problema que tengo es que Sphinx tiene problemas para entenderme en un entorno de oficina y necesito una solución para un entorno de almacén.
Principalmente Java:http://cmusphinx.sourceforge.net/html/cmusphinx.php
puede descargar vPass (contraseña de voz) desde http://www.basic-signalprocessing.com.
Los componentes están diseñados para lenguaje Java y .Net. El período de reconocimiento es de 5 segundos. VPass está bien probado vText no lo es, aún es nuevo, es por eso que aún no está empaquetado.
sphinx es, con mucho, la mejor opción disponible si tiene un presupuesto limitado. Sin embargo, también hace un enorme diferencia qué modelos usas, cómo los ajustas y cómo sintoniza su fuente de audio. absolutamente todo tiene que coincidir, de lo contrario simplemente no funcionará. Dado el problema que describiste, estaría dispuesto a apostar una suma sustancial a que tienes tus modelos mezclados y tu micrófono no está calibrado correctamente. Además, si tiene un acento, probablemente no funcionará; esto no es un problema con el decodificador, sino con los modelos acústicos. Si no se incluyó a nadie con una voz/acento similar al suyo en los datos de entrenamiento, obtendrá resultados deficientes. .
Dicho esto, ¿ha mirado su página de modelos de código abierto?
http://www.speech.cs.cmu.edu/sphinx/models/
Dependiendo de lo que intente hacer, debería poder obtener un 90 % de precisión en la libertad de expresión con los modelos WSJ de 16 kHz y los gigaword LM NVP. Sin embargo, advierto que ASR es una empresa enorme y aún no ha alcanzado el estatus de producto básico.