GNU/Linux >> Tutoriales Linux >  >> Linux

Las 10 mejores herramientas de reconocimiento de voz de código abierto para Linux

El habla es un método popular e inteligente en los tiempos modernos para interactuar con dispositivos electrónicos. Como sabemos, hay muchas herramientas de reconocimiento de voz de código abierto disponibles en diferentes plataformas. Desde el comienzo de esta tecnología, se ha mejorado simultáneamente en la comprensión de la voz humana. Esta es la razón; ahora ha contratado a muchos profesionales que antes. El avance técnico es lo suficientemente fuerte como para dejarlo más claro para la gente común.

Herramientas de reconocimiento de voz de código abierto

La herramienta de reconocimiento de voz de código abierto no está tan disponible como el software típico que usamos en nuestra vida diaria en la plataforma Linux. Después de un largo camino de investigación, encontramos algunas aplicaciones con buenas funciones para usted con una breve descripción. ¡Echemos un vistazo a los puntos a continuación!

1. Kaldi

Kaldi es un tipo especial de software de reconocimiento de voz, iniciado como parte de un proyecto en la Universidad John Hopkins. Este kit de herramientas viene con un diseño extensible y está escrito en lenguaje de programación C++. Proporciona un entorno flexible y cómodo a sus usuarios con muchas extensiones para mejorar el poder de Kaldi.

Características notables de Kaldi

  • Una aplicación de reconocimiento de voz de código abierto, flexible y gratuita, bajo la licencia de Apache.
  • Se ejecuta en múltiples plataformas, incluidas GNU/Linux, BSD y Microsoft Windows.
  • Proporciona soporte para instalar y configurar la aplicación en su sistema.
  • Además del sistema de reconocimiento de voz, también admite redes neuronales profundas y transformaciones lineales.

2. CMUSphinx

CMUS Sphinx viene con un grupo de sistemas enriquecidos con funciones con varios paquetes prediseñados relacionados con el reconocimiento de voz. Es un programa de código abierto, desarrollado en la Universidad Carnegie Mellon. Obtendrá esta herramienta de reconocimiento independiente del hablante en varios idiomas, incluidos francés, inglés, alemán, holandés y más.

Características notables de CMUSphinx

  • Es un sistema de reconocimiento de voz rápido y fácil de usar con una interfaz fácil de usar.
  • Viene con un diseño flexible y un sistema eficiente, incluso en plataformas de bajos recursos.
  • Proporciona herramientas de entrenamiento de modelos acústicos a través de su paquete Sphinxtrain.
  • Ayuda a realizar diferentes tipos de tareas a través de sus útiles paquetes, que incluyen detección de palabras clave, evaluación de pronunciación, alineación y más.
  • Es una herramienta multiplataforma compatible con sistemas Windows y Linux.

3. Voz profunda

DeepSpeech es un motor de reconocimiento de voz de código abierto para convertir su voz en texto. Es una aplicación gratuita de Mozilla. Para ejecutar el proyecto DeepSearch en su dispositivo, necesitará Python 3.r o superior. Además, necesita un archivo de extensión Git, a saber, Git Large File Storage. Se utiliza para crear versiones de archivos grandes mientras lo ejecuta en su sistema.

Características notables de DeepSpeech

  • DeepSpeech usa el marco TensorFlow para hacer que la transformación de la voz sea más cómoda.
  • Admite GPU NVIDIA, lo que ayuda a realizar inferencias más rápidas.
  • Puede utilizar la inferencia de DeepSearch de tres maneras diferentes; El paquete Python, el paquete Node.JS o el cliente de línea de comandos.
  • Cada vez que desee ejecutar este software en su sistema, deberá activar el entorno virtual mediante el comando Python.
  • Necesita un entorno Linux o Mac para ejecutar esta aplicación.

4. Wav2Letra++

WavLetter++ es una herramienta de reconocimiento de voz moderna y popular, desarrollada por el equipo de investigación de IA de Facebook. Es otro programa de código abierto bajo la licencia BCD. Este software de reconocimiento de voz ultrarrápido se creó en C++ y se presentó con muchas funciones. Proporciona la facilidad de modelado de lenguaje, traducción automática, síntesis de voz y más a sus usuarios en un entorno flexible.

Características notables de Wav2Letter++

  • Contiene una comunidad activa en plataformas populares como Facebook y el grupo de Google para ayudar a sus usuarios en todo el mundo.
  • WavLetter++ es un conjunto de herramientas rápido y flexible que utiliza la biblioteca de tensores ArrayFire para lograr la máxima eficiencia.
  • Le permite trabajar con un marco de trabajo de alto rendimiento como wav2letter++, que ayuda a realizar una investigación y un ajuste de modelo exitosos.
  • Además, proporciona documentación completa a través de las secciones de tutoriales.
  • En la carpeta de recetas, obtendrá las recetas detalladas para WSJ, Timit y Librispeech.

5. Julio

Julius es comparativamente un software de reconocimiento de voz de código abierto más antiguo desarrollado por Lee Akinobu. Esta herramienta está escrita en el lenguaje de programación C por los desarrolladores de Kawahara Lab, Universidad de Kyoto. Es una aplicación de reconocimiento de voz de alto rendimiento que tiene un gran vocabulario. Puede usarlo tanto en inglés como en japonés. Puede ser una excelente opción si desea utilizarlo con fines académicos y de investigación.

Características notables de Julius

  • Julius es una aplicación altamente configurable que puede establecer diferentes parámetros de búsqueda para ajustar su rendimiento.
  • Esta herramienta se basa en una estrategia de 2 pasos que le brinda un rendimiento en tiempo real y de alta calidad.
  • Es un proyecto multiplataforma que se ejecuta en los sistemas Linux, BSD, Windows y Android.
  • Integrado con Julian, un analizador de reconocimiento basado en la gramática.
  • Además de admitir la gramática basada en reglas, también proporciona salida de gráficos de Word, puntaje de confianza, rechazo de entrada basado en GMM y muchas más funciones.

6. Simón

Simon viene con un software de reconocimiento de voz moderno y fácil de usar, desarrollado por Peter Grasch. Es otro programa de código abierto bajo la Licencia Pública General GNU. Puede utilizar Simon tanto en sistemas Linux como Windows. Además, proporciona la flexibilidad de trabajar con cualquier idioma que desee.

Características notables de Simon

  • Usando su calculadora controlada por voz, Simon brinda la posibilidad de realizar varias operaciones aritméticas.
  • Compatible con Skype y otros programas populares de VOIP para establecer un sistema de comunicación fácil con amigos y familiares.
  • Permite a los usuarios ver presentaciones de diapositivas y videos, escuchar música y más con unos simples comandos de voz.
  • Además, es una herramienta esencial para leer periódicos y navegar por Internet.

7. Mycroft

Mycroft viene con un asistente de voz de código abierto fácil de usar para convertir voz a texto. Se considera una de las herramientas de reconocimiento de voz de Linux más populares en la actualidad, escrita en Python. Permite a los usuarios hacer el mejor uso de esta herramienta en un proyecto científico o una aplicación de software empresarial. Además, se puede utilizar como un asistente práctico, que puede decirle la hora, la fecha, el clima y más como estos.

Características destacadas de Mycroft

  • Integrado con las redes sociales y plataformas profesionales más populares, como Facebook, Github, LinkedIn y más.
  • Puede ejecutar esta aplicación en diferentes plataformas de software y hardware. Puede ser una computadora de escritorio o una Raspberry Pi.
  • Además de ser un asistente de voz inteligente, proporciona la función de grabación de audio, aprendizaje automático, biblioteca de software y más.
  • Permite a los usuarios convertir el lenguaje natural en datos legibles por máquina a través de Adapt, un analizador de intenciones de Mycroft.

8. OpenMindSpeech

Open Mind Speech es una de las herramientas esenciales de reconocimiento de voz de Linux que tiene como objetivo convertir su voz en texto de forma gratuita. Es parte de Open Mind Initiative, ejecuta su operación, especialmente para desarrolladores. Este programa se introdujo con diferentes nombres como VoiceControl, SpeechInput y FreeSpeech antes de obtener el nombre actual.

Características destacadas de OpenMindSpeech

  • Utiliza el entorno Overflow en la operación de reconocimiento de voz para hacer que las aplicaciones complejas sean flexibles.
  • Open Mind Speech es principalmente compatible con plataformas basadas en Linux y UNIX.
  • A través de Internet, puede recopilar datos de voz de los ciudadanos electrónicos, que son los contribuyentes de los datos sin procesar.

9. Control de voz

Speech Control es una aplicación de reconocimiento de voz gratuita, adecuada para cualquier distribución de Ubuntu. Viene con una interfaz gráfica de usuario basada en Qt. Aunque todavía se encuentra en su etapa inicial de desarrollo, puede usarlo para su proyecto simple.

Características notables de SpeechControl

  • Speech Control es un programa de código abierto bajo la Licencia Pública General (GPL).
  • Su objetivo es funcionar como un asistente virtual que brinda orientación sobre tareas repetitivas para ejecutar el proceso sin problemas.
  • Es principalmente adecuado para plataformas basadas en Linux.
  • Además, proporciona documentación de usuario fácil de entender con detalles del proyecto.

10. Deepspeech.pytorch

Deepspeech.pytorch es otra aplicación de reconocimiento de voz de código abierto que se puede mencionar y que, en última instancia, es una implementación de DeepSpeech2 para PyTorch. Contiene un conjunto de potentes redes basadas en la arquitectura DeepSpeech2. Con muchos recursos útiles, se puede utilizar como una de las herramientas esenciales de reconocimiento de voz de Linux para la investigación y el desarrollo de proyectos.

Características notables de Deepspeech.pytorch

  • Admite aumento de ruido que ayuda a aumentar la robustez al momento de cargar audio.
  • Para enviar la solicitud de publicación al servidor, proporciona un script de servidor básico.
  • Admite varios conjuntos de datos para descargar, incluidos TEDLIUM, AN4, Voxforge y LibriSpeech.
  • Le permite agregar ruido a los datos de entrenamiento a través de la inyección de ruido.
  • Admite Visdom y Tensorboard para visualizar el entrenamiento en experimentación científica.

Pensamientos finales

Entonces, hemos llegado al punto final de las herramientas de reconocimiento de voz de código abierto para Linux. Espero que hayas obtenido información completa sobre este tema. Las aplicaciones antes mencionadas son gratuitas, fáciles de usar y están listas para ser parte de su proyecto académico o personal.

¿Cuál prefieres más? Si tiene otras opciones, no dude en hacérnoslo saber. Comparta este artículo con su comunidad, si le resulta útil. Hasta entonces, que lo pases bien. ¡Gracias!


Linux
  1. 4 herramientas de código abierto para ejecutar un servidor Linux

  2. Las mejores herramientas de Linux para escritores

  3. Las 5 mejores herramientas de almacenamiento en caché de Linux de código abierto recomendadas por los geeks

  4. Las 12 mejores herramientas de copia de seguridad de código abierto para sistemas Linux

  5. Los 10 mejores software de contabilidad de código abierto para Linux

Las 15 mejores herramientas de biología para el sistema Linux

Las 10 mejores herramientas de selección de color para el sistema Linux

Las 10 mejores herramientas de escaneo para el sistema Linux

Las 10 mejores herramientas meteorológicas para el sistema Linux

Los 10 mejores administradores de portapapeles de código abierto para Linux

Las 10 principales herramientas de seguimiento de errores y problemas de código abierto para Linux