Skip to content
56K

56K

La web de Fanta

Menu
  • Unix/Linux
  • Cacharreo
  • Games
  • Streaming
  • Notas
  • /dev/null
Menu

Motor libre para convertir Voz a Texto – Deep Speech

Posted on 09/04/202016/01/2023 by fanta

Hoy he estado probando con Ale y Mari un software libre que permite convertir la voz en texto. Y no funciona nada mal.

DeepSpeech es un motor de software libre que utiliza un modelo entrenado gracias a técnicas de «machine learning». Está basado en el trabajo de investigación «Deep Speech: Scaling up end-to-end speech recognition» [1].

Lo que vamos a instalar nos permitirá procesar el audio de archivos en formato WAV y obtener su transcripción en texto plano (en archivos json por ejemplo).
Esto en cristiano es que si hablamos y decimos «sube el volumen» y le pasamos esa grabación a deepspeech, este será capaz de darnos de vuelta el texto de lo que acabamos de grabar.

Instalar DeepSpeech en GNU+Linux

Los pasos que podemos realizar para instalar esto en una Debian 10 son los siguientes:

# apt update && # apt upgrade -y
# apt install vim wget python3-pip curl -y
# pip3 install deepspeech
# deepspeech -h

Archivos WAV de prueba

Una vez disponemos de deepspeech vamos a necesitar algunos archivos wav de prueba.

Es posible encontrar un buen dataset aquí: voice.mozilla.org/es/datasets

Aunque para esta prueba vamos a usar los que comparten desde el repositorio del proyecto. Se puede bajar desde línea de comandos así:

$ mkdir /root/mandanga
$ cd /root/mandanga
$ curl -LO https://github.com/mozilla/DeepSpeech/releases/download/v0.6.1/audio-0.6.1.tar.gz
$ tar xfvz audio-0.6.1.tar.gz
$ rm audio-0.6.1.tar.gz 

Y con eso tendremos archivos wav de prueba en el directorio /root/mandanga/audio

Descargar los modelos

Cuidado que ocupan casi 2 Gb. Puede que si dispones de una mala conexión esto tarde un rato bueno.

# cd /root/mandanga/
# curl -LO github.com/mozilla/DeepSpeech/releases/download/v0.6.1/deepspeech-0.6.1-models.tar.gz
# tar xfvz deepspeech-0.6.1-models.tar.gz
# mv deepspeech-0.6.1-models models
# rm -rf deepspeech-0.6.1-models.tar.gz

Ejemplos de uso

Un ejemplo de uso es este:

# deepspeech --model /root/mandanga/models/output_graph.pbmm --lm /root/mandanga/models/lm.binary --trie /root/mandanga/models/trie --audio /root/mandanga/audio/4507-16021-0012.wav
Veremos una salida de este tipo:

Ese archivo contiene un audio que dice «Why should one halt on the way» (¿Por qué debería uno detenerse en el camino?)

Documentación

Algo se puede ver aquí: deepspeech.readthedocs.io/en/v0.6.1/?badge=latest

Posibles usos

Por ejemplo para darle ordenes a algún cacharro. Para crear proyectos que puedan ser controlados por voz.

Para crear bots y meterlos en mumble, jitsi, …

 

Saludos cordiales.

—

[1] – Deep Speech: Scaling up end-to-end speech recognition – arxiv.org/abs/1412.5567

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

Comentarios recientes

  • fanta en i3wm en el ordenador del trabajo con 3 pantallas
  • Punk en i3wm en el ordenador del trabajo con 3 pantallas
  • Twicsy en Eliminar kernels viejos en redhat y liberar espacio en /boot
  • fanta en Capturar el audio de Firefox en archivos ogg en GNU+Linux
  • Jorge en Capturar el audio de Firefox en archivos ogg en GNU+Linux
  • fanta en Capturar el audio de Firefox en archivos ogg en GNU+Linux
  • Camilo en Capturar el audio de Firefox en archivos ogg en GNU+Linux
  • eovoltio en Mastodon.madrid se apaga el 12 de Octubre
  • fanta en Time Machine – Las Nuevas Aventuras de la Maquina del Tiempo sobre GNU+Linux
  • Alberto Salvia Novella en Time Machine – Las Nuevas Aventuras de la Maquina del Tiempo sobre GNU+Linux
©2023 56K | Built using WordPress and Responsive Blogily theme by Superb