Whisper

Whisper 2022: la IA enfocada al reconocimiento de voz

Han capacitado y estan abriendo una red neuronal llamada Whisper que se acerca a la solidez y precisión del nivel humano en el reconocimiento de voz en inglés.

Ejemplos de Whisper:

Whisper es un sistema de reconocimiento automático de voz (ASR) entrenado en 680.000 horas de datos supervisados ​​multilingües y multitarea recopilados de la web.

Los investigadores muestran que el uso de un conjunto de datos tan grande y diverso conduce a una mayor solidez a los acentos, el ruido de fondo y el lenguaje técnico.

Además, permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés.

Es un modelo de código abierto y código de inferencia que sirven como base para crear aplicaciones útiles y para futuras investigaciones sobre procesamiento de voz sólido.

Whisper
Whisper

La arquitectura Whisper es un enfoque simple de extremo a extremo, implementado como un transformador codificador-decodificador.

El audio de entrada se divide en fragmentos de 30 segundos, se convierte en un espectrograma log-Mel y luego se pasa a un codificador.

Se entrena un decodificador para predecir el subtítulo de texto correspondiente, entremezclado con tokens especiales que dirigen al modelo único para realizar tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés.

Whisper
Whisper

Otros enfoques existentes utilizan con frecuencia conjuntos de datos de entrenamiento de audio-texto más pequeños y emparejados más estrechamente, 3 o usan entrenamiento previo de audio amplio pero no supervisado. 6

Debido a que Whisper se entrenó en un conjunto de datos grande y diverso y no se ajustó a ninguno específico, no supera a los modelos que se especializan en el rendimiento de LibriSpeech, un famoso punto de referencia competitivo en el reconocimiento de voz.

Sin embargo, cuando miden el rendimiento de disparo cero de Whisper en muchos conjuntos de datos diversos, encontramos que es mucho más sólido y comete un 50 % menos de errores que esos modelos.

Alrededor de un tercio del conjunto de datos de audio de Whisper no está en inglés, y alternativamente se le asigna la tarea de transcribir en el idioma original o traducir al inglés.

Encuentran que este enfoque es particularmente efectivo para aprender la traducción de voz a texto y supera al SOTA supervisado en CoVoST2 para la traducción al inglés de tiro cero.

Whisper
Whisper

 

Esperamos que la alta precisión y la facilidad de uso de Whisper permitan a los desarrolladores agregar interfaces de voz a un conjunto mucho más amplio de aplicaciones.

Consulte el documento , la tarjeta modelo y el código para conocer más detalles y probar Whisper.


Referencias
  1. Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. y Norouzi, M. SpeechStew: simplemente mezcle todos los datos de reconocimiento de voz disponibles para entrenar una gran red neuronal. preimpresión de arXiv arXiv:2104.02133, 2021
  2. Galvez, D., Diamos, G., Torres, JMC, Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, VJ El discurso del pueblo: una gran- Escale diversos conjuntos de datos de reconocimiento de voz en inglés para uso comercial. preimpresión de arXiv arXiv:2111.09344, 2021
  3. Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al. Gigaspeech: un corpus ASR multidominio en evolución con 10 000 horas de audio transcrito. preimpresión de arXiv arXiv:2106.06909, 2021
  4. Baevski, A., Zhou, H., Mohamed, A. y Auli, M. wav2vec 2.0: un marco para el aprendizaje autosupervisado de representaciones del habla. preimpresión de arXiv arXiv:2006.11477, 2020
  5. Baevski, A., Hsu, WN, Conneau, A. y Auli, M. Reconocimiento de voz no supervisado. Avances en sistemas de procesamiento de información neuronal, 34:27826–27839, 2021. 
  6. Zhang, Y., Park, DS, Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et Alabama. BigSSL: Explorando la frontera del aprendizaje semisupervisado a gran escala para el reconocimiento de voz automático. preimpresión de arXiv arXiv:2109.13226, 2021 .

Por Marcelo Lozano – General Publisher IT CONNECT LATAM

Lea más

Redes Neuronales: ¿evolución o amenaza del siglo 21?

Scroll al inicio