{"id":199,"date":"2022-10-14T18:01:17","date_gmt":"2022-10-14T21:01:17","guid":{"rendered":"https:\/\/itconnect.lat\/portal\/?p=199"},"modified":"2022-10-14T18:01:37","modified_gmt":"2022-10-14T21:01:37","slug":"whisper-00000000000000000000000000000002022","status":"publish","type":"post","link":"https:\/\/itconnect.lat\/portal\/whisper-00000000000000000000000000000002022\/","title":{"rendered":"Whisper 2022: la IA enfocada al reconocimiento de voz"},"content":{"rendered":"<header class=\"post-header\">\n<div class=\"container mt-5\">\n<div class=\"row\">\n<div class=\"col-12 col-md-9 col-lg-8 col-xl-6 offset-xl-3\">\n<h2 class=\" balance-text mb-0.75 \"><strong><span style=\"font-size: inherit;\">Han capacitado y estan abriendo una red neuronal llamada Whisper que se acerca a la solidez y precisi\u00f3n del nivel humano en el reconocimiento de voz en ingl\u00e9s.<\/span><\/strong><\/h2>\n<\/div>\n<\/div>\n<div class=\"row\">\n<div class=\"col-12 col-md-3 col-lg-4 col-xl-3 order-xl-0\">\n<div class=\"post-header-date small-copy color-fg-50 mb-1.5\"><\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/header>\n<section class=\"container\">\n<div class=\"row\">\n<section class=\"content\">\n<div class=\"js-post-content\">\n<section class=\"btns\"><\/section>\n<div class=\"js-root mt-3 mb-2\">\n<div class=\"d-flex align-items-center justify-content-between mb-0.75\">\n<h3 class=\"font-base font-sans-serif font-bold mb-0\">Ejemplos de Whisper:<\/h3>\n<\/div>\n<\/div>\n<p style=\"text-align: justify;\">Whisper es un sistema de reconocimiento autom\u00e1tico de voz (ASR) entrenado en 680.000 horas de datos supervisados \u200b\u200bmultiling\u00fces y multitarea recopilados de la web.<\/p>\n<p style=\"text-align: justify;\">Los investigadores muestran que el uso de un conjunto de datos tan grande y diverso conduce a una mayor solidez a los acentos, el ruido de fondo y el lenguaje t\u00e9cnico.<\/p>\n<p style=\"text-align: justify;\">Adem\u00e1s, permite la transcripci\u00f3n en varios idiomas, as\u00ed como la traducci\u00f3n de esos idiomas al ingl\u00e9s.<\/p>\n<p style=\"text-align: justify;\">Es un modelo de c\u00f3digo abierto y c\u00f3digo de inferencia que sirven como base para crear aplicaciones \u00fatiles y para futuras investigaciones sobre procesamiento de voz s\u00f3lido.<\/p>\n<div class=\"d-none d-md-block wide my-1.5\">\n<div class=\"mx-xl-auto\">\n<figure style=\"width: 398px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"w-100\" src=\"https:\/\/cdn.openai.com\/whisper\/asr-summary-of-model-architecture-desktop.svg\" alt=\"Whisper\" width=\"398\" height=\"321\" title=\"\"><figcaption class=\"wp-caption-text\">Whisper<\/figcaption><\/figure>\n<\/div>\n<\/div>\n<p style=\"text-align: justify;\">La arquitectura Whisper es un enfoque simple de extremo a extremo, implementado como un transformador codificador-decodificador.<\/p>\n<p style=\"text-align: justify;\">El audio de entrada se divide en fragmentos de 30 segundos, se convierte en un espectrograma log-Mel y luego se pasa a un codificador.<\/p>\n<p style=\"text-align: justify;\">Se entrena un decodificador para predecir el subt\u00edtulo de texto correspondiente, entremezclado con tokens especiales que dirigen al modelo \u00fanico para realizar tareas como identificaci\u00f3n de idioma, marcas de tiempo a nivel de frase, transcripci\u00f3n de voz multiling\u00fce y traducci\u00f3n de voz al ingl\u00e9s.<\/p>\n<div class=\"d-none d-lg-block wide my-2\">\n<div class=\"mx-xl-auto\">\n<figure style=\"width: 403px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"w-100\" src=\"https:\/\/cdn.openai.com\/whisper\/draft-20220919a\/asr-details-desktop.svg\" alt=\"Whisper\" width=\"403\" height=\"77\" title=\"\"><figcaption class=\"wp-caption-text\">Whisper<\/figcaption><\/figure>\n<\/div>\n<\/div>\n<p style=\"text-align: justify;\">Otros enfoques existentes utilizan con frecuencia conjuntos de datos de entrenamiento de audio-texto m\u00e1s peque\u00f1os y emparejados m\u00e1s estrechamente,\u00a0<span class=\"js-rfref\" data-id=\"simply-mix\"><sup class=\"reference-ref\">1\u00a0<\/sup><\/span><span class=\"js-rfref\" data-id=\"the-peoples-speech\"><sup class=\"reference-ref grouped\">2\u00a0<\/sup><\/span><span class=\"js-rfref\" data-id=\"gigaspeech\"><sup class=\"reference-ref grouped\">3<\/sup><\/span>\u00a0o usan entrenamiento previo de audio amplio pero no supervisado.\u00a0<span class=\"js-rfref\" data-id=\"self-supervised-learning\"><sup class=\"reference-ref\">4\u00a0<\/sup><\/span><span class=\"js-rfref\" data-id=\"unsupervised-speech-recognition\"><sup class=\"reference-ref grouped\">5\u00a0<\/sup><\/span><span class=\"js-rfref\" data-id=\"the-frontier\"><sup class=\"reference-ref grouped\">6<\/sup><\/span><\/p>\n<p style=\"text-align: justify;\">Debido a que Whisper se entren\u00f3 en un conjunto de datos grande y diverso y no se ajust\u00f3 a ninguno espec\u00edfico, no supera a los modelos que se especializan en el rendimiento de LibriSpeech, un famoso punto de referencia competitivo en el reconocimiento de voz.<\/p>\n<p style=\"text-align: justify;\">Sin embargo, cuando miden el rendimiento de disparo cero de Whisper en muchos conjuntos de datos diversos, encontramos que es mucho m\u00e1s s\u00f3lido y comete un 50 % menos de errores que esos modelos.<\/p>\n<p style=\"text-align: justify;\">Alrededor de un tercio del conjunto de datos de audio de Whisper no est\u00e1 en ingl\u00e9s, y alternativamente se le asigna la tarea de transcribir en el idioma original o traducir al ingl\u00e9s.<\/p>\n<p style=\"text-align: justify;\">Encuentran que este enfoque es particularmente efectivo para aprender la traducci\u00f3n de voz a texto y supera al SOTA supervisado en CoVoST2 para la traducci\u00f3n al ingl\u00e9s de tiro cero.<\/p>\n<div class=\"d-none d-lg-block wide my-2\">\n<div class=\"mx-xl-auto\" style=\"text-align: justify;\">\n<figure style=\"width: 401px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" class=\"w-100\" src=\"https:\/\/cdn.openai.com\/whisper\/draft-20220920a\/asr-training-data-desktop.svg\" alt=\"Whisper\" width=\"401\" height=\"62\" title=\"\"><figcaption class=\"wp-caption-text\">Whisper<\/figcaption><\/figure>\n<\/div>\n<\/div>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\">Esperamos que la alta precisi\u00f3n y la facilidad de uso de Whisper permitan a los desarrolladores agregar interfaces de voz a un conjunto mucho m\u00e1s amplio de aplicaciones.<\/p>\n<p style=\"text-align: justify;\">Consulte el\u00a0<a href=\"https:\/\/cdn.openai.com\/papers\/whisper.pdf\" target=\"_blank\" rel=\"noopener\">documento<\/a>\u00a0,\u00a0<a href=\"https:\/\/github.com\/openai\/whisper\/blob\/main\/model-card.md\" target=\"_blank\" rel=\"noopener\">la tarjeta modelo<\/a>\u00a0y\u00a0<a href=\"https:\/\/github.com\/openai\/whisper\" target=\"_blank\" rel=\"noopener\">el c\u00f3digo<\/a>\u00a0para conocer m\u00e1s detalles y probar Whisper.<\/p>\n<footer class=\"post-footer js-post-footer\">\n<hr \/>\n<div id=\"references\" class=\"row\">\n<h6 class=\"col\">Referencias<\/h6>\n<div class=\"col\">\n<ol>\n<li id=\"rf1\" class=\"js-ref reference\" data-id=\"simply-mix\"><span style=\"font-size: 8pt;\">Chan, W., Park, D., Lee, C., Zhang, Y., Le, Q. y Norouzi, M. SpeechStew: simplemente mezcle todos los datos de reconocimiento de voz disponibles para entrenar una gran red neuronal.\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2104.02133\" target=\"_blank\" rel=\"noopener\">preimpresi\u00f3n de arXiv arXiv:2104.02133, 2021<\/a> .\u00a0<\/span><\/li>\n<li id=\"rf2\" class=\"js-ref reference\" data-id=\"the-peoples-speech\"><span style=\"font-size: 8pt;\">Galvez, D., Diamos, G., Torres, JMC, Achorn, K., Gopi, A., Kanter, D., Lam, M., Mazumder, M., and Reddi, VJ El discurso del pueblo: una gran- Escale diversos conjuntos de datos de reconocimiento de voz en ingl\u00e9s para uso comercial.\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2111.09344\" target=\"_blank\" rel=\"noopener\">preimpresi\u00f3n de arXiv arXiv:2111.09344, 2021<\/a> .\u00a0<\/span><\/li>\n<li id=\"rf3\" class=\"js-ref reference\" data-id=\"gigaspeech\"><span style=\"font-size: 8pt;\">Chen, G., Chai, S., Wang, G., Du, J., Zhang, W.-Q., Weng, C., Su, D., Povey, D., Trmal, J., Zhang, J., et al.\u00a0Gigaspeech: un corpus ASR multidominio en evoluci\u00f3n con 10\u00a0000 horas de audio transcrito.\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2106.06909\" target=\"_blank\" rel=\"noopener\">preimpresi\u00f3n de arXiv arXiv:2106.06909, 2021<\/a> .\u00a0<\/span><\/li>\n<li id=\"rf4\" class=\"js-ref reference\" data-id=\"self-supervised-learning\"><span style=\"font-size: 8pt;\">Baevski, A., Zhou, H., Mohamed, A. y Auli, M. wav2vec 2.0: un marco para el aprendizaje autosupervisado de representaciones del habla.\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2006.11477\" target=\"_blank\" rel=\"noopener\">preimpresi\u00f3n de arXiv arXiv:2006.11477, 2020<\/a> .\u00a0<\/span><\/li>\n<li id=\"rf5\" class=\"js-ref reference\" data-id=\"unsupervised-speech-recognition\"><span style=\"font-size: 8pt;\">Baevski, A., Hsu, WN, Conneau, A. y Auli, M. Reconocimiento de voz no supervisado.\u00a0Avances en sistemas de procesamiento de informaci\u00f3n neuronal, 34:27826\u201327839, 2021.\u00a0<\/span><\/li>\n<li id=\"rf6\" class=\"js-ref reference\" data-id=\"the-frontier\"><span style=\"font-size: 8pt;\">Zhang, Y., Park, DS, Han, W., Qin, J., Gulati, A., Shor, J., Jansen, A., Xu, Y., Huang, Y., Wang, S., et Alabama.\u00a0BigSSL: Explorando la frontera del aprendizaje semisupervisado a gran escala para el reconocimiento de voz autom\u00e1tico.\u00a0<a href=\"https:\/\/arxiv.org\/abs\/2109.13226\" target=\"_blank\" rel=\"noopener\">preimpresi\u00f3n de arXiv arXiv:2109.13226, 2021<\/a><\/span><span style=\"font-size: 8pt;\"> .<\/span><\/li>\n<\/ol>\n<p>Por Marcelo Lozano &#8211; General Publisher<strong> IT CONNECT LATAM<\/strong><\/p>\n<p>Lea m\u00e1s<\/p>\n<p><a href=\"https:\/\/itconnect.lat\/portal\/redes-neuronales-00000000002022\/\">Redes Neuronales: \u00bfevoluci\u00f3n o amenaza del siglo 21?<\/a><\/p>\n<\/div>\n<\/div>\n<\/footer>\n<\/div>\n<\/section>\n<\/div>\n<\/section>\n","protected":false},"excerpt":{"rendered":"<p>Han capacitado y estan abriendo una red neuronal llamada Whisper que se acerca a la solidez y precisi\u00f3n del nivel humano en el reconocimiento de voz en ingl\u00e9s. Ejemplos de Whisper: Whisper es un sistema de reconocimiento autom\u00e1tico de voz (ASR) entrenado en 680.000 horas de datos supervisados \u200b\u200bmultiling\u00fces y multitarea recopilados de la web. [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":202,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[55],"tags":[224,223],"class_list":["post-199","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analisis-de-datos-e-ia","tag-inteligencia-artificial","tag-whisper"],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/posts\/199","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/comments?post=199"}],"version-history":[{"count":5,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/posts\/199\/revisions"}],"predecessor-version":[{"id":205,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/posts\/199\/revisions\/205"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/media\/202"}],"wp:attachment":[{"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/media?parent=199"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/categories?post=199"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/itconnect.lat\/portal\/wp-json\/wp\/v2\/tags?post=199"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}