Grupo Radio Centro

Complete News World

OpenAI te escucha susurrar |  Hackaday

OpenAI te escucha susurrar | Hackaday

Si quieres probar el reconocimiento de voz de alta calidad sin comprar nada, buena suerte. Claro, puede tomar prestado el reconocimiento de voz en su teléfono o obligar a algunos asistentes virtuales en una Raspberry Pi a manejar el procesamiento por usted, pero eso no es bueno para trabajos importantes que no desea vincular a una fuente cerrada. la solución. Presentación de OpenAI Susurro, que afirman es una red neuronal de código abierto que «se acerca a la robustez y precisión de nivel humano en el reconocimiento de voz en inglés». También parece funcionar en al menos algunos otros idiomas.

Si prueba las demostraciones, encontrará que hablar rápido o con un buen acento no parece afectar los resultados. El mensaje menciona que fue entrenado en 680,000 horas de datos supervisados. Si hablaras tanto con una IA, ¡te llevaría 77 años sin dormir!

Internamente, el habla se corta en fragmentos de 30 segundos que alimentan un espectrograma. Los codificadores procesan el espectrograma y los decodificadores digieren los resultados usando predicciones y otras heurísticas. Alrededor de un tercio de los datos provino de fuentes que no están en inglés y luego se tradujeron. Puedes leer el papel sobre cómo el entrenamiento generalizado tiene un rendimiento inferior al de algunos modelos entrenados específicamente en los puntos de referencia estándar, pero creen que Whisper funciona mejor en el habla aleatoria más allá de los puntos de referencia particulares.

El tamaño del modelo en la variante «pequeña» es siempre de 39 megabytes y la variante «grande» es de más de un gigabyte y medio. Así que probablemente no funcionará en tu Arduino en el corto plazo. Sin embargo, si desea codificar, todo está habilitado GitHub.

Hay otros soluciones, pero no tan robusto. Si desea seguir la ruta basada en el asistente, aquí está un poco de inspiración.