A finales de los 90 parecía claro que la voz iba a ser la principal vía de entrada de datos en los PCs. IBM y Microsoft, cada uno por su lado, pronosticaban un entorno laboral en el que trabajadores equipados con micrófonos dictarían textos que el sistema convertiría en órdenes o inputs de datos para procesadores de texto o correos electrónicos. Una década después, los micrófonos se usan, sí, aunque para hablar por Skype y todos seguimos usando religiosamente el teclado y el ratón para interactuar con el ordenador.
inputs
¿Por qué no ha sido así? Porque la precisión de los sistemas de reconocimiento de voz dejó de crecer en 2001, como muestra el gráfico de arriba y cuenta Robert Fortner en un estupendo artículo cáusticamente titulado “Rest in Peas” (“Descanse en guisantes”, donde debería decir “Descanse en paz”). Los sistemas actuales no han logrado superar el 80% de aciertos que lograron hace casi una década, muy lejos del 98% que logramos las personas (deduciendo el resto por inferencia) y haciendo, por tanto, imposible cualquier tipo de “diálogo”.
Lo que ha pasado en medio ha sido mitad un accidente, mitad culpa de un optimismo desaforado. El optimismo es lógico: la ley de Moore y otros avances tecnológicos directamente vinculados a ella nos ha enseñado que la capacidad y potencia de los ordenadores crece en proporción geométrica por lo que sólo debería ser una cuestión de fuerza bruta lograr decodificar los miles de matices que puede esconder una voz humana.
Sin embargo, no ha sucedido así. El lenguaje es la capacidad humana más sofisticada, como recordó el neurocientífico Francisco Rubia en una reciente conferencia. El número de frases posibles de hasta 100 palabras en inglés es de 10570 una cifra muchísimo mayor que la del número estimado de átomos en el universo (perdón por la recurrente analogía), que se calcula en 1077. Eso significa que la máquina tiene que discernir entre toda una panoplia de posibles frases, algunas prácticamente idénticas pero con un significado absolutamente diferentes.
reciente conferencia Cursos gratis en Youtube
Eso sin tener en cuenta las diversas formas de pronunciar de cada hablante. El sistema de reconocimiento de voz que IBM desarrolló para su difunto OS/2 –que, por cierto, fue una tarea de I+D de la filial española- requería de unas cuantas horas de entrenamiento por parte del usuario, una tarea tan tediosa como sintomática del complicado entendimiento oral hombre-máquina. Al final, “los sistemas de reconocimiento, al intentar realizar la mejor apuesta, tienen propensión a interpretar los términos complejos como si fueran palabras más comunes con un sonido similar, quitando el sentido a la frase”, según explica Fortner.
Resulta significativo del estancamiento del reconocimiento de voz que todos los enlaces a los que apunta el artículo correspondiente de Wikipedia en español remitan a informaciones de 1992, cuando hablar con los ordenadores aún se consideraba una opción (impepinable) de futuro.
Visto en Robert Fortner, vía Metafiltro.
El ordenador hace oídos sordos al reconocimiento de voz
A finales de los 90 parecía claro que la voz iba a ser la principal vía de entrada de datos en los PCs. IBM y Microsoft, cada uno por su lado, pronosticaban
comodibujar
es
https://imagenestop.net/static/images/comodibujar-el-ordenador-hace-oidos-sordos-al-reconocimiento-de-voz-15427-0.jpg
2024-11-01
Si crees que alguno de los contenidos (texto, imagenes o multimedia) en esta página infringe tus derechos relativos a propiedad intelectual, marcas registradas o cualquier otro de tus derechos, por favor ponte en contacto con nosotros en el mail [email protected] y retiraremos este contenido inmediatamente