Blogk3r | Marketing Digital

Google quiere aprender a leer los labios mejor que tú

Deep Mind de Google con la Universidad de Oxford están desarrollando un software capaz de leer los labios en una conversación.

Hoy hablaremos de un tema muy interesante en el cual Google ha incursionado, ayudado de una prestigiosa universidad británica, este tema puede parecer al principio sacado de una película de ciencia ficción, pero hoy en día con Google se puede esperar todo.

Como hemos visto en estos últimos meses, la división de inteligencia artificial de Google, Deep Mind, ubicada en Reino Unido, ha colaborado con científico de la Universidad de Oxford para desarrollar un algoritmo capaz de usarse en un software de lectura de labios.

Para lograr que este software fuera capaz de leer los labios, los investigadores se dieron a la tarea de alimentar con miles y miles de horas de programación de la cadena británica BBC. La investigación se basó en el trabajo publicado anteriormente por la Universidad de Oxford que utilizó técnicas similares para construir una aplicación de lectura labial llamada “LipNet” que podía leer grabaciones de video de voluntarios que hablaban en oraciones simples con una certeza de casi el 90 por cierto.

De esta forma se ha tenido un precedente para desarrollar este software, Google decidió alimentar a una red neuronal, entrenándola para realizar anotaciones a los videos con base en el análisis del movimiento de los labios, obteniendo una sorprendente precisión del 46.8 por ciento de palabras acertadas durante la transmisión del video.

Para poder ver el desarrollo tecnológico de la lectura de labios que tiene este software, llamado “Watch, Listen, Attend, and Spell”, se le encargó subtitular el mismo video a un el lector de labios humano profesional, demostrando ser casi cuatro veces menos eficiente, ya que solamente pudo acertar en un 12,4 por cierto de las palabras que se utilizaron en el video.

En el proceso, la red neuronal de Google observó 5.000 horas de imágenes de programas de televisión populares como Newsnight, Question Time y The World Today. Los videos presentaron más de 110.000 oraciones diferentes y aproximadamente 17.500 palabras únicas. En comparación, “LipNet” que leyó un total de 51 palabras únicas en oraciones simples.

Así es como los investigadores de Google resumen el alcance y las metas de su estudio:

El objetivo de este trabajo es reconocer las frases que se transmiten por una cara que habla, con o sin el audio. A diferencia de trabajos anteriores que se han centrado en el reconocimiento de un número limitado de palabras o frases, nos enfrentamos a la lectura de labios como un problema de mundo abierto – oraciones de lenguaje natural sin restricciones, y en los videos salvajes.

Deep Mind tiene la intensión de que además de ser útil para personas con problemas de audición y habla, el nuevo software también podría soportar una amplia gama de aplicaciones, incluyendo la anotación de películas y la comunicación con asistentes digitales como Siri y Alexa.

 


En Brok3r puedes obtener la ayuda que necesitas para lograr el éxito de tu empresa, contamos con profesionales experimentados en el área de Marketing Digital, Desarrollo de Aplicaciones, Diseño Gráfico, Business Inteligence (Inteligencia de Negocios), y  Consultoría para tu sitio web.

¡CONTACTANOS y empieza la transformación de tu negocio!

Cuando leí esto en #Brok3r, quise compartírtelo