Tecnología

Crean el primer robot capaz de hacer lip sync al hablar y cantar en varios idiomas

Publicado el martes, 20 de enero del 2026 a las 18:39

La máquina empezó por aprender, haciendo gestos frente a un espejo, a mover sus labios con los 26 pequeños motores con que está equipada.

Ciudad de México.- En robótica hay un fenómeno conocido como el “valle inquietante” (uncanny valley), que se refiere al aspecto no sólo inerte sino incluso siniestro o espeluznante que tienen los robots de aspecto humanoide al hablar y que se debe, sobre todo, a que sus labios no se mueven o lo hacen sin lip sync; es decir, no se mueven de manera acorde con las palabras que están pronunciando.

Pero eso podría cambiar, ya que un equipo de Ingeniería de la Universidad de Columbia anunció el pasado 14 de enero que crearon de un robot que, por primera vez, es capaz de aprender movimientos faciales de los labios para tareas como hablar y cantar.

En un nuevo estudio publicado en la revista Science Robotics, los investigadores demuestran cómo su robot utilizó sus habilidades para articular palabras en varios idiomas e incluso cantar una canción de su álbum debut, “hello world_”, generado por inteligencia artificial (IA).

La capacidad de hacer lip sync también es un producto de la IA, y el robot la adquirió mediante aprendizaje observacional, no mediante reglas.

Primero aprendió a usar sus 26 motores faciales observando su propio reflejo en el espejo, antes de aprender a imitar el movimiento labial humano viendo horas de videos de YouTube.

“Cuanto más interactúe con los humanos, mejor se volverá“, dice Hod Lipson, profesor de Innovación en el Departamento de Ingeniería Mecánica y director del Laboratorio de Máquinas Creativas de la Universidad de Columbia, en un comunicado de la propia institución.

El robot se observa hablando

Los rostros humanos están animados por docenas de músculos que se encuentran justo debajo de una piel suave y se sincronizan naturalmente con las cuerdas vocales y los movimientos labiales; los rostros humanoides son mayormente rígidos, operan con relativamente pocos grados de movimiento, y el movimiento de sus labios está coreografiado según reglas rígidas y predefinidas.

Así que hay dos razones principales por las que lograr un movimiento labial realista en un robot es un desafío. La primera es que se requiere un hardware especializado con una piel facial flexible y accionada por numerosos motores diminutos que pueden funcionar en conjunto de forma rápida y silenciosa.

La segunda es, por supuesto, la dificultad de coordinar los sonidos el patrón específico de la dinámica labial, que es una función compleja dictada por las secuencias de fonemas y que, en el caso de los robots, no está relacionada con la producción de los mismos.

Para este estudio, el equipo de investigadores superó estos obstáculos desarrollando un rostro flexible equipado con 26 motores y permitiendo que el robot aprendiera a usarlo.

Así, lo primero, fue colocarlo frente a un espejo para que el robot aprendiera cómo se mueve su propio rostro en respuesta a la actividad muscular. Como un niño que hace muecas frente a un espejo por primera vez, el robot realizó miles de expresiones faciales y gestos labiales aleatorios.

Después, los investigadores colocaron al robot frente a videos grabados de humanos hablando y cantando para que la IA aprendiera cómo se movían las bocas de los humanos en el contexto de los diversos sonidos que emitían.

Con estos dos modelos, la IA del robot pudo traducir los audios directamente en movimientos labiales, sin necesidad de tener conocimiento específico del significado de los fragmentos de audio.

Todavía estamos en el “valle inquietante”

Los investigadores reconocen que el movimiento labial de su robot dista mucho de ser perfecto. “Tuvimos dificultades particulares con sonidos fuertes como la ‘B’ y con sonidos que implican fruncir los labios, como la ‘W’. Pero es probable que estas habilidades mejoren con el tiempo y la práctica”, afirmó Lipson.

Por otra parte, como se puede ver en el video que publicó la Universidad de Columbia, el movimiento de los labios no es suficiente para salir del “valle inquietante”, la inmovilidad del resto de la cara aún resulta un poco siniestro.

Sin embargo, aunque los humanos atribuimos mucha importancia a los gestos faciales en general, hacemos énfasis sobre todo en el movimiento de los labios; de hecho, casi la mitad de nuestra atención visual durante una conversación cara a cara se centra en el movimiento de los labios.

Aun así, en el nuevo robot, “cuando la capacidad de sincronización labial se combina con IA conversacional como ChatGPT o Gemini, el efecto añade una profundidad completamente nueva a la conexión que el robot establece con el humano”, explicó Yuhang Hu, quien dirigió el estudio como parte de su proyecto de doctorado.

“Cuanto más observe el robot a los humanos conversar, mejor imitará los gestos faciales sutiles con los que podemos conectar emocionalmente, y cuanto más larga sea la ventana de contexto de la conversación, más sensibles al contexto se volverán estos gestos”, añadió.

Con información de Latinus.

Notas Relacionadas

Zócalo

|

Tecnología

|

Información

Crean el primer robot capaz de hacer lip sync al hablar y cantar en varios idiomas

La máquina empezó por aprender, haciendo gestos frente a un espejo, a mover sus labios con los 26 pequeños motores con que está equipada.

El robot se observa hablando

Todavía estamos en el “valle inquietante”

Bancos pierden 40% de clientes por procesos lentos: la automatización como salvavidas

Inicia registro de celulares a la CURP: Todo lo que debes saber paso a paso

Captan por primera vez detalles de la ‘adolescencia’ de los sistemas planetarios

‘Erupción cósmica’: Investigadores descubren un agujero negro que despertó tras 100 millones de años

Preferencias de atletas profesionales en teléfonos inteligentes avanzados

Marca IA diferencia entre distintas gamas de smartphones

La IA impulsa una nueva era de autoanálisis médico