Ciencia

La carrera para convertir las ondas cerebrales en discurso fluido

Desbloquee el resumen del editor de forma gratuita

Los neurocientíficos se esfuerzan por dar voz a las personas que no pueden hablar en una búsqueda avanzada de aceleración para aprovechar las ondas cerebrales para restaurar o mejorar las habilidades físicas.

Investigadores de universidades de California y compañías, como la neurociencia de precisión con sede en Nueva York, se encuentran entre los que avanzan hacia la generación del habla naturalista a través de una combinación de implantes cerebrales e inteligencia artificial.

Inversión y atención Durante mucho tiempo se ha centrado en implantes que permiten a las personas discapacitadas operar teclados de computadora, controlar los brazos robóticos o recuperar algún uso de sus propias extremidades paralizadas. Pero algunos laboratorios están avanzando al concentrarse en la tecnología que convierte los patrones de pensamiento en habla.

«Estamos haciendo un gran progreso, y hacer que la voz del cerebro a la sintética sea tan fluida como la conversación entre dos personas que hablan es un objetivo importante», dijo Edward Chang, un neurocirujano de la Universidad de California, San Francisco. «Los algoritmos de IA que estamos usando se están volviendo más rápido y estamos aprendiendo con cada nuevo participante en nuestros estudios».

Un gráfico que muestra cómo funciona la neuroprótesis del habla, convirtiendo los pensamientos en discurso sintético.

Chang y sus colegas, incluso de la Universidad de California, Berkeley el mes pasado publicaron un artículo en Neurociencia de la naturaleza Detallando su trabajo con una mujer con cuadriplegia, o parálisis de las extremidades y torso, que no había podido hablar durante 18 años después de sufrir un derrame cerebral.

Ella entrenó una red neuronal de aprendizaje profundo intentando decir silenciosamente oraciones compuestas usando 1.024 palabras diferentes. El audio de su voz se creó transmitiendo sus datos neuronales a una síntesis conjunta del habla y un modelo de decodificación de texto.

La técnica redujo el retraso entre las señales cerebrales del paciente y el audio resultante de los ocho segundos que el grupo había logrado previamente a un segundo. Esto está mucho más cerca de la brecha de tiempo de 100-200 milisegundos en el habla normal. La mediana de la velocidad de decodificación del sistema fue de 47.5 palabras por minuto, o aproximadamente un tercio de la tasa de conversación normal.

Muchos miles de personas al año podrían beneficiarse de la llamada prótesis de voz. Sus funciones cognitivas siguen siendo más o menos intactas, pero han sufrido la pérdida del habla debido al accidente cerebrovascular, el desorden neurodegenerativo ALS y otras afecciones cerebrales. Si tiene éxito, los investigadores esperan que la técnica pueda extenderse para ayudar a las personas que tienen dificultades para vocalizar debido a condiciones como parálisis cerebral o autismo.

El potencial de la neuroprótesis de voz está comenzando a provocar interés entre las empresas. La neurociencia de precisión afirma estar capturando señales cerebrales de mayor resolución que los investigadores académicos, ya que los electrodos de sus implantes están más densamente empacados.

La compañía ha trabajado con 31 pacientes y planes pronto para recopilar datos de más, proporcionando una vía potencial hacia la comercialización.

Precision recibió autorización regulatoria el 17 de abril para dejar sus sensores implantados por hasta 30 días a la vez. Eso permitiría a sus científicos capacitar a su sistema con lo que podría ser dentro de un año ser el «repositorio más grande de datos neuronales de alta resolución que existe en el planeta Tierra», dijo el director ejecutivo Michael Mager.

El siguiente paso sería «miniaturizar los componentes y ponerlos en paquetes sellados herméticamente que son biocompatibles para que puedan plantarse en el cuerpo para siempre», dijo Mager.

Neuralink de Elon Musk, la compañía de interfaz cerebral (BCI) más conocida, se ha centrado en permitir que las personas con parálisis controlen las computadoras en lugar de darles una voz sintética.

Un obstáculo importante para el desarrollo de la tecnología de cerebro a la voz es el tiempo que toman los pacientes para aprender a usar el sistema.

Una pregunta clave sin respuesta es cuánto los patrones de respuesta en la corteza motora, la parte del cerebro que controla las acciones voluntarias, incluido el habla, varían entre las personas. Si se mantuvieron muy similares, los modelos de aprendizaje automático capacitados en individuos anteriores podrían usarse para nuevos pacientes, dijo Nick Ramsey, investigador de BCI en el Centro Médico Universitario Utrecht.

Eso aceleraría un proceso que hoy toma «decenas o cientos de horas generando suficientes datos al mostrar un mensaje de texto participante y pedirles que intenten hablarlo».

Ramsey dijo que todas las investigaciones de cerebro a la voz se centraron en la corteza motora donde las neuronas activan los músculos involucrados en hablar, sin evidencia de que el discurso pueda generarse a partir de otras áreas del cerebro o decodificando los pensamientos internos.

«Incluso si pudieras, no querrás que la gente escuche tu discurso interno», agregó. «Hay muchas cosas que no digo en voz alta porque no serían para mi beneficio o podrían lastimar a las personas».

El desarrollo de una voz sintética tan buena como el discurso saludable podría estar «bastante lejos», dijo Sergey Stavisky, codirector del Laboratorio de Neuroprothetics en la Universidad de California, Davis.

Su laboratorio había demostrado que podría decodificar lo que alguien estaba tratando de decir con aproximadamente el 98 por ciento de precisión, dijo. Pero la salida de voz no es instantánea y no captura importantes cualidades del habla como el tono. No estaba claro si el hardware de grabación, los electrodos, que se utiliza podría permitir que la síntesis coincida con una voz humana saludable, agregó.

Los científicos necesitaban desarrollar una comprensión más profunda de cómo el cerebro codifica la producción del habla y los mejores algoritmos para traducir la actividad neuronal en resultados vocales, agregó Stavisky.

Él dijo: «En última instancia, una neuroprótesis de voz debería proporcionar el rango expresivo completo de la voz humana, para que, por ejemplo, puedan controlar con precisión su tono y tiempo y hacer cosas como cantar».

Enlace de origen

Publicaciones relacionadas

Botón volver arriba