La mayoría de los modelos de localización de fuentes de habla binaural tienen un rendimiento deficiente en situaciones inusualmente ruidosas y reverberantes. Aquí, este problema se aborda modelando una red neuronal convolucional (CNN) dilatada multisegmentada. La función de correlación cruzada relacionada con el tiempo (CCF) y las diferencias de nivel interaural relacionadas con la energía (ILD) se preprocesan en ramas separadas de la red convolucional dilatada. La CNN dilatada multisegmentada puede codificar representaciones discriminativas para CCF e ILD, respectivamente. Después de la codificación, las representaciones interaurales individuales se fusionan para mapear la dirección de la fuente. Además, para mejorar la adaptación de parámetros, se propone una nueva entropía semiadaptativa para entrenar la red bajo restricciones direccionales. Los resultados experimentales muestran que el método propuesto puede localizar de manera adaptativa fuentes de habla en entornos ruidosos y reverberantes simulados.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículos:
Codificación conjunta adaptativa de fuente-canal con pérdidas para redes IoT multihop
Artículos:
Un modelo de taxonomía de jugadores optimizado para MMORPGs móviles con millones de usuarios.
Artículos:
Estudio predictivo de la incidencia de tuberculosis mediante un modelo ARMA combinado con variables de contaminación del aire.
Artículos:
Modelado y optimización de procesos empresariales colaborativos para aplicaciones IoT
Artículos:
La Estructura de Dependencia Múltiple de los Mercados Financieros