MaGGIe sobresale en el renderizado de cabello y la separación de instancias en imágenes naturales, superando a MGM e InstMatt en escenarios complejos de múltiples instancias.MaGGIe sobresale en el renderizado de cabello y la separación de instancias en imágenes naturales, superando a MGM e InstMatt en escenarios complejos de múltiples instancias.

Matting Robusto Guiado por Máscara: Gestión de Entradas Ruidosas y Versatilidad de Objetos

2025/12/21 02:00
Lectura de 3 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante [email protected]

Resumen y 1. Introducción

  1. Trabajos Relacionados

  2. MaGGIe

    3.1. Matting de Instancia Guiado por Máscara Eficiente

    3.2. Consistencia Temporal Feature-Matte

  3. Conjuntos de Datos de Matting de Instancia

    4.1. Matting de Instancia de Imagen y 4.2. Matting de Instancia de Video

  4. Experimentos

    5.1. Pre-entrenamiento con datos de imagen

    5.2. Entrenamiento con datos de video

  5. Discusión y Referencias

\ Material Suplementario

  1. Detalles de arquitectura

  2. Matting de imagen

    8.1. Generación y preparación del conjunto de datos

    8.2. Detalles de entrenamiento

    8.3. Detalles cuantitativos

    8.4. Más resultados cualitativos en imágenes naturales

  3. Matting de video

    9.1. Generación del conjunto de datos

    9.2. Detalles de entrenamiento

    9.3. Detalles cuantitativos

    9.4. Más resultados cualitativos

8.4. Más resultados cualitativos en imágenes naturales

La Fig. 13 muestra el rendimiento de nuestro modelo en escenarios desafiantes, particularmente en la renderización precisa de regiones de cabello. Nuestro framework supera consistentemente a MGM⋆ en la preservación de detalles, especialmente en interacciones complejas de instancias. En comparación con InstMatt, nuestro modelo exhibe una separación de instancias y precisión de detalles superior en regiones ambiguas.

\ La Fig. 14 y la Fig. 15 ilustran el rendimiento de nuestro modelo y trabajos anteriores en casos extremos que involucran múltiples instancias. Mientras que MGM⋆ tiene dificultades con ruido y precisión en escenarios de instancias densas, nuestro modelo mantiene alta precisión. InstMatt, sin datos de entrenamiento adicionales, muestra limitaciones en estos entornos complejos.

\ La robustez de nuestro enfoque guiado por máscara se demuestra además en la Fig. 16. Aquí, destacamos los desafíos que enfrentan las variantes de MGM y SparseMat al predecir partes faltantes en las entradas de máscara, que nuestro modelo aborda. Sin embargo, es importante notar que nuestro modelo no está diseñado como una red de segmentación de instancias humanas. Como se muestra en la Fig. 17, nuestro framework se adhiere a la guía de entrada, asegurando una predicción precisa de alpha matte incluso con múltiples instancias en la misma máscara.

\ Por último, la Fig. 12 y la Fig. 11 enfatizan las capacidades de generalización de nuestro modelo. El modelo extrae con precisión tanto sujetos humanos como otros objetos de los fondos, mostrando su versatilidad en diversos escenarios y tipos de objetos.

\ Todos los ejemplos son imágenes de Internet sin ground-truth y la máscara de r101fpn400e se utiliza como guía.

\ Figura 13. Nuestro modelo produce alpha matte altamente detallado en imágenes naturales. Nuestros resultados muestran que es preciso y comparable con métodos anteriores agnósticos a instancias y conscientes de instancias sin costos computacionales costosos. Los cuadrados rojos amplían las regiones de detalle para cada instancia. (Mejor visualización en color y zoom digital).

\ Figura 14. Nuestros frameworks separan con precisión las instancias en un caso extremo con muchas instancias. Mientras que MGM a menudo causa la superposición entre instancias y MGM⋆ contiene ruidos, el nuestro produce resultados equivalentes con InstMatt entrenado en el conjunto de datos externo. La flecha roja indica los errores. (Mejor visualización en color y zoom digital).

\ Figura 15. Nuestros frameworks separan con precisión las instancias en una sola pasada. La solución propuesta muestra resultados comparables con InstMatt y MGM sin ejecutar la predicción/refinamiento cinco veces. La flecha roja indica los errores. (Mejor visualización en color y zoom digital).

\ Figura 16. A diferencia de MGM y SparseMat, nuestro modelo es robusto a la máscara de guía de entrada. Con el cabezal de atención, nuestro modelo produce resultados más estables para entradas de máscara sin refinamiento complejo entre instancias como InstMatt. La flecha roja indica los errores. (Mejor visualización en color y zoom digital).

\ Figura 17. Nuestra solución funciona correctamente con guías de máscara de múltiples instancias. Cuando existen múltiples instancias en una máscara de guía, seguimos produciendo el alpha matte de unión correcto para esas instancias. La flecha roja indica los errores o la región ampliada en el cuadro rojo. (Mejor visualización en color y zoom digital).

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento.

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento. (Continuación)

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento. (Continuación)

\ Tabla 12. Detalles de resultados cuantitativos en HIM2K+M-HIM2K (Extensión de la Tabla 5). El gris indica el peso público sin reentrenamiento. (Continuación)

\ Tabla 13. La efectividad de los módulos de consistencia temporal propuestos en V-HIM60 (Extensión de la Tabla 6). La combinación de Conv-GRU bidireccional y fusión hacia adelante-hacia atrás logra el mejor rendimiento general en los tres conjuntos de prueba. La negrita resalta lo mejor para cada nivel.

\

:::info Autores:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Este artículo está disponible en arxiv bajo licencia CC by 4.0 Deed (Atribución 4.0 Internacional).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección [email protected] para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

También te puede interesar

Irán volvió a atacar con misiles la principal instalación de gas de Qatar, el mayor centro de GNL del mundo

Irán volvió a atacar con misiles la principal instalación de gas de Qatar, el mayor centro de GNL del mundo

Un ataque con misiles iraníes dañó la principal instalación de gas de Qatar
Compartir
Lanacion2026/03/19 11:31
La felicidad

La felicidad

Cada 20 de marzo el calendario nos recuerda una aspiración tan universal como esquiva, tan inalcanzable como fugaz, por momentos intangible o material y palpabl
Compartir
Lanacion2026/03/19 11:13
Bitcoin prueba la apertura semanal mientras se avecina una brecha de Precio Justo de $113,300 — ¿Qué significa esto?

Bitcoin prueba la apertura semanal mientras se avecina una brecha de Precio Justo de $113,300 — ¿Qué significa esto?

La publicación Bitcoin prueba la apertura semanal mientras se avecina una brecha de valor justo de $113,300 — ¿Qué significa esto? apareció en BitcoinEthereumNews.com. Semilore Faleti es un escritor de criptomonedas especializado en el campo del periodismo y la creación de contenido. Aunque comenzó escribiendo sobre varios temas, Semilore pronto encontró una habilidad para descifrar las complejidades e intrincaciones en el intrigante mundo de las blockchains y criptomonedas. Semilore se siente atraído por la eficiencia de los activos digitales en términos de almacenamiento y transferencia de valor. Es un firme defensor de la adopción de criptomonedas ya que cree que puede mejorar la digitalización y transparencia de los sistemas financieros existentes. En dos años de escritura activa sobre cripto, Semilore ha cubierto múltiples aspectos del espacio de activos digitales incluyendo blockchains, finanzas descentralizadas (DeFi), staking, tokens no fungibles (NFT), regulaciones y actualizaciones de red entre otros. En sus primeros años, Semilore perfeccionó sus habilidades como escritor de contenido, curando artículos educativos que atendían a una amplia audiencia. Sus piezas fueron particularmente valiosas para personas nuevas en el espacio cripto, ofreciendo explicaciones perspicaces que desmitificaban el mundo de las monedas digitales. Semilore también curó piezas para usuarios veteranos de cripto asegurándose de que estuvieran al día con las últimas blockchains, aplicaciones descentralizadas y actualizaciones de red. Esta base en la escritura educativa ha continuado informando su trabajo, asegurando que su trabajo actual siga siendo accesible, preciso e informativo. Actualmente en NewsBTC, Semilore se dedica a informar las últimas noticias sobre la acción del precio de las criptomonedas, desarrollos en cadena y actividad de ballenas. También cubre los últimos análisis de tokens y predicciones de precios de los principales expertos del mercado, proporcionando así a los lectores información potencialmente perspicaz y procesable. A través de su meticulosa investigación y estilo de escritura atractivo, Semilore se esfuerza por establecerse como una fuente confiable en el campo del periodismo cripto para informar y educar a su audiencia sobre las últimas tendencias y desarrollos en el mundo en rápida evolución de los activos digitales. Fuera de su trabajo, Semilore posee otras pasiones como todos los individuos. Él...
Compartir
BitcoinEthereumNews2025/09/21 09:38