MaGGIe демонструє чудові результати у відтворенні волосся та розділенні екземплярів на природних зображеннях, перевершуючи MGM та InstMatt у складних сценаріях із кількома екземплярами.MaGGIe демонструє чудові результати у відтворенні волосся та розділенні екземплярів на природних зображеннях, перевершуючи MGM та InstMatt у складних сценаріях із кількома екземплярами.

Надійне матування з керуванням маскою: управління зашумленими вхідними даними та універсальністю об'єктів

2025/12/21 02:00

Анотація та 1. Вступ

  1. Пов'язані роботи

  2. MaGGIe

    3.1. Ефективне маскування керованого інстанс-маттінгу

    3.2. Часова узгодженість ознак-матів

  3. Набори даних інстанс-маттінгу

    4.1. Інстанс-маттінг зображень та 4.2. Інстанс-маттінг відео

  4. Експерименти

    5.1. Попереднє навчання на даних зображень

    5.2. Навчання на даних відео

  5. Обговорення та посилання

\ Додатковий матеріал

  1. Деталі архітектури

  2. Маттінг зображень

    8.1. Генерація та підготовка набору даних

    8.2. Деталі навчання

    8.3. Кількісні деталі

    8.4. Більше якісних результатів на природних зображеннях

  3. Маттінг відео

    9.1. Генерація набору даних

    9.2. Деталі навчання

    9.3. Кількісні деталі

    9.4. Більше якісних результатів

8.4. Більше якісних результатів на природних зображеннях

Рис. 13 демонструє продуктивність нашої моделі у складних сценаріях, зокрема в точному відтворенні ділянок волосся. Наш фреймворк постійно перевершує MGM⋆ у збереженні деталей, особливо у складній взаємодії інстансів. У порівнянні з InstMatt, наша модель демонструє кращу сепарацію інстансів та точність деталей у неоднозначних регіонах.

\ Рис. 14 та рис. 15 ілюструють продуктивність нашої моделі та попередніх робіт в екстремальних випадках з декількома інстансами. У той час як MGM⋆ має труднощі з шумом та точністю у сценаріях з щільними інстансами, наша модель зберігає високу точність. InstMatt без додаткових даних для навчання показує обмеження в цих складних умовах.

\ Надійність нашого підходу з маскованим керуванням додатково продемонстровано на рис. 16. Тут ми виділяємо проблеми, з якими стикаються варіанти MGM та SparseMat при прогнозуванні відсутніх частин у масках, які вирішує наша модель. Однак важливо зазначити, що наша модель не розроблена як мережа сегментації людських інстансів. Як показано на рис. 17, наш фреймворк дотримується вхідного керівництва, забезпечуючи точне прогнозування альфа-мату навіть з декількома інстансами в одній масці.

\ Нарешті, рис. 12 та рис. 11 підкреслюють можливості узагальнення нашої моделі. Модель точно виділяє як людей, так і інші об'єкти з фону, демонструючи свою універсальність у різних сценаріях та типах об'єктів.

\ Усі приклади є інтернет-зображеннями без істинних даних, а маска з r101fpn400e використовується як керівництво.

\ Рисунок 13. Наша модель створює дуже деталізований альфа-мат на природних зображеннях. Наші результати показують, що вона точна та порівнянна з попередніми методами, що не враховують інстанси та методами з урахуванням інстансів, без дорогих обчислювальних витрат. Червоні квадрати збільшують детальні регіони для кожного інстансу. (Найкраще переглядати в кольорі та з цифровим збільшенням).

\ Рисунок 14. Наш фреймворк точно розділяє інстанси в екстремальному випадку з багатьма інстансами. У той час як MGM часто спричиняє перекриття між інстансами, а MGM⋆ містить шуми, наш дає результати на рівні InstMatt, навченого на зовнішньому наборі даних. Червона стрілка вказує на помилки. (Найкраще переглядати в кольорі та з цифровим збільшенням).

\ Рисунок 15. Наш фреймворк точно розділяє інстанси за один прохід. Запропоноване рішення показує порівнянні результати з InstMatt та MGM без п'ятиразового запуску прогнозування/уточнення. Червона стрілка вказує на помилки. (Найкраще переглядати в кольорі та з цифровим збільшенням).

\ Рисунок 16. На відміну від MGM та SparseMat, наша модель стійка до вхідної маски керівництва. З головою уваги наша модель створює більш стабільні результати для введень масок без складного уточнення між інстансами, як InstMatt. Червона стрілка вказує на помилки. (Найкраще переглядати в кольорі та з цифровим збільшенням).

\ Рисунок 17. Наше рішення правильно працює з масками керівництва декількох інстансів. Коли кілька інстансів існують в одній масці керівництва, ми все одно створюємо правильний об'єднаний альфа-мат для цих інстансів. Червона стрілка вказує на помилки або область збільшення в червоному прямокутнику. (Найкраще переглядати в кольорі та з цифровим збільшенням).

\ Таблиця 12. Деталі кількісних результатів на HIM2K+M-HIM2K (розширення таблиці 5). Сірим позначено публічну вагу без повторного навчання.

\ Таблиця 12. Деталі кількісних результатів на HIM2K+M-HIM2K (розширення таблиці 5). Сірим позначено публічну вагу без повторного навчання. (Продовження)

\ Таблиця 12. Деталі кількісних результатів на HIM2K+M-HIM2K (розширення таблиці 5). Сірим позначено публічну вагу без повторного навчання. (Продовження)

\ Таблиця 12. Деталі кількісних результатів на HIM2K+M-HIM2K (розширення таблиці 5). Сірим позначено публічну вагу без повторного навчання. (Продовження)

\ Таблиця 13. Ефективність запропонованих модулів часової узгодженості на V-HIM60 (розширення таблиці 6). Комбінація двонаправленого Conv-GRU та злиття вперед-назад досягає найкращої загальної продуктивності на трьох тестових наборах. Жирним виділено найкраще для кожного рівня.

\

:::info Автори:

(1) Chuong Huynh, University of Maryland, College Park ([email protected]);

(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);

(4) Joon-Young Lee, Adobe Research ([email protected]).

:::


:::info Ця стаття доступна на arxiv за ліцензією CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.