Завдання стиснення розміру зображення з мінімальною втратою якості — це одна з актуальних проблем в комп'ютерному зорі. Для її вирішення state-of-the-art підходом є використання GAN. Дослідники з Google Research проекспериментували з архітектурами GAN для стиснення зображень. Розробники порівнюють види нормалізації, стратегії навчання, функції втрат і архітектури генератора та дискримінатора. Запропонована відібрана модель (HiFiC), за результатами порівнянь, краща навіть у випадку, якщо минулі підходи використовують бітрейт у два рази вище. Підхід можна застосовувати для зображень у високій роздальній здатності.
Архітектура нейромережі
Нижче представлена структура моделі, яка складається з чотирьох компонентів:
- Кодер;
- Генератор;
- Імовірнісна модель;
- Дискримінатор
ConvC — це згортка з C каналами; Norm — це LayerNorm; LReLU — це leaky ReLU активація, а Q означає квантизацию.
Тестування HiFiC
Дослідники оцінили модель кількісними та якісними способами. Кількісна оцінка проводилася за допомогою метрик FID, KID, NIQE, LPIPS, PSNR і MS-SSIM. Результати, які генерує модель, відповідають rate-distortion-perception теорії.
Ще немає коментарів