국제영상압축표준 vvc 개선에 ai는 미적용, 8년뒤를 기약

(ISO MPEG) VVC 혹은 (ITU-T) H.266이라는 이름을 갖는 신규 영상 코덱의 국제 표준안이 릴리즈 되었습니다. 관련 기사 공유합니다.

링크 기사 등 대부분의 미디어에서는 꼭 Fraunhofer HHI가 주도해서 신기술을 발표한 것 같이 나오지만 이건 어디까지나 언론플레이(!)고 사실 실제 구성 특허 기준 세계 1위는 H.265/HEVC때부터 Samsung입니다. VVC 또한 HEVC의 기술을 대부분 이어 받고 있어 VVC 또한 Samsung이 1위일 것으로 보입니다. Samsung은 왜 이런거 글로벌 기사로 안 내는지 모르겠어요^^

딥러닝 기술이 등장하기 전에 대부분의 기술이 완성되었던 HEVC와는 달리 VVC의 경우 딥러닝 기반의 기술들이 대거 표준안 진입을 시도했습니다. 다만 수십년간 다듬어져 온 Prediction + Transform hybrid framework를 통째로 대치할 만큼 완성도 높은 기술은 없었기 때문에 기존 framework의 부분 기술들의 성능을 높이려는 시도 위주로 진행되었습니다.

우선, 주위 프레임을 참조하지 못할 때 사용하는 intra picture의 경우 예측을 위해 사용할 수 있는 것이 주변 픽셀 뿐입니다. 이 픽셀들을 3-layer FCN에 입력으로 넣고 출력으로 블록 픽셀들을 만들어내는 기술이 제안되었습니다. 또한, CNN을 이용한 super-resolution, JPEG artifact 감소로 잘 알려져 있는 VDSR 류의 기술도 사용되었는데, 부호화가 다 끝난 후 화질을 향상시키는 기술인 in-loop filter로 제안되었습니다.

그러나, 아쉽게도 최종적으로 VVC에 딥러닝 기반 기술이 채택된 것은 없다고 볼 수 있습니다. 3-layer FCN 기술은 1-layer로 간소화되어 신경망이라기 보다는 단순 matrix multiplication이 되었고, CNN 기반 in-loop filter는 역시 구현 복잡도 측면에서 배제되었고 대신 매 프레임 convolution filter를 (비선형 요소 없음) 추정하는 기술인 ALF (adaptive loop filter)가 채택되었습니다.

주된 이유는 추가된 복잡도에 비해 얻는 효율이 크지 않다는 것입니다. 대부분 2배 이상 복잡해지지만 5% 이내의 효율 향상만이 관측되며, 이러한 기준으로는 굳이 딥러닝 기반 기술을 넣을 이유가 없는 것입니다. 연구 단계라면 모를까, 실제 마켓에 적용하려는 시점에서는 반드시 통과해야 하는 관문이라고 볼 수 있지요.

국제 표준 영상 압축 기술은 수십억대 이상의 device에 적용되는 매스 마켓입니다. (2019년 기준 스마트폰 15억대, TV 2억대, PC 3억대, 태블릿 1.4억대, 이중 H.264는 거의 100%, HEVC는 약 60%) 딥러닝 기술이 이번에 일부라도 포함되었다면, 아마도 글로벌 매스 마켓에 적용된 최초의 딥러닝 기술이 되지 않았을까 개인적으로는 아쉽게 생각합니다.

다음 국제 표준은 약 8년 후에야 나옵니다. 그때까지 딥러닝이 효율, 복잡도 감소 모두 많은 발전을 이루어, 20년 이상 계속되고 있는 기존 기술과 제대로 진검 승부할 수 있기를 바래봅니다.