728x90

AI 비디오 압축이 얼마 지나지 않아 도착합니다.

 

영상 압축을 위한 인공 지능은 가까운 스트리밍 서비스에 오고 있는 기술이며 충분히 빨리 도착할 수 없습니다.

1년 전, 모든 사람들이 밤새 집에서 쫓겨났고 인터넷에 대한 세계적인 수요가 과열되었습니다. 이타적인 행동으로 Netflix, YouTube 및 Disney+는 서비스의 궁극적인 품질을 의도적으로 손상시키는 과정에서 대역폭 소비를 완화하기 위해 비트 전송률을 낮췄습니다(약 한 달 동안).

 

그 즉각적인 위기는 가라앉았을지 모르지만 온라인 비디오 사용이 급증하고 대역폭이 프리미엄으로 남아 있는 세계에서는 몇 가지 장기적인 솔루션이 필요합니다. 보편적인 5G가 있는 세상에서도 대역폭은 유한한 자원이 아닙니다. 5G가 8K VR과 같은 뛰어난 비디오 중심 대역폭 호깅 애플리케이션을 약속할 때는 아닙니다.

 

새로운 영상 압축 기술이 기존의 답이지만 그 발전을 위한 '무어의 법칙'은 한계에 다다랐다. 코딩 알고리즘은 계속해서 수정되었지만 여전히 동일한 원래 체계를 기반으로 합니다.

 

MPEG가 '차세대' 몰입형 애플리케이션을 목표로 하는 VVC(Versatile Video Coding)라는 큰 새 희망조차도 1988년 네안데르탈인 H.261에서 한 세대 떨어진 HEVC에서 한 단계 발전된 것일 뿐입니다.

 

한계에 도달한 것은 컨셉뿐만이 아니다. 실리콘 칩의 물리적 용량도 마찬가지입니다. 코덱은 진화의 막다른 골목에 있습니다. 우리에게 필요한 것은 새로운 종입니다.

 

AI 압축이 프레임에 들어갑니다.

코덱 개발의 영리함은 인공 지능, 기계 학습 및 신경망에서 훈련되고 있습니다.

AI/ML 기술은 수학적으로 모델링하기 어려운 다차원 문제를 해결할 수 있다는 점에서 기존 방법과 근본적으로 다릅니다. 또한 소프트웨어 기반이므로 애플리케이션이 일반 하드웨어에서 실행되거나 클라우드에서 가상화되는 환경에 더 적합합니다.

HEVC 및 VVC에 대한 특허를 보유하고 있는 InterDigital의 Imaging Science Lab 이사인 Lionel Oisel은 "AI를 사용하여 현재와 본질적으로 동일한 스키마를 유지하지만 일부 AI 모듈을 사용할 수 있다고 생각합니다."라고 말합니다. “이는 상당히 보수적이며 비용에 민감한 제조업체가 추진할 것입니다. 우리는 또한 기존 스키마를 버리고 AI를 위한 경쟁 엔드 투 엔드 체인(신경망 설계)을 사용하여 다시 시작할 수 있다고 생각합니다.”

일부 공급업체는 인코딩 매개변수 선택을 최적화하기 위해 ML을 사용했으며 다른 공급업체는 예를 들어 출력 프레임 요소의 예측을 지원하기 위해 훨씬 더 깊은 수준에서 기술을 통합했습니다.

최초의 AI 기반 솔루션

V-Nova는 AI 기반 코덱을 표준화한 최초의 회사라고 주장합니다. 비디오 분석 제공업체인 Metaliquid와 협력하여 V-Nova의 코덱 Perseus Pro를 현재 VC-6(SMPTE 표준 2117)으로 지정된 기여 워크플로용 AI 솔루션으로 구축했습니다.

알고리즘 AI는 초고속으로 적절한 수준의 품질을 유지하면서 대역폭 사용을 최적화하기 위해 비트 전송률을 계산할 수 있습니다.

Nvidia의 Maxine 시스템은 AI를 사용하여 매우 낮은 대역폭의 화상 회의를 위해 비디오를 압축 합니다.

Haivision은 ML을 사용하여 비디오 콘텐츠(타이틀당 또는 장면당)를 분석하여 최적의 비트레이트 래더 및 비디오 인코딩 구성을 결정하는 Lightflow Encode를 제공합니다.

지각 최적화

인간의 시각 시스템이 다양한 비트 전송률과 해상도에서 비디오 콘텐츠를 얼마나 잘 인식하는지 나타내는 LQI라는 비디오 품질 메트릭을 사용합니다. Haivision은 이것이 "상당한" 비트 전송률 감소 및 "지각적 품질 개선을 통해 최적화된 비용 품질 가치가 실현되도록 보장합니다."라고 주장합니다.

 

비디오 코덱을 평가하고 비트 전송률 조정을 자동화하는 데 '방송 품질'보다 지각 품질이 점점 더 많이 사용되고 있습니다. VMAF(Video Multi-method Assessment Fusion)와 같은 메트릭은 인간의 시각 모델링과 기계 학습을 결합하고 랩톱, 연결된 TV 또는 스마트폰에서 스트리밍할 때 시청자가 콘텐츠를 인식하는 방식을 이해하려고 합니다.

그것은 Netflix에 의해 시작되었으며 현재 오픈 소스입니다.

 

"VMAF는 인식 품질과 더 나은 상관 관계가 있는 방식으로 코덱 간의 더 큰 차이와 스케일링 아티팩트를 캡처할 수 있습니다."라고 Netflix는 설명합니다.  "이를 통해 진정으로 관련이 있는 지역의 코덱을 비교할 수 있습니다."

 

스트리밍 기술 회사 Bitmovin의 공동 설립자이자 연구 프로젝트인 Athena Christian Doppler의 회원인 Christian Timmerer에 따르면 이미지 인식에 많이 사용된 ML 기술은 우리가 보고 있는 비디오 스트리밍에 대한 증가하는 수요를 충족하는 데 핵심이 될 것이라고 합니다. 파일럿 연구소. 이 연구소는 현재 프로덕션 스타일의 비디오 코딩 솔루션에 통합된 CNN(Convolutional Neural Network)의 대규모 테스트를 준비하고 있습니다.

 

최근 IEEE Timmerer 팀 에 제출된 논문 에서 비디오의 '다중 표현' 인코딩 속도를 높이기 위해 CNN을 사용할 것을 제안했습니다. 일반인의 관점에서 비디오는 다양한 크기와 품질의 버전 또는 '표현'으로 저장됩니다. 비디오 컨텐츠가 상주하는 서버에서 비디오 컨텐츠를 요청하는 플레이어는 당시의 네트워크 조건에 따라 가장 적합한 표현을 선택합니다.

이론적으로 이것은 인코딩 및 스트리밍 프로세스에 효율성을 추가합니다. 그러나 실제로 인터넷을 통해 비디오를 전달하는 가장 일반적인 접근 방식인 HTTP 적응 스트리밍은 동일한 콘텐츠를 다른 품질 수준으로 인코딩하는 능력에 한계가 있습니다.

 

"CNN을 활용하는 빠른 다중 속도 인코딩 접근 방식은 이전에 인코딩된 표현의 정보를 참조하여 프로세스 속도를 높이는 기능을 제공할 수 있음을 발견했습니다 . "라고 그는 설명합니다 .  "프로세스에서 가장 느린 요소가 아니라 가장 빠른 요소에 성능을 기반으로 합니다."

 

iSIZE 단계

런던에 기반을 둔 스타트업 iSIZE Technologies 는 VMAF와 같은 지각 품질 메트릭의 추세를 활용하기 위해 인코더를 개발했습니다. 표준 코덱 파이프라인의 전처리 단계로 독점적인 심층 지각 최적화 및 사전 코딩 기술을 통합하여 비트 전송률을 절약하고 품질을 개선합니다.

 

이 '프리코더' 단계는 인코딩 후 콘텐츠의 지각 품질 점수에 영향을 미치는 각 프레임 영역의 세부 사항을 향상시키고 덜 중요한 세부 사항을 줄입니다.

 

회사 CEO인 Sergio Grce 는 "우리의 지각 최적화 알고리즘은 그림의 어떤 부분이 우리의 눈을 자극 하고 우리가 전혀 알아차리지 못하는 부분을 이해하려고 합니다 .

 

이는 조직의 기존 코덱 인프라와 워크플로를 변경하지 않고 유지할 뿐만 아니라 단 1프레임의 대기 시간으로 비트 전송률을 30~50% 절약하여 라이브 및 VOD에 적합하다고 주장합니다.

이 회사는 AVC, HEVC 및 VVC에 대해 각각의 경우 "상당한 절감"을 통해 기술( 여기에 표시됨) 을 테스트했습니다 .

Grce는 "YouTube 및 Netflix와 같은 대규모 스트리밍 서비스를 제공하는 회사가 기술 벽에 부딪히는 것에 대해 이야기하기 시작했습니다."라고 말합니다. "그들의 콘텐츠는 수백만의 조회수를 생성하지만 스트리밍 수요의 증가에 대처할 만큼 빠르게 새로운 코덱을 채택하거나 새로운 데이터 센터를 구축할 수 없습니다."

 

오래된 문제, 새로운 도구

MPEG의 공동 창립자인 Leonardo Chiariglione도 벽에 적힌 글을 보았습니다. 그는 2019년 시신을 떠나 인공 지능(AI)에 의한 동영상, 오디오 및 데이터 코딩 MPAI를 설립했습니다. 

 

MPAI는 AI 지원 디지털 데이터 압축 사양을 개발하는 것을 사명으로 하는 국제 비영리 조직으로, 후기의 MPEG와 달리 명확한 지적 재산권(IPR) 라이선스 프레임워크를 사용합니다.

 

1997년에는 IBM Deep Blue와 Garry Kasparov의 경기가 헤드라인을 장식했습니다. 머신비트맨.

Chiariglione은 "IBM Deep Blue와 마찬가지로 오래된 코딩 도구에는 사전에 통계적 지식이 모델링되어 도구에 내장되어 있었지만 AI에서는 통계를 학습하여 지식을 습득합니다 . " 라고 말합니다 .

 

“이것이 AI 도구가 기존 데이터 처리 도구보다 더 유망한 이유입니다. 새로운 시대에는 새로운 도구와 새로운 도구를 사용하도록 조정된 새로운 조직이 필요합니다.”

 

https://www.redsharknews.com/ai-video-compression-is-arriving-not-a-moment-too-soon

 

AI video compression is arriving not a moment too soon

Artificial intelligence for video compression is a technology that is coming to a streaming service near you, and it can't arrive quickly enough.

www.redsharknews.com

 

+ Recent posts