>  기사  >  기술 주변기기  >  2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유

2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유

WBOY
WBOY앞으로
2024-01-11 22:18:05562검색

최근 몇 년간 차이나텔레콤은 인공지능 기술 방향으로 계속해서 노력해 왔습니다. 2023년 11월 28일, China Telecom Digital Intelligence Technology Branch는 공식적으로 명칭을 China Telecom Artificial Intelligence Technology Co., Ltd.(이하 '통신 AI 회사')로 변경했습니다. 2023년 통신 AI 기업은 국내외 AI 상위 21개 대회에서 연속 수상, 100개 이상의 특허를 출원, CVPR, ACM MM, ICCV 등 주요 학회 및 저널에 30개 이상의 논문을 게재하며 그 성과를 입증했다. 국영중앙기업 인공지능 기술 분야 초기 성과

China Telecom이 인공 지능 사업을 수행하는 전문 회사인 Telecom AI Company는 기술 기반, 역량 기반, 플랫폼 기반 기업입니다. 인공지능 핵심기술 정복과 첨단기술 연구, 산업공간 확장 촉진에 힘쓰고 있으며, 수백억급 인공지능 서비스 기업을 목표로 하고 있다. 지난 2년 동안 Telecom AI Company는 Galaxy AI 알고리즘 창고 역량 강화 플랫폼, Nebula AI 레벨 4 컴퓨팅 파워 플랫폼, Star Universal Basic Large Model 등 일련의 혁신적인 애플리케이션 결과를 독립적으로 성공적으로 개발했습니다. 현재 회사에는 평균 연령 31세의 직원 800명이 넘는데, 그 중 80%가 R&D 인력이고, 70%가 국내외 주요 인터넷 기업과 AI 선도 기업 출신이다. 대형 모델 시대에 R&D 진행을 가속화하기 위해 회사는 A100과 동등한 컴퓨팅 성능을 갖춘 2,500개 이상의 교육 카드와 300명 이상의 정규 데이터 주석 인력을 보유하고 있습니다. 동시에 회사는 상하이 인공 지능 연구소, 시안 교통 대학, 베이징 우편 통신 대학 및 Zhiyuan 연구소와 같은 과학 연구 기관과 협력하여 중국을 위한 세계적 수준의 인공 지능 기술 및 기술을 공동으로 창출합니다. Telecom의 6천만 개의 비디오 네트워크와 수억 개의 사용자 시나리오 애플리케이션

다음으로 2023년 통신 AI 기업이 달성한 몇 가지 중요한 과학 연구 결과를 검토하고 공유하겠습니다. 이번 공유에서는 ICCV 2023 행사에서 Temporal Action Localization 트랙 우승을 차지한 AI R&D 센터 CV 알고리즘 팀의 기술 성과를 소개합니다. ICCV는 국제 컴퓨터 비전 분야 3대 컨퍼런스 중 하나로 2년마다 개최되며 업계에서 높은 평가를 받고 있다. 이 글에서는 이 챌린지에서 팀이 채택한 알고리즘 아이디어와 솔루션을 공유할 것입니다

ICCV 2023 인지 테스트 챌린지 타임 액션 포지셔닝 챔피언 기술 공유

2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유

대회 개요 및 팀 배경

DeepMind가 시작한 ICCV 2023 첫 번째 지각 테스트 챌린지는 비디오, 오디오 및 텍스트 형식에서 모델의 기능을 평가하는 것을 목표로 합니다. 대회에서는 4가지 기술 영역, 4가지 추론 유형, 6가지 계산 작업을 다루며 다중 모드 인식 모델의 기능을 종합적으로 평가합니다. 그중 Temporal Action Localization 트랙의 핵심 작업은 편집되지 않은 영상 콘텐츠에 대한 심층적인 이해와 정확한 동작 포지셔닝을 수행하는 것입니다. 이 기술은 자율 주행 시스템 및 영상 감시 분석과 같은 다양한 응용 시나리오에 큰 의미가 있습니다.

이번 대회에 참가하는 팀은 통신 AI 기업의 트래픽 알고리즘 방향의 멤버들로 구성됩니다. 그 팀을 CTCV라고 합니다. 통신 AI 기업들은 컴퓨터 비전 기술 분야에서 심도 있는 연구를 진행해 풍부한 경험을 축적해왔다. 그 기술적 성과는 도시 거버넌스, 교통 보안 등 다양한 사업 분야에서 널리 활용되며, 계속해서 많은 사용자에게 서비스를 제공하고 있습니다

서문은 기사의 시작이며 독자의 관심을 끌고 배경 정보를 제공하기 위한 것입니다. 좋은 서문은 독자의 관심을 끌고, 기사의 주제를 요약하며, 독자가 계속해서 읽을 수 있도록 영감을 줍니다. 서문을 작성할 때는 간결하고 명확한 언어와 정확하고 강력한 내용에 주의를 기울여야 합니다. 서론의 목적은 독자를 기사의 주제로 안내하는 것이므로 관련 사실, 데이터 또는 생각을 자극하는 질문을 인용하는 것이 필요합니다. 간단히 말해서, 서론은 기사로 가는 관문이며 독자가 계속해서 읽을 것인지를 결정할 수 있습니다

비디오 이해에서 어려운 문제는 비디오의 동작을 위치화하고 분류하는 작업, 즉 TAL(Temporal Action Localization)입니다.

TAL 기술은 최근 상당한 발전을 이루었습니다. 예를 들어 TadTR과 ReAct는 동작 감지를 위해 DETR과 유사한 Transformer 기반 디코더를 채택하여 동작 인스턴스를 학습 가능한 세트로 모델링합니다. TallFormer는 Transformer 기반 인코더를 사용하여 비디오 표현을 추출합니다

위의 방법은 시간적 동작 위치 파악에서 좋은 결과를 얻었지만 비디오 인식 기능에는 몇 가지 제한 사항이 있습니다. 작업 인스턴스를 더 효과적으로 현지화하려면 안정적인 비디오 기능 표현이 핵심입니다. 우리 팀은 먼저 VideoMAE-v2 프레임워크를 사용하고, 어댑터+선형 레이어를 추가하고, 두 개의 서로 다른 백본 네트워크로 동작 범주 예측 모델을 훈련하고, 모델 분류 레이어의 이전 레이어를 사용하여 TAL 작업에 대한 기능을 추출했습니다. 다음으로, 개선된 ActionFormer 프레임워크를 사용하여 TAL 작업을 훈련하고 TAL 작업에 맞게 WBF 메서드를 수정했습니다. 결국, 우리의 방법은 평가 세트에서 mAP 0.50을 달성하여 1위에 올랐고, 2위 팀보다 3% 포인트 앞서고, Google DeepMind에서 제공하는 기준 모델보다 34% 포인트 더 높았습니다

2 경쟁 솔루션

2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유

알고리즘 개요는 아래 그림에 나와 있습니다.

2.1 데이터 강화

2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유

Temporal Action Localization 트랙에서 CTCV 팀이 사용하는 데이터 세트는 액션 현지화를 위해 다듬어지지 않은 비디오이며 고해상도를 가지며 다중 액션 인스턴스의 특성을 포함합니다. 데이터 세트를 분석한 결과, 훈련 세트에는 검증 세트에 비해 세 가지 카테고리 라벨이 부족한 것으로 나타났습니다. 모델 검증의 적절성을 보장하고 경쟁 요구 사항을 충족하기 위해 팀은 소량의 비디오 데이터를 수집하고 이를 훈련 데이터 세트에 추가하여 훈련 샘플을 풍부하게 했습니다. 동시에 주석 처리 과정을 단순화하기 위해 각 비디오 사전 설정에는 하나의 작업만 포함됩니다

그림 2의 자체 수집 동영상 샘플을 참고하세요

2.2 동작 인식 및 특징 추출

최근 몇 년 동안 대규모 데이터 훈련을 기반으로 한 많은 기본 모델이 등장했습니다. 이러한 모델은 제로 샘플 인식, 선형 감지, 신속한 미세 조정, 미세 조정을 통해 기본 모델의 강력한 일반화 기능을 여러 다운스트림 작업에 적용합니다. 및 기타 방법을 통해 인공지능의 여러 측면에서 효과적으로 발전을 촉진했습니다

TAL 트랙의 모션 위치 파악 및 인식은 매우 어렵습니다. 예를 들어, "뭔가를 조각으로 찢는 척"과 "뭔가를 조각으로 찢는 척"이라는 두 가지 동작은 매우 유사하며 이는 의심할 여지 없이 기능 수준에 더 큰 도전을 가져옵니다. 따라서 기존 사전 훈련된 모델을 직접 사용하여 특징을 추출하는 효과는 이상적이지 않습니다

그래서 우리 팀은 JSON 주석 파일을 파싱하여 TAL 데이터 세트를 동작 인식 데이터 세트로 변환했습니다. 그런 다음 Vit-B와 Vit-L을 백본 네트워크로 사용하고 VideoMAE-v2 네트워크 뒤에 분류를 위한 어댑터 계층과 선형 계층을 추가하고 동일한 데이터 도메인에서 작업 분류기를 훈련합니다. 또한 동작 분류 모델에서 선형 레이어를 제거하고 이를 비디오 특징 추출에 사용합니다. VitB 모델의 기능 차원은 768이고 ViTL 모델의 기능 차원은 1024입니다. 이 두 기능을 동시에 연결하면 1792 차원의 새로운 기능이 생성되며 이는 시간적 동작 위치 파악 모델을 훈련하기 위한 대안으로 사용됩니다. 학습 초기 단계에서 오디오 기능을 시도했지만 실험 결과 mAP 지수가 감소한 것으로 나타났습니다. 따라서 후속 실험에서는 오디오 기능을 고려하지 않았습니다

2.3 순차적 동작 위치 지정

Actionformer는 시간 순차 동작 포지셔닝으로 설계된 앵커 프리 모델입니다. 이는 시간적 차원에서 다중 규모 기능과 로컬 자기 주의를 통합합니다. 이번 대회에서 CTCV 팀은 액션 발생의 경계(시작 및 종료 시간)와 범주를 예측하는 데 사용되는 액션 포지셔닝의 벤치마크 모델로 Actionformer를 선택했습니다

CTCV 팀은 동작 경계 회귀 및 동작 분류 작업을 통합 처리합니다. 기본 훈련 구조와 관련하여 비디오 기능은 먼저 다중 스케일 변환기로 인코딩됩니다. 그런 다음 모델 회귀 및 분류의 헤드 분기에 기능 피라미드 레이어가 도입되어 각 시간 단계의 헤드 분기에서 작업 후보가 생성됩니다. 동시에 헤드 수를 32개로 늘리고 fpn1D 구조를 도입하여 모델의 위치 파악 및 인식 기능이 더욱 향상되었습니다

1-D의 2.4 WBF

WBF(Weighted Boxes Fusion)는 혁신적인 감지 프레임 융합 방법입니다. 이 방법은 모든 검출 프레임의 신뢰도를 사용하여 최종 예측 프레임을 구성하고 이미지 타겟 검출에서 좋은 결과를 보여줍니다. NMS 및 Soft-NMS 방법과 달리 가중치 상자 융합은 예측을 삭제하지 않지만 제안된 모든 경계 상자의 신뢰도 점수를 활용하여 평균 상자를 구성합니다. 이 방법은 직사각형 예측의 정확도를 크게 향상시킵니다

WBF에서 영감을 받아 CTCV 팀은 액션의 1차원 경계 상자를 1차원 선분으로 비유하고 WBF 방법을 TAL 작업에 적합하도록 수정했습니다. 실험 결과는 그림 3

과 같이 이 방법의 효율성을 보여줍니다.

2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유

개선된 1차원 WBF 다이어그램은 그림 3에 나와 있습니다

3 실험 결과

3.1 평가 지표. 평가 기준

이 챌린지에 사용되는 평가 지표는 mAP입니다. mAP는 다양한 작업 카테고리와 IoU 임계값에 대한 평균 정확도를 계산하여 결정됩니다. CTCV 팀은 0.1에서 0.5까지 0.1 단위로 IoU 임계값을 평가합니다

3.2 실험 세부 사항은 다음과 같이 다시 작성되었습니다.

다양한 모델을 얻기 위해 CTCV 팀은 훈련 데이터 세트의 80%를 총 5번 리샘플링했습니다. Vit-B, Vit-L, concat의 기능을 모델 학습에 사용하여 15개의 다양한 모델을 성공적으로 획득했습니다. 마지막으로 이들 모델의 평가 결과는 WBF 모듈에 입력되고 각 모델 결과에는 동일한 융합 가중치가 할당됩니다

실험 결과는 다음과 같습니다.

다양한 기능의 성능 비교는 표 1에 나와 있습니다. 첫 번째와 두 번째 행은 ViT-B 및 ViT-L 기능을 사용한 결과를 보여줍니다. 세 번째 행은 ViT-B 및 ViT-L 기능 캐스케이드의 결과를 보여줍니다

실험 중에 CTCV 팀은 캐스케이드 기능의 평균 정밀도(mAP)가 ViT-L보다 약간 낮지만 여전히 ViT-B보다 우수하다는 사실을 발견했습니다. 그럼에도 불구하고 검증 세트에 대한 다양한 방법의 수행을 통해 WBF의 도움으로 평가 세트의 다양한 특징에 대한 예측 결과를 융합했으며 최종적으로 시스템에 제출된 mAP는 0.50

이었습니다.

다시 작성해야 할 내용은 다음과 같습니다. 4 결론

CTCV 팀은 이번 대회에서 성과를 향상하기 위해 다양한 전략을 채택했습니다. 먼저, 데이터 수집을 통해 검증 세트에서 누락된 클래스로 훈련 데이터를 보강했습니다. 둘째, VideoMAE-v2 프레임워크를 사용하여 비디오 특징 추출기를 훈련하기 위한 어댑터 레이어를 추가하고 향상된 ActionFormer 프레임워크를 통해 TAL 작업을 훈련했습니다. 또한 테스트 결과를 효율적으로 융합하기 위해 WBF 방법을 수정했습니다. 결국 CTCV 팀은 평가 세트에서 mAP 0.50을 달성해 1위를 차지했습니다. 통신 AI 기업은 항상 "기술은 비즈니스에서 나오고 비즈니스로 간다"는 개발 철학을 고수해 왔습니다. 그들은 대회를 기술 역량을 테스트하고 향상시키는 중요한 플랫폼으로 간주하며, 고객에게 더 높은 품질의 서비스를 제공하기 위해 대회 참여를 통해 기술 솔루션을 지속적으로 최적화하고 개선합니다. 동시에 대회 참가는 팀원들에게 귀중한 배움과 성장의 기회도 제공합니다

위 내용은 2023 통신 AI 기업 최고 컨퍼런스 논문 및 경쟁 공유의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 sohu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제