>  기사  >  기술 주변기기  >  인공지능이 하드웨어 개발을 더 좋게 만드는 방법

인공지능이 하드웨어 개발을 더 좋게 만드는 방법

王林
王林앞으로
2023-04-13 08:13:021784검색

인공지능이 하드웨어 개발을 더 좋게 만드는 방법

컴퓨터 하드웨어는 수년 동안 덜 활성화된 시장이었습니다. 지배적인 x86 마이크로프로세서 아키텍처는 소형화를 통해 달성할 수 있는 성능 향상의 한계에 도달했기 때문에 제조업체는 주로 칩에 더 많은 코어를 넣는 데 중점을 둡니다.

빠르게 발전하는 머신러닝과 딥러닝에 GPU는 구원자입니다. 원래 그래픽 처리용으로 설계된 GPU는 수천 개의 작은 코어를 가질 수 있으므로 AI 훈련에 필요한 병렬 처리 기능에 이상적입니다.

인공지능의 본질은 병렬 처리의 이점을 누리는데, 약 10년 전에 화면에 픽셀을 표시하도록 설계된 GPU가 병렬 처리 엔진이고 많은 양의 데이터를 넣을 수 있기 때문에 이에 적합하다는 것이 밝혀졌습니다. 그 안에 코어가 있습니다.

시가총액이 2015년 180억 달러 미만에서 작년 시장이 위축되기 전 7,350억 달러로 급증한 Nvidia에게는 좋은 소식입니다. 최근까지 이 회사는 사실상 전체 시장을 독점하고 있었습니다. 하지만 많은 경쟁자들이 이를 바꾸려고 노력하고 있습니다.

AI 워크로드 측면에서는 지금까지 대부분 Nvidia의 GPU였지만 사용자들은 이를 한 단계 더 발전시킬 수 있는 기술을 찾고 있으며, 고성능 컴퓨팅과 AI 워크로드가 계속 융합되면서 더 많은 유형을 보게 될 것입니다. 가속기가 등장하고 있습니다.

새로운 하드웨어 개발 가속화

대형 칩 제조업체들은 가만히 있지 않습니다. 3년 전 인텔은 이스라엘 칩 제조업체인 하바나 랩스(Havana Labs)를 인수하고 이 회사를 인공 지능 개발 노력의 초점으로 삼았습니다.

하바나가 지난 봄 출시한 가우디2 트레이닝 최적화 프로세서와 그레코 추론 프로세서는 엔비디아의 플래그십 프로세서인 A100보다 최소 2배 이상 빠르다고 합니다.

올해 3월 NVIDIA는 800억 개의 트랜지스터와 회사의 고속 NVLink 상호 연결을 지원하는 H100 가속기 GPU를 출시했습니다. 자연어 처리에 사용되는 Transformer 기반 모델의 실행 속도를 이전 세대 대비 6배 가속화할 수 있는 전용 엔진이 탑재됐다. MLPerf 벤치마크를 사용한 최근 테스트에서는 H100이 대부분의 딥 러닝 테스트에서 Gaudi2보다 성능이 뛰어난 것으로 나타났습니다. Nvidia는 소프트웨어 스택에서도 이점을 갖고 있는 것으로 보입니다.

중앙 집중식 소프트웨어 생태계에 접근할 수 있기 때문에 많은 사용자가 GPU를 선택합니다. NVIDIA가 이렇게 성공한 이유는 생태계 전략을 수립했기 때문입니다.

하이퍼스케일 클라우드 컴퓨팅 회사는 칩 제조업체보다 훨씬 일찍 이 분야에 진출했습니다. Google LLC의 Tensor 처리 장치는 2016년에 출시되어 현재 4세대에 달하는 애플리케이션별 집적 회로입니다. Amazon Web Services는 2018년에 기계 학습용 추론 처리 가속기를 출시하여 GPU 가속 인스턴스보다 2배 이상의 성능을 제공한다고 주장했습니다.

지난달 회사는 Trainium 칩을 기반으로 한 클라우드 인스턴스의 일반 가용성을 발표하면서 비슷한 성능을 갖춘 딥 러닝 모델 교육 시나리오에서 GPU 기반 EC2보다 비용이 50% 저렴하다고 밝혔습니다. 두 회사의 노력은 주로 클라우드 서비스를 통한 전달에 중점을 두고 있습니다.

기존 시장 리더들이 점진적인 개선에 중점을 두는 반면, AI 관련 하드웨어를 구축하는 스타트업에서는 더욱 흥미로운 혁신이 많이 일어나고 있습니다. 데이터에 따르면 지난해 칩 스타트업에 투자된 18억 달러 중 대부분을 벤처캐피탈리스트가 유치했는데, 이는 2017년 금액의 두 배 이상이다.

세계 인공지능 칩 시장은 2020년 80억 달러에서 2030년에는 약 1,950억 달러로 성장할 것으로 예상됩니다.

더 작고, 더 빠르고, 더 저렴

x86 CPU를 교체하려는 스타트업은 거의 없지만 그렇게 할 수 있는 영향력이 상대적으로 작기 때문입니다. 칩은 더 이상 병목 현상이 아니며, 서로 다른 칩 간의 통신은 큰 병목 현상이 됩니다.

CPU는 파일 관리 및 작업 할당과 같은 낮은 수준의 작업을 수행하지만 순전히 CPU 전용 접근 방식은 더 이상 확장에 적합하지 않습니다. CPU는 파일 열기부터 메모리 캐시 관리에 이르기까지 다양한 활동에 적합하도록 설계되었습니다. 범용적이어야 합니다. 이는 AI 모델 훈련에 필요한 대규모 병렬 행렬 산술 연산에 적합하지 않다는 것을 의미합니다.

시장의 대부분의 활동은 보조 프로세서 가속기, 애플리케이션별 집적 회로 및 특정 용도에 맞게 미세 조정할 수 있는 현장 프로그래밍 가능 게이트 어레이를 중심으로 이루어집니다.

모든 사람은 알고리즘을 소프트웨어로 실행하는 대신 프로세서에 하드코딩하여 CPU와 함께 작동하여 AI 워크로드의 특정 부분을 대상으로 하는 보조 프로세서를 개발한다는 Google의 설명을 따르고 있습니다.

가속 방정식

가속 방정식은 자율 주행 자동차 및 비디오 감시와 같은 엣지 컴퓨팅 시나리오를 위한 소위 그래픽 스트림 프로세서를 개발하는 데 사용됩니다. 완전히 프로그래밍 가능한 칩셋은 CPU의 많은 기능을 수행하지만 단 7와트의 전력만 사용하여 작업 수준 병렬성과 스트리밍 실행 처리에 최적화되어 있습니다.

아키텍처는 개체 간의 관계가 연결된 노드와 가장자리로 표현되는 그래프 데이터 구조를 기반으로 합니다. 각 기계 학습 프레임워크는 그래프 개념을 사용하여 칩 설계 전반에 걸쳐 동일한 의미를 유지합니다. CMM을 포함하지만 사용자 정의 노드를 포함하는 전체 그래프를 실행할 수 있습니다. 이 그래프에서는 모든 병렬 작업의 속도를 높일 수 있습니다.

그래픽 기반 아키텍처는 GPU 및 CPU의 용량 제한 중 일부를 해결하고 다양한 유형의 AI 작업에 보다 유연하게 적응할 수 있습니다. 또한 개발자는 더 나은 추론을 위해 더 많은 처리를 에지로 이동할 수 있습니다. 기업이 처리량의 80%를 사전 처리할 수 있다면 많은 시간과 비용을 절약할 수 있습니다.

이러한 애플리케이션은 데이터에 더 가까운 인텔리전스를 가져오고 신속한 의사 결정을 내릴 수 있습니다. 대부분의 목표는 계산 집약적인 훈련 작업보다는 AI 모델의 현장 배포인 추론입니다.

한 회사에서는 지연 시간과 외부 저장 장치의 필요성을 줄이기 위해 인메모리 컴퓨팅을 사용하는 칩을 개발하고 있습니다. 인공지능 플랫폼은 높은 정확도를 유지하면서 여러 신경망을 실행할 수 있는 유연성과 능력을 제공할 것입니다.

데이터 처리 장치 시리즈는 수십 개의 작업을 병렬로 실행할 수 있는 확장 가능한 80코어 프로세서를 갖춘 대규모 병렬 프로세서 어레이입니다. 주요 혁신은 각 처리 요소 내부에 텐서 보조 프로세서를 긴밀하게 통합하고 요소 간 직접적인 텐서 데이터 교환을 지원하여 메모리 대역폭 병목 현상을 방지하는 것입니다. 이를 통해 동일한 처리 요소에서 전처리와 후처리가 수행되므로 효율적인 AI 애플리케이션 가속화가 가능합니다.

그리고 일부 회사는 썸네일 크기의 칩셋을 사용하여 딥 러닝 모델을 추론하는 데 중점을 두고 있습니다. 회사에서는 3와트 미만의 전력을 소비하면서 초당 26조 번의 작업을 수행할 수 있다고 주장합니다. 부분적으로 이는 딥 러닝 모델을 훈련하는 데 사용되는 각 네트워크 계층을 필요한 컴퓨팅 요소로 분해하고 이를 딥 러닝용으로 특별히 제작된 칩에 통합함으로써 달성됩니다.

온보드 메모리를 사용하면 오버헤드가 더욱 줄어들고 전체 네트워크가 칩 내부에 있으며 외부 메모리가 없으므로 칩이 더 작아지고 에너지를 덜 소비할 수 있습니다. 이 칩은 거의 실시간 고화질 이미지에서 딥 러닝 모델을 실행할 수 있어 단일 장치가 4개 차선에서 자동 번호판 인식을 동시에 실행할 수 있습니다.

하드웨어의 현재 개발

일부 스타트업에서는 인공 지능 모델을 훈련하고 실행하기 위한 전체 플랫폼을 재정의하는 것을 목표로 문샷 접근 방식을 더 취하고 있습니다.

예를 들어, 기계 학습에 최적화된 AI 프로세서는 거의 9,000개의 동시 스레드와 900MB의 프로세서 내 메모리를 사용하여 초당 최대 350조 개의 처리 작업을 관리할 수 있습니다. 통합 컴퓨팅 시스템은 Bow-2000IPU 머신으로 불리며 초당 1.4페타플롭스의 연산이 가능하다고 합니다.

이 제품의 차이점은 3차원 적층형 칩 설계로 거의 1500개의 병렬 처리 코어를 하나의 칩에 패키징할 수 있다는 것입니다. 이 모든 사업은 완전히 다른 사업을 운영할 수 있습니다. 이는 대규모 데이터 블록에서 동일한 작업을 실행하는 것을 선호하는 널리 사용되는 GPU 아키텍처와 다릅니다.

또 다른 예로, 일부 회사에서는 집적 회로에서 연결된 구성 요소 간의 배선인 상호 연결 문제를 해결하고 있습니다. 프로세서가 이론적 최대 속도에 도달하면 비트를 이동하는 경로가 점점 더 병목 현상이 됩니다. 특히 여러 프로세서가 동시에 메모리에 액세스하는 경우 오늘날의 칩은 더 이상 상호 연결의 병목 현상이 아닙니다.

이 칩은 저에너지 패키지에 고속과 넓은 대역폭을 결합한 인공 지능 플랫폼의 나노광자 도파관을 사용합니다. 이는 본질적으로 여러 다른 프로세서와 가속기를 연결할 수 있는 광통신 계층입니다.

AI 결과의 품질은 매우 크고 복잡한 모델을 동시에 지원하는 동시에 매우 높은 처리량 응답을 달성하는 능력에서 비롯됩니다. 두 가지 모두 달성 가능합니다. 이는 대부분의 인공 지능 응용을 포함하여 선형 대수학을 사용하여 수행할 수 있는 모든 작업에 적용됩니다.

하드웨어와 소프트웨어 통합 플랫폼에 대한 기대가 매우 높습니다. 기업은 데이터 센터에서 엣지까지 어디에서나 인공 지능 및 기타 데이터 집약적 애플리케이션을 실행할 수 있는 R&D 플랫폼과 같은 이 지점을 포착했습니다.

그리고 하드웨어 플랫폼은 머신러닝과 딥러닝용으로 설계된 맞춤형 7nm 칩을 사용합니다. 재구성 가능한 데이터 흐름 아키텍처는 AI에 최적화된 소프트웨어 스택을 실행하며, 하드웨어 아키텍처는 메모리 액세스를 최소화하여 상호 연결 병목 현상을 줄이도록 설계되었습니다.

프로세서는 AI 또는 고성능 컴퓨팅 HPC 워크로드에 맞게 재구성할 수 있습니다. 프로세서는 더 높은 성능 수준에서 대규모 매트릭스 작업을 처리하도록 설계되어 워크로드가 변화하는 고객에게 이상적입니다.

CPU, GPU, 심지어 FPGA도 트랜잭션 시스템 및 ERP와 같은 결정론적 소프트웨어에 매우 적합한 반면, 기계 학습 알고리즘은 확률적이므로 결과를 미리 알 수 없으므로 완전히 다른 종류의 하드웨어 인프라가 필요합니다.

플랫폼은 1TB의 고속 이중 데이터 속도 동기 메모리를 프로세서에 연결하여 상호 연결 문제를 최소화하고 본질적으로 20배 더 빠른 온칩 메모리로 DDR 컨트롤러 대기 시간을 마스킹하므로 사용자에게 투명하며 이를 통해 다음을 수행할 수 있습니다. 타일링이나 다운샘플링 없이 더 높은 매개변수 개수의 언어 모델과 최고 해상도 이미지를 훈련합니다.

타일링은 이미지를 더 작은 덩어리로 분할하고 각 덩어리를 분석한 다음 다시 결합하여 컴퓨팅 성능의 필요성을 줄이는 이미지 분석에 사용되는 기술입니다. 다운샘플링은 교육 데이터의 무작위 하위 집합에 대해 모델을 교육하여 시간과 계산 리소스를 절약합니다. 그 결과 GPU 기반 시스템보다 속도가 빠를 뿐만 아니라 더 큰 문제도 해결할 수 있는 시스템이 탄생했습니다.

요약

많은 기업이 동일한 문제에 대한 해결책을 찾고 있는 상황에서 대편은 불가피하지만, 그것이 곧 올 것이라고 예상하는 사람은 아무도 없습니다. GPU는 오랫동안 존재할 것이며 아마도 최고의 성능이 필요하지 않은 AI 훈련 및 추론 프로젝트를 위한 가장 비용 효율적인 솔루션으로 남을 것입니다.

그럼에도 불구하고 고급 시장의 모델이 더 크고 복잡해짐에 따라 특정 기능 아키텍처에 대한 필요성이 증가하고 있습니다. 지금부터 3~5년 후에는 다양한 GPU 및 AI 가속기를 보게 될 것이며, 이는 2010년 말과 그 이후 수요를 충족하기 위해 확장할 수 있는 유일한 방법입니다.

주요 칩 제조업체는 자신이 잘하는 일을 계속하고 점차적으로 기존 기술을 기반으로 구축할 것으로 예상됩니다. 많은 기업들도 인텔의 선례를 따라 인공 지능에 초점을 맞춘 스타트업을 인수할 것입니다. 고성능 컴퓨팅 커뮤니티는 대규모 시뮬레이션 및 기후 모델링과 같은 고전적인 문제를 해결하는 데 도움이 되는 인공 지능의 잠재력에도 초점을 맞추고 있습니다.

고성능 컴퓨팅 생태계는 항상 앞서 나가기 위해 흡수할 수 있는 새로운 기술을 찾고 있으며 인공 지능이 무엇을 가져올 수 있는지 탐구하고 있습니다. 그 이면에는 양자 컴퓨팅이 숨어 있습니다. 양자 컴퓨팅은 실용적이기보다는 이론적이지만 컴퓨팅에 혁명을 일으킬 가능성이 있는 기술입니다.

어떤 새로운 아키텍처가 주목을 받는지에 관계없이 인공 지능의 급증은 의심할 여지 없이 소프트웨어의 새로운 지평을 열 수 있는 하드웨어 혁신의 잠재력에 대한 관심을 다시 불러일으켰습니다.

위 내용은 인공지능이 하드웨어 개발을 더 좋게 만드는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제