GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 02, 2023 am 08:37 AM

ai연산

우리는 활성화, 가중치 및 기울기를 4비트로 양자화하는 것이 신경망 훈련을 가속화하는 데 매우 중요하다는 것을 알고 있습니다. 그러나 기존 4비트 훈련 방법에는 최신 하드웨어에서 지원하지 않는 사용자 정의 숫자 형식이 필요합니다. 이 기사에서 Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 모든 행렬 곱셈을 구현하는 Transformer 훈련 방법을 제안합니다.

모델이 빠르게 훈련되는지 여부는 활성화 값, 가중치, 기울기 및 기타 요인의 요구 사항과 밀접한 관련이 있습니다.

신경망 훈련에는 일정량의 계산이 필요하며 정밀도가 낮은 알고리즘(완전 양자화 훈련 또는 FQT 훈련)을 사용하면 컴퓨팅 및 메모리 효율성이 향상될 것으로 예상됩니다. FQT는 원래의 완전 정밀도 계산 그래프에 양자화기와 역양자화기를 추가하고 값비싼 부동 소수점 연산을 값싼 저정밀 부동 소수점 연산으로 대체합니다.

FQT에 대한 연구는 수렴 속도와 정확도의 희생을 줄이면서 훈련 수치 정확도를 줄이는 것을 목표로 합니다. 필요한 수치 정밀도가 FP16에서 FP8, INT32+INT8 및 INT8+INT5로 감소되었습니다. FP8 훈련은 대규모 Transformer 훈련의 놀라운 가속화를 가능하게 하는 Transformer 엔진이 탑재된 Nvidia H100 GPU에서 수행됩니다.

최근에는 훈련 수치 정확도가 4비트로 감소했습니다. Sun 등은 INT4 활성화/가중치 및 FP4 그래디언트를 사용하여 여러 최신 네트워크를 성공적으로 교육했습니다. Chmiel 등은 정확도를 더욱 향상시키는 맞춤형 4자리 로그 숫자 형식을 제안했습니다. 그러나 이러한 4비트 훈련 방법은 최신 하드웨어에서 지원되지 않는 사용자 정의 숫자 형식이 필요하기 때문에 가속에 직접 사용할 수 없습니다.

4비트와 같은 낮은 수준에서 훈련하는 데는 엄청난 최적화 문제가 있습니다. 첫째, 순방향 전파의 미분 불가능한 양자화기는 손실 함수 그래프를 고르지 않게 만들고 경사 기반 최적화기는 쉽게 정체될 수 있습니다. 로컬 최소. 둘째, 기울기는 대략적으로 낮은 정밀도로만 계산될 수 있습니다. 이러한 부정확한 기울기는 훈련 과정을 느리게 만들고 심지어 불안정하거나 발산하는 훈련으로 이어질 수도 있습니다.

이 기사에서는 인기 있는 신경망 Transformer를 위한 새로운 INT4 훈련 알고리즘을 제안합니다. Transformer를 훈련시키는 데 사용되는 값비싼 선형 연산은 모두 행렬 곱셈(MM) 형식으로 작성될 수 있습니다. MM 형식화를 통해 연구자는 보다 유연한 양자화기를 설계할 수 있습니다. 이 양자화기는 Transformer의 특정 활성화, 가중치 및 그래디언트 구조를 통해 FP32 행렬 곱셈에 더 잘 근접합니다. 이 기사의 양자화기는 확률적 수치 선형 대수학의 새로운 발전도 활용합니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

문서 주소: https://arxiv.org/pdf/2306.11987.pdf

연구에 따르면 순방향 전파의 경우 정확도 감소의 주요 원인은 활성화 값의 이상입니다. . 이러한 이상값을 억제하기 위해 변환된 활성화 행렬을 양자화하는 데 사용되는 Hadamard 양자화기가 제안되었습니다. 이 변환은 이상값이 전달하는 정보를 이상값 근처의 행렬 항목으로 확산시켜 이상값의 수치 범위를 좁히는 블록 대각선 Hadamard 행렬입니다.

역전파의 경우 이 연구는 활성화 기울기의 구조적 희소성을 활용합니다. 연구에 따르면 일부 토큰의 기울기는 매우 크지만 동시에 대부분의 다른 토큰의 기울기는 매우 작으며 더 큰 기울기의 양자화된 잔차도 더 작습니다. 따라서 이러한 작은 기울기를 계산하는 대신 계산 리소스를 사용하여 더 큰 기울기의 잔차를 계산합니다.

순방향 전파와 역전파의 양자화 기술을 결합한 이 기사에서는 Transformer의 모든 선형 연산에 INT4 MM을 사용하는 알고리즘을 제안합니다. 이 연구에서는 자연어 이해, 질문 응답, 기계 번역, 이미지 분류 등 다양한 작업에 대해 Transformer를 훈련하기 위한 알고리즘을 평가했습니다. 제안된 알고리즘은 기존 4비트 훈련 노력과 비교하여 비슷하거나 더 나은 정확도를 달성합니다. 또한 이 알고리즘은 사용자 지정 숫자 형식(예: FP4 또는 로그 형식)이 필요하지 않기 때문에 최신 하드웨어(예: GPU)와 호환됩니다. 그리고 연구에서 제안한 프로토타입 양자화 + INT4 MM 연산자는 FP16 MM 기준보다 2.2배 빠르며 훈련 속도가 35.1% 향상됩니다.

순방향 전파

교육 과정에서 연구원들은 INT4 알고리즘을 사용하여 모든 선형 연산자를 가속화하고 계산 강도가 낮은 모든 비선형 연산자를 FP16 형식으로 설정했습니다. Transformer의 모든 선형 연산자는 행렬 곱셈 형식으로 작성할 수 있습니다. 데모 목적으로 그들은 다음과 같이 간단한 행렬 곱셈 속도 향상을 고려했습니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Picture

이런 종류의 행렬 곱셈의 주요 사용 사례는 완전 연결 계층입니다.

학습된 단계 크기 양자화

가속 훈련에서는 순방향 전파를 계산하기 위해 정수 연산을 사용해야 합니다. 따라서 연구진은 학습된 단계 크기 양자화기(LSQ)를 활용했습니다. 정적 양자화 방법인 LSQ의 양자화 규모는 입력에 의존하지 않으므로 동적 양자화 방법보다 비용이 저렴합니다. 대조적으로, 동적 양자화 방법은 각 반복에서 양자화 스케일을 동적으로 계산해야 합니다.

FP 행렬 X가 주어지면 LSQ는 다음 수식(2)을 통해 X를 정수로 양자화합니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

이상치 활성화

4비트 활성화/가중치를 사용하여 FQT(완전 양자화 훈련, 완전 양자화 훈련)에 LSQ를 간단히 적용하면 이상치 활성화가 발생합니다. 정확성. 아래 그림 1(a)에 표시된 것처럼 활성화된 일부 특이치 항이 있으며 그 크기는 다른 항보다 훨씬 큽니다.

이 경우 단계 크기 s_X는 양자화 세분성과 표현 가능한 값 범위 간의 균형입니다. s_X가 크면 대부분의 다른 항을 대략적으로 표현하는 대신 이상값을 잘 표현할 수 있습니다. s_X가 작으면 [−Q_Ns_X, Q_Ps_X] 범위 밖의 항은 잘려야 합니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.

Hadamard Quantization

연구원들은 이상값 문제를 해결하기 위해 Hadamard 양자화기(HQ)를 사용할 것을 제안했습니다. 주요 아이디어는 더 적은 수의 이상값을 사용하여 다른 선형 공간에서 행렬을 양자화하는 것입니다.

활성화 행렬의 이상값은 기능 수준 구조를 형성할 수 있습니다. 이러한 이상값은 일반적으로 몇 가지 차원을 따라 클러스터링됩니다. 즉, X의 소수 열만 다른 열보다 훨씬 큽니다. 선형 변환인 Hadamard 변환은 이상값을 다른 항에 분산시킬 수 있습니다. 특히 Hadamard 변환 H_k는 2^k × 2^k 행렬입니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.

이상치를 억제하기 위해 연구자들은 X와 W의 변환된 버전을 양자화합니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.

양자화된 행렬을 결합하여 연구원은 다음을 얻었습니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.

역변환이 서로 상쇄되고 MM은 다음과 같이 구현될 수 있습니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

역전파

연구원들은 INT4 연산을 사용하여 선형 레이어의 역전파를 가속화합니다. 방정식 (3)에 정의된 선형 연산자 HQ-MM은 4개의 입력, 즉 활성화 X, 가중치 W, 단계 s_X 및 s_W를 갖습니다. 손실 함수 L에 대한 출력 기울기 ∇_YL이 주어지면 이 네 가지 입력의 기울기를 계산해야 합니다.

그라디언트의 구조적 희소성

연구원들은 훈련 과정에서 그라디언트 행렬 ∇_Y가 종종 매우 희박하다는 것을 발견했습니다. 희소 구조는 ∇_Y의 몇몇 행(즉, 토큰)이 큰 항을 갖는 반면 대부분의 다른 행은 모두 0인 벡터에 가깝습니다. 그들은 아래 그림 2의 모든 행에 대해 행별 표준 MAT(∇_Y)_i: Bu의 히스토그램을 그렸습니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

비트 분할 및 평균 점수 샘플링

연구원들은 역전파 중에 구조적 희소성을 활용하여 MM을 정확하게 계산하는 그래디언트 양자화기를 설계하는 방법에 대해 논의합니다. 높은 수준의 아이디어는 많은 행의 기울기가 매우 작기 때문에 매개변수 기울기에 대한 영향도 작지만 많은 계산이 낭비된다는 것입니다. 또한 큰 행은 INT4로 정확하게 표현할 수 없습니다.

이러한 희소성을 활용하기 위해 연구자들은 각 토큰의 기울기를 상위 4비트와 하위 4비트로 분할하는 비트 분할을 제안합니다. 그런 다음 RandNLA의 중요도 샘플링 기법인 평균 점수 샘플링을 통해 가장 많은 정보를 포함하는 그래디언트를 선택합니다.

실험 결과

이 연구에서는 언어 모델 미세 조정, 기계 번역 및 이미지 분류를 포함한 다양한 작업에 대해 INT4 훈련 알고리즘을 평가했습니다. 본 연구에서는 제안된 HQ-MM 및 LSS-MM 알고리즘을 CUDA와 cutlass2를 사용하여 구현했습니다. 단순히 LSQ를 임베딩 레이어로 사용하는 것 외에도 모든 부동 소수점 선형 연산자를 INT4로 대체하고 마지막 레이어 분류기의 전체 정확도를 유지했습니다. 그리고 이를 통해 연구원들은 평가된 모든 모델에 대해 기본 아키텍처, 최적화 프로그램, 스케줄러 및 하이퍼파라미터를 채택했습니다.

수렴된 모델 정확도. 아래 표 1은 각 작업에 대한 융합 모델의 정확도를 보여줍니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

언어 모델 미세 조정. 본 연구에서 제안한 알고리즘은 LSQ+LUQ와 비교하여 bert-base 모델에서는 평균 정확도를 5.5%, bert-large 모델에서는 25% 향상시켰다.

연구팀은 또한 SQUAD, SQUAD 2.0, Adversarial QA, CoNLL-2003 및 SWAG 데이터 세트에 대한 알고리즘의 추가 결과를 시연했습니다. 모든 작업에서 이 방법은 LSQ+LUQ에 비해 더 나은 성능을 달성합니다. LSQ+LUQ에 비해 이 방법은 SQUAD와 SQUAD 2.0에서 각각 1.8%, 3.6%의 향상을 달성합니다. 더 어려운 적대적 QA에서 이 방법은 F1 점수에서 6.8% 향상을 달성했습니다. SWAG와 CoNLL-2003에서 이 방법은 정확도를 각각 6.7%와 4.2% 향상시킵니다.

기계 번역. 본 연구에서는 제안된 사전 훈련 방법도 사용했습니다. 이 방법은 WMT 14 En-De 데이터 세트에서 기계 번역을 위한 Transformer 기반 [51] 모델을 교육합니다.

HQ+LSS의 BLEU 저하율은 약 1.0%로 Ultra-low의 2.1%보다 낮고 LUQ 논문에서 보고된 0.3%보다 높습니다. 그럼에도 불구하고, HQ+LSS는 이 사전 훈련 작업에 대한 기존 방법과 여전히 비슷한 성능을 발휘하며 최신 하드웨어를 지원합니다.

이미지 분류. ImageNet21k에서 사전 훈련된 ViT 체크포인트를 로드하고 CIFAR-10, CIFAR-100 및 ImageNet1k에서 미세 조정하는 방법을 연구합니다.

LSQ+LUQ와 비교하여 연구 방법은 ViT-B/32 및 ViT-L/32의 정확도를 각각 1.1% 및 0.2% 향상시킵니다. ImageNet1k에서 이 방법은 LSQ+LUQ에 비해 ViT-B/32에서 2%, ViT-L/32에서 2.6%, ViT-L/32에서 0.2% 정확도를 향상시킵니다.

연구팀은 ImageNet1K의 사전 훈련된 DeiT-Small 모델에서 알고리즘의 효과를 추가로 테스트했습니다. 여기서 HQ+LSS는 하드웨어 친화적이면서도 LSQ+LUQ와 비교하여 비슷한 수준의 정확도로 수렴할 수 있습니다. .

절제 연구

저희는 까다로운 CoLA 데이터 세트에 대한 순방향 및 역방향 방법의 효과를 독립적으로 입증하기 위해 절제 연구를 수행했습니다. 순방향 전파에 대한 다양한 양자화기의 효과를 연구하기 위해 역전파를 FP16으로 설정했습니다. 결과는 아래 그림 3(a)에 나와 있습니다.

역전파를 위해 연구원들은 간단한 미니맥스 양자화기인 LUQ와 자체 LSS를 비교하고 순방향 전파를 FP16으로 설정했습니다. 결과는 아래 그림 3(b)에 나와 있습니다. 비록 비트 폭이 2보다 높지만 LSS는 LUQ와 비슷하거나 약간 더 나은 결과를 얻습니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

계산 및 메모리 효율성

연구원들은 자신이 제안한 HQ-MM(HQ), 중량 기울기 계산용 LSS(LSSWeight) 및 활성화 기울기 계산용 LSS(LSSAct)를 비교했습니다. ) 처리량, 평균 처리량(INT4) 및 아래 그림 4의 NVIDIA RTX 3090 GPU에서 cutlass가 제공하는 기본 Tensor Core FP16 GEMM 구현(FP16)은 최대 처리량이 142 FP16 TFLOP 및 568 INT4 TFLOP입니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. Pictures

연구원들은 또한 8개의 NVIDIA A100 GPU에서 BERT 유사 및 GPT 유사 언어 모델을 훈련하기 위한 FP16 PyTorch AMP와 자체 INT4 훈련 알고리즘의 훈련 처리량을 비교했습니다. 그들은 숨겨진 레이어 크기, 중간 완전 연결 레이어 크기 및 배치 크기를 다양하게 변경하고 아래 그림 5에 INT4 교육의 속도 향상을 표시했습니다.

결과에 따르면 INT4 훈련 알고리즘은 BERT 유사 모델의 경우 최대 35.1% 가속을 달성하고 GPT 유사 모델의 경우 최대 26.5% 가속을 달성합니다.

GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다. 사진

위 내용은 GPT와 유사한 모델 훈련은 26.5% 가속화되었습니다. Tsinghua Zhu Jun 등은 INT4 알고리즘을 사용하여 신경망 훈련을 가속화합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 기술 격차는 공급망을 늦추고 있습니다Apr 26, 2025 am 11:13 AM

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

한 회사가 AI를 영원히 변화시키기 위해 조용히 노력하는 방법Apr 26, 2025 am 11:12 AM

분산 된 AI 혁명은 조용히 운동량을 얻고 있습니다. 이번 주 금요일 텍사스 오스틴에서 Bittensor Endgame Summit은 중추적 인 순간을 표시하여 분산 된 AI (DEAI)를 이론에서 실제 적용으로 전환합니다. 화려한 광고와 달리

NVIDIA는 NEMO 마이크로 서비스를 방출하여 AI 에이전트 개발을 간소화합니다Apr 26, 2025 am 11:11 AM

Enterprise AI는 데이터 통합 문제에 직면 해 있습니다 Enterprise AI의 적용은 비즈니스 데이터를 지속적으로 학습함으로써 정확성과 실용성을 유지할 수있는 시스템을 구축하는 주요 과제에 직면 해 있습니다. NEMO 마이크로 서비스는 NVIDIA가 "데이터 플라이휠"으로 묘사 한 내용을 작성 하여이 문제를 해결하여 AI 시스템이 엔터프라이즈 정보 및 사용자 상호 작용에 지속적으로 노출되어 관련성을 유지할 수 있도록합니다. 새로 출시 된이 툴킷에는 5 개의 주요 마이크로 서비스가 포함되어 있습니다. NEMO Customizer는 더 높은 교육 처리량으로 대형 언어 모델의 미세 조정을 처리합니다. NEMO 평가자는 사용자 지정 벤치 마크에 대한 AI 모델의 단순화 된 평가를 제공합니다. Nemo Guardrails는 보안 제어를 구현하여 규정 준수 및 적절성을 유지합니다.

AI는 미래의 미래와 디자인을위한 새로운 그림을 그립니다.Apr 26, 2025 am 11:10 AM

AI : 예술과 디자인의 미래 인공 지능 (AI)은 전례없는 방식으로 예술 및 디자인 분야를 변화시키고 있으며, 그 영향은 더 이상 아마추어에게만 국한되지 않고 전문가에게 더 큰 영향을 미칩니다. AI에 의해 생성 된 아트 워크 및 디자인 체계는 광고, 소셜 미디어 이미지 생성 및 웹 디자인과 같은 많은 트랜잭션 디자인 활동에서 전통적인 재료 이미지 및 디자이너를 빠르게 대체하고 있습니다. 그러나 전문 예술가와 디자이너는 AI의 실질적인 가치도 찾습니다. 그들은 AI를 보조 도구로 사용하여 새로운 미적 가능성을 탐색하고 다양한 스타일을 혼합하며 새로운 시각 효과를 만듭니다. AI는 아티스트와 디자이너가 반복적 인 작업을 자동화하고 다양한 디자인 요소를 제안하며 창의적인 입력을 제공하도록 도와줍니다. AI는 스타일 전송을 지원하며 이미지 스타일을 적용합니다.

에이전트 AI와의 작업을 혁신하는 방법 : 회의에서 이정표까지Apr 26, 2025 am 11:09 AM

처음에는 화상 회의 플랫폼으로 유명한 Zoom은 에이전트 AI의 혁신적인 사용으로 직장 혁명을 이끌고 있습니다. Zoom의 CTO 인 XD Huang과의 최근 대화는 회사의 야심 찬 비전을 공개했습니다. 에이전트 AI 정의 Huang d

대학에 대한 실존 적 위협Apr 26, 2025 am 11:08 AM

AI가 교육에 혁명을 일으킬까요? 이 질문은 교육자와 이해 관계자들 사이에서 심각한 반영을 촉구하고 있습니다. AI를 교육에 통합하면 기회와 도전이 모두 나타납니다. Tech Edvocate의 Matthew Lynch로서 Universit

프로토 타입 : 미국 과학자들은 해외에서 일자리를 찾고 있습니다Apr 26, 2025 am 11:07 AM

미국의 과학 연구 및 기술의 발전은 아마도 예산 삭감으로 인해 어려움에 직면 할 수 있습니다. Nature에 따르면, 해외 일자리를 신청하는 미국 과학자의 수는 2024 년 같은 기간에 비해 2025 년 1 월부터 3 월까지 32% 증가했습니다. 이전 여론 조사에 따르면 설문 조사에 참여한 연구원의 75%가 유럽과 캐나다에서 일자리 검색을 고려하고 있음을 보여주었습니다. 지난 몇 개월 동안 수백 개의 NIH와 NSF 보조금이 종료되었으며, NIH의 새로운 보조금은 올해 약 23 억 달러로 줄어 듭니다. 유출 된 예산 제안에 따르면 트럼프 행정부는 과학 기관의 예산을 급격히 줄이는 것을 고려하고 있으며 최대 50%감소 할 수 있습니다. 기본 연구 분야의 혼란은 또한 미국의 주요 장점 중 하나 인 해외 인재 유치에 영향을 미쳤습니다. 35

Open AI의 최신 GPT 4.1 가족 - 분석 Vidhya에 관한 모든 것

Openai는 강력한 GPT-4.1 시리즈를 공개합니다. 실제 응용 프로그램을 위해 설계된 3 개의 고급 언어 모델 패밀리. 이 중요한 도약 전진

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.