>기술 주변기기 >일체 포함 >주연 기술 Sun Yuanhao: 코퍼스는 이미 대형 모델의 가장 큰 과제입니다.

주연 기술 Sun Yuanhao: 코퍼스는 이미 대형 모델의 가장 큰 과제입니다.

王林
王林원래의
2024-06-16 22:30:291223검색
"원래 코퍼스가 이미 부족하다고 생각했고, 대규모 모델 훈련을 위한 코퍼스도 없었습니다. 사실 그렇지 않습니다. 데이터가 고갈되려면 멀었습니다."

10년 이상 빅 데이터 분야의 기업가로서 "Starring Technology"의 창립자이자 CEO인 Sun Yuanhao는 "대형 모델이 인간의 인터넷 데이터를 소진시켰다"는 진술에 동의하지 않습니다.

그의 관찰에 따르면 다양한 산업 분야의 기업 내 데이터는 아직 완전히 활용되지 못하고 있습니다. 인터넷에 있는 인간 데이터의 양은 현재 대형 모델이 활용할 수 있는 것보다 훨씬 많습니다. 다양한 산업 분야의 고품질 데이터를 사용하면 대형 모델이 오늘날 표준에 따라 정확도를 크게 향상시킬 수 있습니다.

핵심 질문은 이 데이터를 효율적으로 개발하는 방법입니다.

대형모델 시대에 코퍼스 개발은 새로운 도전에 직면했습니다. Sun Yuanhao는 현재 기업 내의 데이터가 구조화되지 않고 대용량이며 다양한 형식으로 되어 있고 대부분 작은 파일인 경우가 많다고 말했습니다. 동시에 이러한 전문 데이터에 라벨을 지정하고 수정하기 위한 기준이 높습니다. 이는 파일 시스템, 지식 기반 시스템, 코퍼스 개발 시스템 등에 대한 새로운 요구 사항을 제시합니다.

예를 들어, 기업 내에서 다양한 문서와 PPT를 처리하는 것은 데이터 다양성 측면에서 다양한 유형의 데이터에 대한 저장 및 컴퓨팅 리소스에 대한 요구 사항이 더 높다는 것을 의미합니다. 미디어 기사, 정부 문서, 디자인 문서 등과 같은 기업 문서는 모두 교육 모델을 사용하여 인식하고 구문 분석해야 하며, 이를 위해서는 강력한 다중 모드 데이터 처리 기능을 갖춘 데이터 처리 도구가 필요합니다.

데이터 보안 및 개인 정보 보호 문제와 관련하여 교육 및 추론 프로세스 중에 기업 내부 정보의 기밀성과 보안을 보장하는 방법은 전문적인 데이터 주석 인재 문제의 보안 제어에 대한 새로운 요구 사항을 제시합니다. 기업 내 내부 데이터 처리는 생체분자 공식이나 전문 금융 용어 등 전문 분야에서 주석 처리되는 경우가 많으며, 처리를 위해서는 보다 전문적인 데이터 주석 전문가가 필요합니다.

이러한 문제를 해결하기 위해 Sun Yuanhao는 Starring Technology의 몇 가지 시도를 공유했습니다.

주연 기술 Sun Yuanhao: 코퍼스는 이미 대형 모델의 가장 큰 과제입니다.

1. 빅 데이터 플랫폼 업그레이드: 트랜스워프 데이터 허브(Transwarp Data Hub) 데이터 플랫폼을 업그레이드하여 대량의 문서와 작은 파일을 포함해 더욱 다양한 데이터를 처리할 수 있습니다. 소스 데이터 관리 노드를 재구성하고 POSIX 인터페이스를 추가함으로써 파일 시스템 지원 기능과 데이터 저장 효율성이 향상됩니다.

2. Python 인터페이스 추가: 데이터 허브에 Python 인터페이스를 추가하고 코퍼스 처리 시 정리에 Python 언어를 사용할 수 있도록 Python 언어 및 라이브러리를 배포합니다. 이는 말뭉치 처리의 효율성과 유연성을 향상시키는 데 도움이 됩니다.

3. 분산 Python 엔진 출시: 말뭉치량이 일반적으로 수십 또는 수백 T인 상황을 고려하여 대규모 말뭉치를 처리하는 능력과 효율성을 향상시키기 위해 분산 Python 엔진을 출시합니다. .

4. 벡터 데이터베이스 최적화: 벡터 데이터베이스를 업그레이드하여 재현율 정확도와 분산 성능을 개선하여 대규모 데이터 처리 및 검색을 더 효과적으로 지원할 수 있습니다.

5. 지식 그래프 구축: 벡터 리콜의 정확성 부족을 보완하기 위해 지식 그래프를 구축할 수 있는 LLM 지식 도구용 Transwarp Knowledge Studio를 제공합니다. 예를 들어, 장비 유지보수 시나리오에서는 장비 결함 수, 영점 조정 보고서 등을 지식 그래프로 가져와서 질문에 답변할 때 지식 그래프에서 추론을 수행함으로써 보다 정확한 답변을 제공할 수 있습니다.

6. 말뭉치 개발 도구 개발: 말뭉치 구문 분석, 분류, 정리, 주석, 향상 및 기타 기능을 포함하는 말뭉치 개발 도구를 시작하고 질문 및 답변 쌍과 보안 테스트 세트를 구성합니다. 신체. 다양한 문서 유형, 음성, 영상을 자동 또는 반자동으로 처리하고, 이를 대규모 모델 학습에 사용할 수 있는 고품질 코퍼스로 변환하는 데 사용됩니다.

7 대규모 모델 도구 체인 제공: 말뭉치 생성부터 모델 교육, 지식 기반 구축, 애플리케이션 개발, 에이전트 구성 및 컴퓨팅 예약에 이르는 일련의 프로세스를 포함하여 대규모 모델을 위한 완전한 도구 체인을 제공합니다. 전동 공구. 이는 대형 모델 애플리케이션의 구축 효율성과 관리 기능을 향상시키는 데 도움이 됩니다.

8. AI 네이티브 애플리케이션 구축: Wuya·Wenzhi 및 Wuya·Wenshu와 같은 AI 네이티브 애플리케이션을 실행하여 기업 내 내부 정보 검색 및 데이터 분석을 실현하고 데이터 처리의 효율성과 편의성을 향상시킵니다.

9. 다양한 모델 및 데이터 소스 지원: 오픈 소스든 상업용이든 타사 모델과 개인 지식 기반, 기업 지식 기반, 금융 데이터베이스, 법률 및 규제 데이터베이스 등을 포함한 다양한 데이터 소스를 지원합니다. ., 데이터 처리의 유연성과 적응성을 향상시킵니다.

이를 바탕으로 기업은 다양한 형태의 정보를 직접 업로드할 수 있고, 제품은 빠르게 분석되어 기업만의 지식 베이스를 형성하게 됩니다. 그러나 회사 내에서 더 많은 내부 데이터를 개발하고 공개하는 것이 끝이 아닙니다. Sun Yuanhao는 말뭉치의 품질을 향상시키는 것이 현재 대형 모델의 정확성을 향상시키는 데 있어 가장 큰 과제라고 믿습니다.

"이제 모델 구조는 누구에게나 비밀이 아니며 훈련 방법도 비밀이 아니지만 코퍼스는 없습니다. 코퍼스는 다양한 곳에 존재합니다. 작업 규모가 매우 크기 때문에 물리적인 규모도 엄청납니다. 일, 이것이 현재 가장 큰 도전은 그중 하나가 아니라, 이것이 가장 큰 도전

주연 기술 Sun Yuanhao: 코퍼스는 이미 대형 모델의 가장 큰 과제입니다.입니다.

또한 대규모 모델 구현에서 Sun Yuanhao는 모델 정확도를 향상시키는 현재 방법에는 다음이 포함된다고 믿습니다.

1 플러그인 지식 기반 구축: 회사 정보 및 기사 통합 파싱한 후 지식 베이스에 넣고, 대형 모델이 지식 베이스의 내용을 참조하여 작성하거나 분석하도록 하는 방식입니다.

2. 모델 미세 조정: 대형 모델을 미세 조정하면 특정 분야의 지식과 언어 습관을 학습할 수 있어 해당 분야의 모델 정확도가 향상됩니다.

3. 지속적인 훈련: 금융과 같은 분야의 경우, 모델의 정확성과 금융 질문에 대한 답변 능력을 향상시키기 위해 대규모 모델에 지속적으로 많은 양의 말뭉치를 공급해야 합니다.

4. 말뭉치 개발 도구 제공: 기업이 말뭉치를 정리하고 정리하고 대규모 모델 학습에 적합한 형식으로 변환하여 모델의 정확도를 높일 수 있도록 말뭉치 개발 도구를 개발합니다.

5. 여러 방법 결합: 모델을 미세 조정하거나 지속적으로 훈련하면서 플러그인 지식 기반을 구축하는 등 위의 방법을 결합하여 모델의 정확도를 더욱 향상시킬 수 있습니다.

Sun Yuanhao는 작년에 빅 모델이 글을 쓰고 생성할 수 있기 때문에 "교양 학생"이라고 비유적으로 말했습니다. Xinghuan의 목표는 빅 모델을 과학 학생으로 훈련시키는 것입니다. 수학적 분석을 할 수 있기를 바라며, 자연과학의 다양한 분야와 학문을 이해할 수 있습니다. Xinghuan Technology의 AI Infra 도구를 통해 기업은 여러 소스의 다중 모드 코퍼스를 고품질 전문 도메인 지식으로 정확하고 효율적으로 변환하여 기업이 지식 장벽을 구축할 수 있습니다.

위 내용은 주연 기술 Sun Yuanhao: 코퍼스는 이미 대형 모델의 가장 큰 과제입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.