찾다
기술 주변기기일체 포함여러 ChatGPT API를 사용하여 Tsinghua UltraChat 다단계 대화 구현

ChatGPT 출시 이후 이 기간 동안 대화 모델의 인기는 더욱 높아졌습니다. 우리는 이러한 모델의 놀라운 성능에 감탄하는 동시에 그 뒤에 숨은 엄청난 컴퓨팅 성능과 대규모 데이터 지원도 추측해야 합니다.

데이터에 관해서는 고품질 데이터가 중요합니다. 이러한 이유로 OpenAI는 데이터 및 주석 작업에 많은 노력을 기울였습니다. 여러 연구에 따르면 ChatGPT는 인간보다 더 신뢰할 수 있는 데이터 주석자입니다. 오픈 소스 커뮤니티가 ChatGPT와 같은 강력한 언어 모델에서 대량의 대화 데이터를 얻을 수 있다면 더 나은 성능으로 대화 모델을 훈련할 수 있습니다. 이는 Alpaca 모델 제품군(Alpaca, Vicuna, Koala)에 의해 입증되었습니다. 예를 들어 Vicuna는 ShareGPT에서 수집한 사용자 공유 데이터를 사용하여 LLaMA 모델에 대한 지침을 미세 조정하여 ChatGPT의 9단계 성공을 복제했습니다. 점점 더 많은 증거에 따르면 데이터는 강력한 언어 모델을 훈련하기 위한 주요 생산성이라는 사실이 입증되었습니다.

ShareGPT는 사용자가 흥미를 느끼는 ChatGPT 답변을 업로드하는 ChatGPT 데이터 공유 웹사이트입니다. ShareGPT의 데이터는 공개되어 있지만 사소하며 연구자들이 직접 수집하고 정리해야 합니다. 고품질의 광범위한 데이터 세트가 있는 경우 오픈 소스 커뮤니티는 대화 모델 개발에 드는 노력의 절반으로 두 배의 결과를 얻을 수 있습니다.

이를 바탕으로 최근 UltraChat이라는 프로젝트에서 초고품질 대화 데이터 세트를 체계적으로 구축했습니다. 프로젝트 작성자는 두 개의 독립적인 ChatGPT Turbo API를 사용하여 대화를 수행하여 여러 라운드의 대화 데이터를 생성하려고 했습니다.

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

  • 프로젝트 주소: https://github.com/thunlp/UltraChat
  • 데이터 세트 주소: http://39.101.77.220/
  • 데이터세트 상호작용 주소: https://atlas.nomic.ai/map/0ce65783-c3a9-40b5-895d-384933f50081/a7b46301-022f-45d8-bbf4-98107eabdbac

구체적으로, 이 프로젝트는 오픈 소스를 구축하는 것을 목표로 합니다. 연구자가 보편적인 대화 기능을 갖춘 강력한 언어 모델을 개발하는 데 편리한 Turbo API 기반의 확장 가능한 다단계 대화 데이터입니다. 또한, 개인 정보 보호 및 기타 요소를 고려하여 프로젝트에서는 인터넷상의 데이터를 직접 프롬프트로 사용하지 않습니다. 생성된 데이터의 품질을 보장하기 위해 연구원들은 생성 프로세스에서 두 개의 독립적인 ChatGPT Turbo API를 사용했습니다. 여기서 한 모델은 사용자의 역할을 수행하여 질문이나 지침을 생성하고 다른 모델은 피드백을 생성합니다.

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

ChatGPT를 직접 사용하여 일부 시드 대화와 질문을 기반으로 자유롭게 생성하면 단일 주제, 반복되는 내용 등의 문제가 쉽게 발생하여 데이터 자체의 다양성을 보장하기 어렵습니다. 이를 위해 UltraChat은 대화 데이터가 다루는 주제와 작업 유형을 체계적으로 분류하고 설계했으며, 사용자 모델과 응답 모델에 대한 세부적인 프롬프트 엔지니어링도 수행했습니다.

  • 세계에 대한 질문( 세계에 대한 질문): 대화의 이 부분은 현실 세계의 개념, 실체 및 객체에 대한 광범위한 질문에서 비롯됩니다. 다루는 주제는 기술, 예술, 금융 및 기타 분야를 다룹니다.
  • Writing and Creation: 대화 데이터 중 이 부분은 AI에게 처음부터 완전한 텍스트 자료를 생성하도록 지시하는 데 중점을 두고 있으며, 이를 기반으로 후속 질문이나 추가 지침을 통해 글쓰기와 내용을 개선합니다. 서면 자료 유형에는 기사, 블로그, 시, 이야기, 연극, 이메일 등이 포함됩니다.
  • 기존 데이터의 재작성 지원(작성 및 생성): 이 대화 데이터는 기존 데이터를 기반으로 생성되며 지침에는 재작성, 계속, 번역, 귀납, 추론 등이 포함되지만 이에 국한되지 않으며 다루는 주제는 다음과 같습니다. 또한 매우 다양합니다.

이 세 가지 데이터 부분은 AI 모델에 대한 대부분의 사용자 요구 사항을 다룹니다. 동시에 이 세 가지 유형의 데이터는 서로 다른 과제에 직면하고 서로 다른 구성 방법이 필요합니다.

예를 들어, 첫 번째 데이터 부분의 주요 과제는 총 수십만 건의 대화에서 인간 사회의 상식을 최대한 광범위하게 다루는 방법입니다. 이를 위해 연구자들은 자동으로 생성된 주제와 Wikidata에서 파생된 항목은 필터링되고 구조화됩니다.

두 번째 및 세 번째 부분의 과제는 주로 대화의 궁극적인 목표(자료 생성 또는 자료를 다음과 같이 다시 작성)에서 벗어나지 않으면서 후속 대화에서 사용자 지침을 시뮬레이션하고 사용자 모델 생성을 최대한 다양하게 만드는 방법에서 비롯됩니다. 필수) 이러한 이유로 연구원들은 사용자 모델의 입력 프롬프트를 완전히 설계하고 실험했습니다. 구축이 완료된 후 저자들은 환각 문제를 약화시키기 위해 데이터를 후처리하기도 했습니다.

현재 프로젝트는 데이터 양이 124만 개에 이르는 처음 두 부분의 데이터를 공개했는데, 이는 오픈 소스 커뮤니티에서 가장 큰 관련 데이터 세트가 될 것입니다. 콘텐츠에는 현실 세계에서의 풍부하고 다채로운 대화가 담겨 있으며, 데이터의 마지막 부분은 향후 공개될 예정입니다.

세계 문제 데이터는 아래 그림과 같이 30개의 대표적이고 다양한 메타 주제에서 나옵니다.

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了


  • 위의 메타 주제를 기반으로 프로젝트는 1100개 이상의 하위 주제를 생성했습니다. 주제 데이터 구성을 위해
  • 각 하위 주제에 대해 최대 10개의 특정 질문을 생성합니다.
  • 그런 다음 Turbo API를 사용하여 10개의 질문 각각에 대해 새로운 관련 질문을 생성합니다. 위에서 설명한 대로 두 모델을 반복적으로 사용하여 3~7개의 대화 라운드를 생성합니다.
  • 또한 이 프로젝트는 Wikidata에서 가장 일반적으로 사용되는 10,000개의 개체를 수집했습니다. ChatGPT API를 사용하여 각 메타 질문에 대해 5개의 메타 질문을 생성하고 10개의 보다 구체적인 질문과 20개의 관련 있지만 일반적인 질문을 생성했습니다. 질문은 특정 질문 200,000개, 일반 질문 250,000개, 메타 질문 50,000개를 샘플링했으며 각 질문마다 3~7개의 대화 라운드가 생성되었습니다.

다음으로 구체적인 예를 살펴보겠습니다.

UltraChat 플랫폼에서 데이터 검색 효과를 테스트했습니다. 예를 들어 "music"을 입력하면 시스템은 음악 관련 ChatGPT 대화 데이터 10,000세트를 자동으로 검색하며, 각 세트는 다단계 대화입니다. 调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

키워드 "math"를 입력하면 검색됩니다. 결과는 3346개의 다단계 대화 그룹을 보여줍니다. 调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

현재 UltraChat은 의료, 교육, 스포츠, 환경 보호 및 기타 주제를 포함한 다양한 정보 분야를 다루고 있습니다. 동시에 저자는 오픈 소스 LLaMa-7B 모델을 사용하여 UltraChat에서 감독된 지시 미세 조정을 수행하려고 시도했으며 단 10,000단계의 학습 후에 매우 인상적인 효과가 있음을 발견했습니다. 몇 가지 예는 다음과 같습니다. 调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了세계 지식: 별도로 나열됨 중국과 미국의 좋은 대학 10곳이 있습니다

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了질문을 상상해보세요: 우주 여행이 가능해지면 어떤 결과가 나올 수 있을까요?

음절법: 고래는 물고기인가요?

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

가설 질문: Jackie Chan이 Bruce Lee보다 낫다는 것을 증명하세요.

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

전반적으로 UltraChat은 다른 채팅과 결합할 수 있는 고품질의 광범위한 ChatGPT 대화 데이터 세트입니다. 오픈 소스 대화 모델의 품질을 크게 향상시킵니다. 현재 UltraChat은 영어 버전만 출시하고 있지만 앞으로는 중국어 버전의 데이터도 출시할 예정입니다. 관심 있는 독자들은 살펴보시기 바랍니다.

위 내용은 여러 ChatGPT API를 사용하여 Tsinghua UltraChat 다단계 대화 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
하나의 프롬프트는 모든 주요 LLM의 보호 조치를 우회 할 수 있습니다하나의 프롬프트는 모든 주요 LLM의 보호 조치를 우회 할 수 있습니다Apr 25, 2025 am 11:16 AM

Hiddenlayer의 획기적인 연구는 LLMS (Leading Lange Language Models)에서 중요한 취약점을 드러냅니다. 그들의 연구 결과는 "정책 인형극"이라는 보편적 인 바이 패스 기술을 보여줍니다.

5 가지 실수 대부분의 기업은 올해 지속 가능성으로 만듭니다.5 가지 실수 대부분의 기업은 올해 지속 가능성으로 만듭니다.Apr 25, 2025 am 11:15 AM

환경 책임과 폐기물 감소에 대한 추진은 기본적으로 비즈니스 운영 방식을 바꾸는 것입니다. 이 혁신은 제품 개발, 제조 프로세스, 고객 관계, 파트너 선택 및 새로운 채택에 영향을 미칩니다.

H20 Chip Ban Jolts China AI 회사이지만 오랫동안 충격을 받기 위해 자랑했습니다.H20 Chip Ban Jolts China AI 회사이지만 오랫동안 충격을 받기 위해 자랑했습니다.Apr 25, 2025 am 11:12 AM

Advanced AI 하드웨어에 대한 최근 제한은 AI 지배에 대한 확대 된 지정 학적 경쟁을 강조하여 중국의 외국 반도체 기술에 대한 의존도를 드러냅니다. 2024 년에 중국은 3,800 억 달러 상당의 반도체를 수입했습니다.

OpenAi가 Chrome을 구매하면 AI는 브라우저 전쟁을 지배 할 수 있습니다.OpenAi가 Chrome을 구매하면 AI는 브라우저 전쟁을 지배 할 수 있습니다.Apr 25, 2025 am 11:11 AM

Google의 Chrome의 잠재적 인 강제 매각은 기술 산업 내에서 강력한 논쟁을 불러 일으켰습니다. OpenAi가 65%의 글로벌 시장 점유율을 자랑하는 주요 브라우저를 인수 할 가능성은 TH의 미래에 대한 중요한 의문을 제기합니다.

AI가 소매 미디어의 고통을 해결할 수있는 방법AI가 소매 미디어의 고통을 해결할 수있는 방법Apr 25, 2025 am 11:10 AM

전반적인 광고 성장을 능가 함에도 불구하고 소매 미디어의 성장은 느려지고 있습니다. 이 성숙 단계는 생태계 조각화, 비용 상승, 측정 문제 및 통합 복잡성을 포함한 과제를 제시합니다. 그러나 인공 지능

'AI는 우리이고 우리보다 더 많아요''AI는 우리이고 우리보다 더 많아요'Apr 25, 2025 am 11:09 AM

깜박 거리는 스크린 모음 속에서 정적으로 오래된 라디오가 딱딱합니다. 이 불안정한 전자 제품 더미, 쉽게 불안정하게, 몰입 형 전시회에서 6 개의 설치 중 하나 인 "The-Waste Land"의 핵심을 형성합니다.

Google Cloud는 다음 2025 년 인프라에 대해 더 진지하게 생각합니다.Google Cloud는 다음 2025 년 인프라에 대해 더 진지하게 생각합니다.Apr 25, 2025 am 11:08 AM

Google Cloud의 다음 2025 : 인프라, 연결 및 AI에 대한 초점 Google Cloud의 다음 2025 회의는 수많은 발전을 선보였으며 여기에서 자세히 설명하기에는 너무 많았습니다. 특정 공지 사항에 대한 심도있는 분석은 My의 기사를 참조하십시오.

Talking Baby ai Meme, Arcana의 550 만 달러 AI 영화 파이프 라인, IR의 비밀 후원자 공개Talking Baby ai Meme, Arcana의 550 만 달러 AI 영화 파이프 라인, IR의 비밀 후원자 공개Apr 25, 2025 am 11:07 AM

이번 주 AI 및 XR : AI 구동 창의성의 물결은 음악 세대에서 영화 제작에 이르기까지 미디어와 엔터테인먼트를 통해 휩쓸고 있습니다. 헤드 라인으로 뛰어 들자. AI 생성 콘텐츠의 영향력 증가 : 기술 컨설턴트 인 Shelly Palme

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)