소개: 대화 기술은 디지털 인간 상호 작용의 핵심 기능 중 하나입니다. 이러한 공유는 주로 Baidu PLATO와 관련된 연구 개발 및 응용에서 시작되며 대형 모델이 게임에 미치는 영향에 대해 이야기합니다. 대화 시스템과 디지털 사람들을 위한 몇 가지 기회 이 공유의 제목은 다음과 같습니다: 대형 모델에 의해 구동되는 인간-컴퓨터 상호 작용 대화.
오늘의 소개는 다음과 같은 점부터 시작됩니다.
일상생활에서 우리는 모바일에게 질문하는 등 작업 중심의 대화 시스템을 자주 접하게 됩니다. 보조자가 알람을 설정하라고 요청합니다. 스마트 스피커가 노래를 재생합니다. 특정 분야에서 이러한 종류의 수직적 대화를 위한 기술은 상대적으로 성숙되어 있으며, 시스템 설계는 일반적으로 대화 이해, 대화 관리, 자연어 생성과 같은 모듈을 포함하는 모듈식입니다.
사용자가 문장을 입력하면 시스템이 자연어 이해 모듈을 통해 관련 의도와 슬롯 값 쌍을 구문 분석하는 일반적인 프로세스는 다음과 같습니다. 사전 정의된 대화 관리 모듈은 여러 라운드의 대화 상태를 추적하고 외부 데이터베이스와 상호 작용하며 시스템 작업 결정을 내린 다음 대화 생성 모듈을 사용하여 응답을 생성하고 사용자에게 반환합니다.
최근에는 오픈 도메인 대화 기술에 대한 많은 연구가 진행되었습니다. 이는 분야에 제한을 두지 않고 어떤 주제에 대해서도 채팅이 가능하다는 것을 의미합니다. 대표적인 작품으로는 Google Meena, Mata Blender, Baidu PLATO 등이 있습니다. 기존의 모듈형 대화 시스템과 비교할 때 이러한 엔드투엔드 대화 시스템은 대화의 맥락에 따라 해당 응답을 직접 생성합니다.
엔드투엔드 대화 시스템은 RNN, LSTM 또는 Transformer 등을 기반으로 설계될 수 있습니다. 네트워크 아키텍처 주로 인코딩 인코더와 디코더의 두 부분으로 구성됩니다.
인코더는 대화 내용을 이해하기 위해 대화 텍스트를 벡터로 인코딩합니다.
디코더는 대화 벡터와 이전 숨겨진 벡터를 기반으로 해당 응답을 생성합니다. 훈련 자료는 주로 Renren 대화 자료이며, 대략적인 대화 자료로 공개 소셜 미디어 포럼(Weibo, Tieba, Twitter 등)에서 댓글을 추출할 수 있습니다. 훈련 목표는 주로 음의 로그 우도 함수를 최소화하는 것입니다.
3. 오픈 도메인 대화가 직면한 과제
대량의 코퍼스를 기반으로 훈련된 대규모 모델은 이미 상대적으로 일관된 응답을 생성할 수 있지만 여전히 많은 문제가 있습니다.
첫 번째 문제는 콘텐츠가 상대적으로 비어 있고 정보가 부족하다는 것입니다. 모델의 답변은 상대적으로 짧고 실질적인 내용이 없기 때문에 사용자의 채팅 의향이 쉽게 줄어들 수 있습니다.
또 다른 문제는 지식 남용입니다. 모델이 반환하는 세부 정보 중 일부가 잘못되었거나 조작된 경우도 있습니다.
Baidu PLATO는 위의 두 가지 유형의 문제에 대해 몇 가지 기술적 탐구를 수행했습니다.
합리적이고 다양한 오픈 도메인 응답 생성을 달성하기 위해 컨텐츠 홀을 목표로 이산 잠재 변수 기반 사전 학습 대화 생성 기술을 제안합니다. 지식 남용 문제와 관련하여 지식을 통합한 약한 지도 대화 생성 모델이 제안되었으며, 이는 지식 남용 문제를 어느 정도 완화하고 대화 풍부도와 지식 정확성을 향상시킵니다.
대화 모델이 빈 콘텐츠로 "안전한 응답"을 생성하는 이유는 무엇입니까?
기본적으로 오픈 도메인 대화는 일대다 문제입니다. 일반적으로 대화에는 다양한 배경, 경험, 상황이 있으므로 합리적인 답변이 많이 나올 수 있습니다. 똑같다. 신경망 훈련은 대개 하나씩 매핑되며, 학습되는 것은 안전하고 정보가 없는 응답인 "매우 좋음", "하하하"와 같은 이러한 응답의 평균 상태입니다.
PLATO-1은 이산 잠재 변수를 기반으로 한 일대다 대화 관계 모델링을 제안합니다.
여기에는 원래 대화 컨텍스트와 대화 응답을 매핑하는 두 가지 작업이 포함됩니다. 잠재 변수 잠재 작업에 대한 응답, 그런 다음 잠재 변수를 기반으로 응답을 생성하는 방법을 학습합니다. PLATO는 동일한 네트워크를 사용하여 두 가지 작업을 공동으로 모델링하고, 먼저 잠재 변수의 분포를 추정하고, Gumbel Softmax를 통해 잠재 변수를 샘플링한 다음, 이러한 방식으로 서로 다른 잠재 변수를 샘플링하여 다양한 응답을 생성할 수 있습니다.
사례 표시, 다양한 잠재 변수가 선택되어 다양한 반응 효과를 생성합니다. 이러한 응답은 모두 위의 응답을 기반으로 하며 품질이 좋고 적절하며 유익합니다.
PLATO-2는 PLATO-1을 기반으로 계속 확장됩니다. 매개변수 측면에서 사전 학습 자료의 규모는 16억 개에 이르렀고, 학습 방법 측면에서는 중국어 대화 샘플이 12억 개, 영어 샘플이 7억 개에 달하며 코스 학습을 기반으로 합니다. 커리큘럼 학습이란 무엇입니까? 간단한 것을 먼저 배우고 복잡한 것을 배우십시오.
또한 PLATO-2는 통합 네트워크 설계 PrefixLM을 계속 사용하면서 대화 이해 및 응답 생성을 학습합니다. 과정 학습을 기반으로 한 교육은 매우 효율적이며, 통합 네트워크 기반 교육은 비용 효율성이 높습니다.
PLATO-2는 먼저 단순화된 일반 응답 생성을 훈련하고, 두 번째 단계에서 다양한 응답 생성을 훈련합니다. 이 단계에서는 잠재 변수가 추가됩니다. 두 번째 단계에서는 공통 세대 확률 순위와 비교하여 일관성 평가가 응답 선택의 품질을 효과적으로 향상시킵니다.
PLATO-2를 범용 대화 프레임워크로 사용할 수 있나요? 우리는 대화 분야가 크게 업무 기반 대화, 지식 대화, 오픈 도메인 채팅 시스템의 세 가지 범주로 나누어진다는 것을 알고 있습니다. PLATO-2의 코스 학습 메커니즘은 다양한 유형의 대화 시스템을 별도로 사전 훈련하는 데 비용이 너무 많이 듭니다. 과업 기반 대화는 상대적으로 초점이 맞춰져 있습니다. 지식 대화와 일상 대화 모두 일대다 상황이 있습니다. 사용자에게 답변하기 위해 다양한 지식을 사용할 수 있고, 캐주얼 채팅 대화에서는 답변 방향이 다르기 때문에 코스 학습의 2단계 모델을 지식 대화 및 채팅 시스템에 적용할 수 있습니다.
이러한 능력을 검증하기 위해 PLATO-2는 다양한 대화 분야를 종합적으로 망라하는 대화 분야 국제대회 DSTC에 참가했습니다. 2 DSTC 역사상 최초로 통일된 기술 프레임워크로 6개 과제 5회 우승을 달성했습니다.
PLATO 모델의 매개변수 규모를 계속해서 확대하면 어떤 효과가 있을까요? ? 2021년 9월, 세계 최초 수백억 규모의 중국어 및 영어 대화 생성 모델인 PLATO-XL을 출시했습니다.
몇 가지 일반적인 상용 제품을 각각 합리성, 풍부함, 매력 측면에서 비교했는데, PLATO의 효과는 훨씬 앞서 있습니다.
위챗 공개 계정 "Baidu PLATO"는 PLATO-XL 모델과 연결되어 누구나 직접 체험해 볼 수 있습니다.
PLATO 모델 매개변수의 수는 1억에서 10억, 그리고 수백억에 이릅니다. 실제로 수십억 규모에 도달하면 대화가 이미 비교적 원활하고 원활해집니다. 수백억 규모에 이르며, 모델의 논리적 능력이 크게 향상되었습니다.
대형 모델에는 모두 지식 남용 문제가 있습니다. 우리 인간은 이해하지 못하는 문제를 어떻게 해결합니까? 아마도 검색 엔진에서 확인할 수 있을 것입니다. 이러한 외부 지식 검색 방법을 모델에 사용할 수 있습니까?
회신 생성을 지원하기 위해 외부 지식을 통합하는 것은 지식 남용을 완화할 수 있는 유망한 방향입니다. 그러나 대규모 대화자료의 경우에는 대화문과 답변 정보만 존재하며, 특정 말뭉치와 외부 지식과의 대응관계를 알 수 없다. 즉, 지식 선택을 위한 라벨 정보가 부족하다.
PostKS는 지식 대화 분야의 대표적인 작품 중 하나입니다. 사전 지식 분포가 사후 지식 분포와 유사하다고 가정합니다.
추론 단계에서는 사후 정보가 없기 때문에 모델은 응답 생성을 위해 사전 지식을 사용해야 합니다. 훈련 및 추론 단계에는 불일치가 있습니다. 훈련은 사후를 기반으로 하지만 추론은 사전을 기반으로만 가능합니다.
PLATO-KAG 비지도 모델은 지식 선택 및 응답 생성을 공동으로 모델링합니다. 상위 k개 지식은 선험적으로 선택되어 엔드투엔드 공동 훈련을 위한 생성 모델로 전송됩니다. 지식이 정확하게 선택되면 목표 응답을 생성하는 데 매우 도움이 되며, 공동 최적화는 이러한 선택을 장려하고 지식이 잘못 선택되면 주어진 지식을 활용하게 됩니다. 낮음, 결합 최적화는 이 선택을 억제하고 주어진 지식을 무시합니다. 이는 지식 선택과 응답 생성을 모두 최적화합니다.
인간 학습 지식 경험의 관점에서 볼 때, PLATO는 또한 많은 지식을 뇌에 암기합니다. 동시에 지식의 외적 적용과 지식의 내재화도 이루어졌다. 한편으로는 외부의 일반 비정형 지식과 초상 지식을 활용하고, 다른 한편으로는 사전 학습을 통해 대량의 질문과 답변 지식을 모델 매개변수에 내재화하기도 합니다. 이러한 종합적 지식 강화 이후, 일반 대화 지식의 오류율은 30%에서 17%로 감소하였고, 초상화의 일관성은 7.1%에서 80%로 증가하였으며, 질문과 답변의 정확도는 3.2%에서 증가하였습니다. 90%로 개선되었습니다.
아래 사진은 종합지식 강화 후 효과를 비교한 사진입니다.
효과는 눈에 띄게 개선됐지만, 지식 남용 문제는 완전히 해결되지 않고 완화만 되었다는 점에 주목할 필요가 있습니다. 모델 규모를 수천억 개의 매개변수로 확장하더라도 지식 남용 문제는 여전히 존재합니다.
우리의 지속적인 노력에 가치가 있는 몇 가지 사항이 여전히 있습니다. 첫 번째는 외부 지식의 촉발 타이밍, 즉 외부 지식을 확인하는 시기와 내면화된 지식을 사용하는 시기입니다. 이는 유창성과 매력에 영향을 미칩니다. 대화 지출. 두 번째는 검색 기술이 포함된 지식 선택의 정확성입니다. 중국의 지식 코퍼스는 수십억 규모로 구축되어 있어 주어진 대화를 통해 적절한 지식을 정확하게 검색하는 것이 그리 쉽지 않습니다. 세 번째는 지식 활용의 합리성과 충실성입니다. 때로는 모델이 지식을 정확하게 이해하지 못하거나 부정확한 응답을 혼동하고 통합할 수 없습니다.
위에서는 대규모 모델 도입, 대화 개선을 위한 이산 잠재 변수 추가 등 PLATO 대화의 일부 기술을 소개합니다. 외부 지식의 감독되지 않은 도입으로 지식 남용 등이 완화됩니다. 그렇다면 실제 제작에서 실제로 적용할 수 있는 방법은 무엇입니까?
PLATO는 스마트 스피커, 가상 인물, 커뮤니티 채팅 등 다양한 시나리오에서 오픈 도메인 채팅 기능을 제공합니다.
왼쪽에는 디지털 휴먼 Du Xiaoxiao가 있습니다. Baidu APP에서 Du Xiaoxiao를 검색하거나 직접 "안녕하세요"를 입력하여 디지털 휴먼에게 전화를 걸면 검색 과정이 쉬워지고 효율적으로 답변과 정보를 얻을 수 있습니다. 오른쪽은 잘생기고 채팅도 잘하는 바이두 입력 방식의 가상 인물입니다.
착륙 애플리케이션에서 첫 번째 과제는 추론 성능입니다. 그림에는 16억 개의 매개변수 PLATO의 성능 데이터가 나열되어 있습니다. 연산자 융합을 통해 연산자 수를 98% 줄였고, 모델 추론 시간도 기존 v100의 1.2초에서 A10 카드의 300ms 미만으로 단축됐다. 계산 정확도 최적화를 통해 비디오 메모리를 40% 줄였습니다. 추론 카드를 v100에서 A10으로 변경하여 비용을 줄이는 동시에 아키텍처 최적화 및 플랫폼 마이그레이션을 수행하여 링크 오버헤드를 줄였습니다.
두 번째 과제는 대화 보안 입니다. 예를 들어, 유해한 발언, 정치적 민감성, 지역 차별, 개인 정보 보호 등 많은 측면에 큰 관심이 필요합니다. PLATO는 코퍼스를 심층적으로 정리하고 안전하지 않은 샘플을 삭제하며 안전 판별 모델을 사용하여 배포 후 안전하지 않은 후보 응답을 제거합니다. 동시에 키워드 테이블을 유지하고, 공격적 훈련을 추가해 공백을 탐지하고 채워 보안을 강화합니다.
과거에는 오픈 도메인 채팅을 은밀한 기능으로 생각하는 사람들이 많았습니다. 최근 대형 모델이 개발되면서 대화 분야에서도 상당한 발전이 이루어졌습니다. 현재 모델은 일관되고 매끄럽고 풍부하며 도메인 간 대화를 생성할 수 있지만 감정, 성격, 성격 및 사고와 같은 측면에서는 여전히 개선의 여지가 많습니다.
길은 길고 장애물로 가득 차 있지만 계속 나아가면 미래가 기대됩니다. 또한 대화 분야의 동료들이 함께 협력하여 인간-컴퓨터 대화의 정점에 도달할 수 있기를 바랍니다.
A: 현재 대화 시스템에는 수동 평가와 일치하는 자동 표시기가 없으며 수동 평가는 여전히 최적의 표준입니다. 개발 단계에서 난제를 참조하여 반복할 수 있으며, 최종 종합 평가에서는 여전히 많은 크라우드소싱자에게 다양한 시스템과 상호 작용하고 일부 지표에 대한 수동 평가를 수행하도록 요청해야 합니다. 기술의 발전에 따라 평가 지표도 변한다. 예를 들어 유창함이 더 이상 문제가 되지 않는다면 안전성, 지식 정확성 등의 지표를 추가해 더욱 발전된 능력을 평가할 수 있다.
위 내용은 대형 모델을 통한 인간-컴퓨터 대화형 대화의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!