>기술 주변기기 >일체 포함 >OpenAI, 언어 모델의 동작을 설명하기 위한 새로운 도구 개발

OpenAI, 언어 모델의 동작을 설명하기 위한 새로운 도구 개발

WBOY
WBOY앞으로
2023-05-12 10:28:051181검색

언어 모델은 주어진 텍스트로부터 자연어를 생성할 수 있는 인공지능 기술입니다. OpenAI의 GPT 시리즈 언어 모델은 현재 가장 앞선 대표 모델 중 하나이지만 IT House는 여기에도 문제가 있다는 점을 발견했습니다. 즉, 해당 동작을 이해하고 예측하기가 어렵습니다. 언어 모델을 더욱 투명하고 신뢰할 수 있게 만들기 위해 OpenAI는 언어 모델의 어느 부분이 해당 동작을 담당하는지 자동으로 식별하고 이를 자연어로 설명할 수 있는 새로운 도구를 개발하고 있습니다.

OpenAI, 언어 모델의 동작을 설명하기 위한 새로운 도구 개발

이 도구의 원리는 다른 언어 모델(즉, OpenAI의 최신 GPT-4)을 사용하여 다른 언어 모델(예: OpenAI의 자체 GPT-2)의 내부 구조를 분석하는 것입니다. 언어 모델은 많은 "뉴런"으로 구성되며, 각 뉴런은 텍스트의 특정 패턴을 관찰하고 모델의 다음 출력에 영향을 줄 수 있습니다. 예를 들어, "가장 유용한 초능력을 가진 슈퍼 히어로는 누구입니까?"와 같은 슈퍼 히어로에 대한 질문이 있을 경우 "마블 슈퍼 히어로 뉴런"은 모델이 마블 영화의 특정 슈퍼 히어로를 언급할 확률을 높일 수 있습니다.

OpenAI의 도구는 이 메커니즘을 사용하여 모델의 다양한 부분을 분해합니다. 첫째, 평가 중인 모델에 텍스트 시퀀스를 공급하고 특정 뉴런이 자주 "발화"될 때까지 기다립니다. 그런 다음 이러한 고도로 활동적인 뉴런을 GPT-4에 "표시"하고 GPT-4가 설명을 생성하도록 합니다. 해석의 정확성을 결정하기 위해 GPT-4에 일부 텍스트 시퀀스를 제공하고 뉴런의 행동을 예측하거나 시뮬레이션하도록 요청합니다. 그런 다음 시뮬레이션된 뉴런의 동작을 실제 뉴런의 동작과 비교합니다.

"이 접근 방식을 사용하면 기본적으로 각 뉴런에 대한 몇 가지 예비 자연어 설명을 생성할 수 있으며 이러한 설명이 실제 동작과 얼마나 잘 일치하는지 측정하는 점수도 얻을 수 있습니다." Jeff, OpenAI Scalable Alignment Team Lead "우리는 GPT-4를 다음과 같이 사용했습니다. Wu는 이렇게 말했습니다.

연구원들은 GPT의 모든 뉴런에 대한 새로운 매개변수 세트를 생성할 수 있었습니다. -2. 307,200개의 뉴런이 해석을 생성하고 이를 도구 코드와 함께 GitHub에 오픈 소스로 공개되는 데이터세트로 컴파일합니다. 이와 같은 도구는 언젠가 편견이나 유해한 말을 줄이는 등 언어 모델의 성능을 향상시키는 데 사용될 수 있습니다. 그러나 그들은 또한 그것이 진정으로 유용하기까지는 아직 갈 길이 멀다는 것을 인정합니다. 이 도구는 전체의 작은 부분인 약 1,000개의 뉴런을 해석하는 데 자신감을 갖고 있습니다.

이 도구를 실행하려면 GPT-4가 필요하기 때문에 실제로는 GPT-4 광고라고 주장할 수도 있습니다. 그러나 Wu는 이것이 도구의 목적이 아니며 GPT-4를 사용한 것이 "우연히"였으며 대신 이 영역에서 GPT-4의 약점을 보여준다고 말합니다. 그는 또한 상업용 애플리케이션을 위해 만들어진 것이 아니며 이론적으로 GPT-4 이외의 다른 언어 모델에 적용할 수 있다고 말했습니다.

“대부분의 설명은 매우 낮은 점수를 받았거나 실제 뉴런 행동을 많이 설명하지 못했습니다.”라고 Wu는 말했습니다. “많은 뉴런이 5~6시에 활성화되는 것처럼 말하기 어려운 방식으로 활성화됩니다. , 하지만 뚜렷한 패턴이 없습니다. 때로는 분명한 패턴이 있지만 GPT-4가 이를 찾을 수 없습니다."

더 복잡하고, 더 새롭고, 더 큰 모델이나 웹에서 정보를 검색할 수 있는 모델은 말할 것도 없습니다. 그러나 후자의 경우 Wu는 웹 검색이 도구의 기본 메커니즘을 크게 바꾸지는 않을 것이라고 믿습니다. 그는 뉴런이 특정 검색 엔진 쿼리를 작성하거나 특정 웹 사이트를 방문하기로 결정한 이유를 알아내는 데 약간의 조정만 필요하다고 말합니다.

"우리는 이것이 설명 가능성 문제를 자동화된 방식으로 해결하여 다른 사람들이 이를 토대로 기여할 수 있는 유망한 길을 열어주기를 바랍니다." Wu는 "우리는 이러한 동작에 대해 정말 좋은 설명을 할 수 있기를 바랍니다."라고 말했습니다. 모델.”

위 내용은 OpenAI, 언어 모델의 동작을 설명하기 위한 새로운 도구 개발의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제