찾다
기술 주변기기일체 포함사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.

2017년 Google Brain 팀은 "Attention Is All You Need"라는 논문에서 Transformer 아키텍처를 창의적으로 제안한 이후 이 연구는 선구적이었으며 오늘날 NLP 분야에서 가장 인기 있는 모델 중 하나가 되었습니다. 다양한 언어 작업에 적용되어 많은 SOTA 결과를 얻었습니다.

이뿐만 아니라 NLP 분야를 선도해 온 Transformer는 컴퓨터 비전(CV), 음성 인식 등 분야를 빠르게 휩쓸며 이미지 분류, 대상 탐지 등의 작업에서 좋은 결과를 얻었습니다. , 음성 인식 등이 있습니다.

사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.

문서 주소: https://arxiv.org/pdf/1706.03762.pdf

Transformer는 출시 이후 다음과 같은 많은 모델의 핵심 모듈이 되었습니다. 친숙한 BERT, T5 등에는 모두 Transformer가 있습니다. 최근 인기를 끌고 있는 ChatGPT도 이미 Google이 특허를 취득한 Transformer를 사용하고 있습니다.

사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.

이미지 출처: https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

이 외에도 OpenAI에서 시리즈를 출시했습니다. GPT(Generative Pre-trained Transformer) 모델의 이름에 Transformer가 붙은 것을 보면 Transformer가 GPT 시리즈 모델의 핵심임을 알 수 있습니다.

동시에 OpenAI 공동 창립자인 Ilya Stutskever는 최근 Transformer에 대해 이야기하면서 Transformer가 처음 출시되었을 때 실제로 논문이 발표된 지 이틀 만에 이전 버전으로 전환하기를 기다릴 수 없었다고 말했습니다. Transformer에 이어 GPT에 대한 연구입니다. Transformer의 중요성은 자명하다고 볼 수 있습니다.

트랜스포머를 기반으로 한 모델은 6년 동안 계속 발전하고 성장해왔습니다. 그러나 이제 누군가가 원본 Transformer 문서에서 오류를 발견했습니다.

트랜스포머 아키텍처 다이어그램과 코드가 "일관되지 않습니다"

오류를 발견한 사람은 머신러닝 및 AI 연구원으로 유명한 스타트업 라이트닝 AI의 수석 AI 교육자인 세바스찬 라슈카였습니다. 그는 원본 Transformer 논문의 아키텍처 다이어그램이 잘못되어 코드와 일치하지 않는 잔여 블록 사이에 레이어 정규화(LN)를 배치했다는 점을 지적했습니다.

사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.

Transformer 아키텍처 다이어그램은 왼쪽은 다음과 같고, 오른쪽은 Post-LN Transformer 레이어입니다(논문 "On Layer Normalization in the Transformer Architecture" [1] 참조).

일관되지 않은 코드 부분은 다음과 같습니다. 82행에서는 실행 시퀀스 "layer_postprocess_sequence="dan""을 작성하는데, 이는 후처리가 dropout, 잔여_add 및 layer_norm을 차례로 실행한다는 의미입니다. 위 그림의 왼쪽 중앙에 있는 add&norm이 다음과 같이 이해된다면, add는 규범보다 높습니다. 즉, 먼저 규범을 적용한 다음 추가하면 코드는 실제로 그림과 일치하지 않습니다.

코드 주소:

https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef168 71bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…

다음으로 Sebastian은 논문이 "On Layer"라고 말했습니다. Transformer Architecture의 정규화'는 Pre-LN이 더 나은 성능을 발휘하고 기울기 문제를 해결할 수 있다고 믿습니다. 이는 실제로 많은 또는 대부분의 아키텍처가 수행하는 작업이지만 표현 붕괴로 이어질 수 있습니다.

주의 계층과 완전 연결 계층 이전의 잔여 연결에 계층 정규화가 배치되면 더 나은 그라데이션을 얻을 수 있습니다.

사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.

그래서 Post-LN 또는 Pre-LN에 대한 논쟁이 계속되는 동안 이 두 가지 요점을 결합한 또 다른 논문, 즉 "ResiDual: Transformer with Dual Residual Connections"[2] .

Sebastian의 발견과 관련하여 일부 사람들은 코드나 결과와 일치하지 않는 논문을 자주 접한다고 생각합니다. 대부분은 정직하지만 때로는 이상합니다. Transformer 논문의 인기를 고려하면 이러한 불일치는 수천 번 이상 언급되어야 합니다.

Sebastian은 공평하게 말하면 "가장 독창적인" 코드가 실제로 아키텍처 다이어그램과 일치하지만 2017년에 제출된 코드 버전은 수정되었으며 아키텍처 다이어그램은 업데이트되지 않았다고 답했습니다. 그래서 이것은 정말 혼란스럽습니다.

사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.

한 네티즌이 말했듯이 "코드를 읽을 때 가장 나쁜 점은 이런 작은 변화를 자주 발견하게 되는데, 그것이 의도한 것인지 의도하지 않은 것인지 알 수 없다는 것입니다. 그럴 수 있습니다." 테스트도 하지 마세요. 모델을 학습시킬 컴퓨팅 파워가 부족하기 때문입니다.”

Google이 향후 코드나 아키텍처 다이어그램을 업데이트할지 여부는 알 수 없습니다. 기다려 보겠습니다!

위 내용은 사진이 코드와 일치하지 않습니다. 네티즌: 1,000번은 지적했어야 했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Gemma Scope : AI의 사고 과정으로 들여다 보는 Google의 현미경Apr 17, 2025 am 11:55 AM

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?비즈니스 인텔리전스 분석가는 누구이며 하나가되는 방법은 무엇입니까?Apr 17, 2025 am 11:44 AM

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL에서 열을 추가하는 방법? - 분석 VidhyaSQL에서 열을 추가하는 방법? - 분석 VidhyaApr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

비즈니스 분석가 대 데이터 분석가비즈니스 분석가 대 데이터 분석가Apr 17, 2025 am 11:38 AM

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel의 Count와 Counta는 무엇입니까? - 분석 VidhyaExcel의 Count와 Counta는 무엇입니까? - 분석 VidhyaApr 17, 2025 am 11:34 AM

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome은 AI와 함께 여기에 있습니다 : 매일 새로운 것을 경험하고 있습니다 !!Chrome은 AI와 함께 여기에 있습니다 : 매일 새로운 것을 경험하고 있습니다 !!Apr 17, 2025 am 11:29 AM

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

AI '의 인간 측면 : 웰빙과 4 배의 결론AI '의 인간 측면 : 웰빙과 4 배의 결론Apr 17, 2025 am 11:28 AM

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

5 게임 변화 양자 컴퓨팅 사용 사례에 대해 알아야합니다.5 게임 변화 양자 컴퓨팅 사용 사례에 대해 알아야합니다.Apr 17, 2025 am 11:24 AM

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는