>기술 주변기기 >일체 포함 >신경기호 회귀: 데이터에서 과학 추출

신경기호 회귀: 데이터에서 과학 추출

PHPz
PHPz앞으로
2023-04-12 17:46:061829검색


신경기호 회귀: 데이터에서 과학 추출

번역자 | Li Rui

리뷰어 | Sun Shujuan

우주는 시끄럽고 혼란스럽고 너무 복잡해서 사람들이 예측하기가 어렵습니다. 인간의 지능과 직관은 주변 세계의 일부 활동에 대한 기본적인 이해에 기여하며 개인과 소그룹의 제한된 관점에서 거시적 공간 및 시간 규모의 개별 사건에 대한 기본적인 이해를 갖기에 충분합니다.

인류 선사시대와 고대의 자연철학자들은 대부분 상식 합리화와 추측 테스트에 국한되어 있었습니다. 이러한 방법은 특히 너무 크거나 복잡한 경우에는 상당한 제한이 있어 미신적이거나 마술적인 사고가 만연하게 됩니다.

이것은 추측과 확인(현대 과학 방법의 기초)을 폄하하려는 것이 아니라, 인간의 조사하고 이해하는 능력의 변화가 물리적 현상을 수학적 표현으로 증류하려는 욕구와 도구에 의해 촉발된다는 점을 보기 위한 것입니다.

이것은 고대에도 분석적 환원주의의 흔적이 있지만 뉴턴과 다른 과학자들이 주도한 계몽주의 이후 특히 분명했습니다. 관찰에서 수학 방정식(및 해당 방정식이 만드는 예측)으로 이동하는 능력은 과학적 탐구와 발전에 필수적입니다.

딥 러닝은 근본적으로 입력-출력 관찰과 관련된 학습 변환에 관한 것입니다. 마치 인간 과학자들이 수학적 표현의 형태로 입력과 출력 사이의 기능적 관계를 배우려고 노력하는 것과 같습니다.

물론, 심층 신경망에서 학습한 입출력 관계(보편 근사 정리의 결과)는 주로 가중치, 편향 및 이들이 연결하는 노드 등 수치 매개변수의 해석할 수 없는 "블랙 박스"로 구성된다는 점이 다릅니다.

보편 근사 정리에 따르면 매우 완화된 기준을 충족하는 신경망은 선의로 작동하는 모든 기능에 매우 근접할 수 있어야 합니다. 실제로 신경망은 단순하면서도 정확한 기본 방정식으로 인한 입력-출력 관계를 나타내는 깨지기 쉽고 누출되는 추상화입니다.

불확실성을 예측하기 위해 모델(또는 모델의 앙상블)을 훈련하는 데 특별한 주의를 기울이지 않는 한, 신경망은 훈련된 분포 외부에서 예측을 할 때 성능이 매우 저하되는 경향이 있습니다.

딥 러닝 예측은 위조 가능한 예측, 즉 과학적 방법의 기초를 형성하는 기발한 가정을 만드는 데도 취약합니다. 따라서 딥 러닝은 데이터를 맞추는 데 능숙한 검증된 도구이지만 인류의 가장 중요한 추구 중 하나인 과학적 방법을 통해 우리 주변의 우주를 탐험하는 데에는 그 유용성이 제한됩니다.

딥 러닝은 인간의 과학적 노력에 있어 다양한 단점을 갖고 있지만, 과학 분야에서 딥 러닝의 엄청난 피팅 능력과 수많은 성공은 무시할 수 없습니다.

현대 과학은 엄청난 양의 데이터를 생성하며 개인(또는 팀)은 이 데이터의 출력을 관찰할 수 없으며 시끄러운 데이터를 직관적으로 명확한 수학 방정식으로 변환할 수도 없습니다.

이를 위해 데이터를 방정식으로 줄이는 자동화 또는 반자동 방법인 기호 회귀를 사용할 수 있습니다.

현재의 표준: 진화 방법

현대 딥 러닝을 기호 회귀에 적용하는 흥미로운 최근 연구를 시작하기 전에 먼저 데이터 세트를 방정식으로 변환하는 진화 방법의 현재 상태를 이해하는 것이 중요합니다. 가장 일반적으로 언급되는 기호 회귀 패키지는 유전자 알고리즘을 기반으로 하는 Eureqa입니다.

Eureqa는 원래 코넬 대학교 Hod Lipson 팀의 연구 프로젝트로 개발되었으며 나중에 DataRobot Corporation에 인수된 Nutonian의 독점 소프트웨어로 제공되었습니다. Eureqa는 Eureqa의 공동 저자이자 Datarobot의 CTO인 Michael Schmidt가 이끄는 Datarobot 플랫폼에 통합되었습니다.

Eureqa 및 유사한 기호 회귀 도구는 유전자 알고리즘을 사용하여 정확성과 단순성을 위해 방정식 시스템을 동시에 최적화합니다.

TuringBot은 시뮬레이션된 어닐링을 기반으로 한 대체 기호 회귀 패키지입니다. 모의 어닐링은 금속의 물리적 특성을 변경하는 데 사용되는 금속학적 어닐링과 유사한 최적화 알고리즘입니다.

모의 어닐링에서는 최적화 문제에 대한 후보 솔루션을 선택할 때 "온도"가 낮아집니다. 여기서 더 높은 온도는 더 낮은 솔루션의 수용에 해당하고 초기 탐색을 촉진하는 데 사용되어 전역 최적 검색을 가능하게 하고 에너지를 제공합니다. 지역 최적점에서 벗어나세요.

TuringBot은 시뮬레이션 어닐링을 기반으로 하는 또 다른 상징적 회귀 패키지입니다. 시뮬레이션된 어닐링은 금속의 물리적 특성을 변경하는 데 사용되는 야금학적 어닐링과 유사한 최적화 알고리즘입니다.

모의 어닐링에서는 최적화 문제에 대한 후보 솔루션을 선택할 때 "온도"가 낮아집니다. 여기서 더 높은 온도는 더 낮은 솔루션의 수용에 해당하고 초기 탐색을 촉진하는 데 사용되어 전역 최적 검색을 가능하게 하고 에너지를 제공합니다. 지역 최적점에서 벗어나세요.

TuringBot은 무료 버전이지만 데이터 세트 크기와 복잡성에 상당한 제한이 있으며 코드 수정이 허용되지 않습니다.

상용 기호 회귀 소프트웨어(특히 Eureqa)는 기호 회귀를 위한 새로운 도구를 개발할 때 비교를 위한 중요한 기준을 제공하지만 폐쇄 소스 프로그램의 유용성은 제한적입니다.

PySR이라는 또 다른 오픈 소스 대안은 Apache 2.0 라이센스에 따라 출시되었으며 Princeton University PhD 학생 Miles Cranmer가 주도하고 Eureqa와 TuringBot 방법에서 사용하는 조합인 정확성과 간결성(단순성)의 최적화 목표를 공유합니다.

PySR은 기호 회귀를 수행하기 위해 자유롭게 수정 가능한 무료 소프트웨어 라이브러리를 제공하는 것 외에도 소프트웨어 관점에서도 흥미롭습니다. PySR은 Python으로 작성되었지만 Julia 프로그래밍 언어를 빠른 백엔드로 사용합니다.

일반적으로 유전 알고리즘은 기호 회귀에 대한 최신 기술로 간주되지만 지난 몇 년 동안 새로운 기호 회귀 전략이 폭발적으로 폭발적으로 증가했습니다.

이러한 새로운 개발 중 다수는 다단계 프로세스의 함수 근사 구성 요소로 또는 원래 자연어 처리를 위해 개발된 대규모 Transformer 모델을 기반으로 하는 엔드투엔드 방식으로 최신 딥 러닝 모델을 활용합니다. 그 사이에.

딥 러닝을 기반으로 한 새로운 기호 회귀 도구 외에도 확률 및 통계 방법, 특히 베이지안 통계 방법이 다시 부활하고 있습니다.

현대 컴퓨팅 성능과 결합된 차세대 기호 회귀 소프트웨어는 그 자체로 흥미로운 연구일 뿐만 아니라 대규모 데이터 세트 및 포괄적인 실험을 포함한 과학 분야에 실질적인 유용성과 기여를 제공합니다.

함수 근사자로 심층 신경망을 사용한 기호 회귀

1980년대 후반/1990년대 초반 Cybenko와 Hornik이 설명하고 연구한 보편적 근사 정리로 인해 하나 이상의 비선형 활성화 숨겨진 계층이 있는 신경망을 예상할 수 있습니다. 잘 동작하는 수학 함수.

실제로 더 깊은 신경망은 더 복잡한 문제에 대한 더 나은 성능을 위해 사용되는 경향이 있습니다. 그러나 원칙적으로 다양한 기능을 근사화하기 위해서는 은닉층이 필요하다.

물리학에서 영감을 받은 AI Feynman 알고리즘은 보다 복잡한 퍼즐의 일부로 보편적 근사 정리를 사용합니다.

AI Feynman(및 그 후속 AI Feynman 2.0)은 물리학자인 Silviu-Marian Udrescu와 Max Tegmark(및 일부 동료)가 개발했습니다. AI Feynman은 매끄러움, 대칭성, 구성성과 같은 다양한 물리 방정식에서 발견되는 기능적 특성을 활용합니다.

신경망은 함수 근사기 역할을 하며, 데이터 세트에 표시된 입력-출력 변환 쌍을 학습하고 동일한 함수 변환에서 합성 데이터를 생성하여 이러한 속성에 대한 연구를 촉진합니다.

AI 파인만이 문제를 해결하기 위해 사용하는 함수적 속성은 물리 방정식에서 흔히 볼 수 있지만, 가능한 모든 수학 함수의 공간에 임의로 적용할 수는 없습니다. 그러나 이는 여전히 현실 세계에 해당하는 다양한 기능에서 찾아볼 수 있는 합리적인 가정입니다.

앞서 설명한 유전 알고리즘 및 시뮬레이션 어닐링 방법과 마찬가지로 AI Feynman은 각각의 새로운 데이터 세트를 처음부터 맞춰줍니다. 일반화나 사전 훈련이 필요하지 않으며 심층 신경망은 물리적으로 정보가 풍부한 더 큰 시스템의 조직화된 부분만을 형성합니다.

AI 파인만 기호 회귀는 파인만의 물리학 강의에 나오는 100개의 방정식(또는 퍼즐)을 해독하는 데 탁월한 성능을 발휘하지만 일반화가 부족하다는 것은 각각의 새로운 데이터 세트(새 방정식에 해당)에 큰 계산 예산이 필요하다는 것을 의미합니다.

기호 회귀를 위한 새로운 딥 러닝 전략 세트는 원래 Vaswani 등이 자연어 모델로 소개한 매우 성공적인 Transformer 모델 제품군을 활용합니다. 이러한 새로운 방법은 완벽하지는 않지만 사전 훈련을 사용하면 추론 중에 계산 시간을 많이 절약할 수 있습니다.

자연어 모델을 기반으로 한 1세대 기호 회귀

컴퓨터 비전, 오디오, 강화 학습, 추천 시스템 및 기타 여러 분야에서 주의 기반의 매우 큰 Transformer 모델의 역할을 고려하면(텍스트 기반 자연어 모델의 원래 역할 외에도) 언어 처리) 다양한 작업에서 큰 성공을 거둔 Transformer 모델이 결국 기호 회귀에도 적용된다는 것은 놀라운 일이 아닙니다.

숫자 입력-출력 쌍을 기호 시퀀스로 변환하는 영역에는 신중한 엔지니어링이 필요하지만 수학적 표현의 시퀀스 기반 특성은 자연스럽게 Transformer 메서드에 적합합니다.

결정적으로 Transformers를 사용하여 수학적 표현식을 생성하면 자동으로 생성된 수백만 개의 방정식의 구조와 수치적 의미에 대한 사전 학습을 활용할 수 있습니다.

이는 또한 스케일업을 통해 모델을 개선할 수 있는 기반을 마련합니다. 확장은 딥 러닝의 주요 장점 중 하나입니다. 더 큰 모델과 더 많은 데이터가 과적합의 고전적인 통계 학습 한계를 훨씬 뛰어넘어 모델 성능을 지속적으로 향상시킵니다.

Scaling은 Biggio 등이 NSRTS라고 하는 "Scalable Neural Symbolic Regression"이라는 제목의 논문에서 언급한 주요 장점입니다. NSRTS Transformer 모델은 전용 인코더를 사용하여 데이터 세트의 각 입력-출력 쌍을 잠재 공간으로 변환합니다. 인코딩된 잠재 공간은 인코더의 입력 크기와 관계없이 고정된 크기를 갖습니다.

NSRTS 디코더는 인코딩된 잠재 공간과 지금까지 생성된 기호를 조건으로 방정식을 표현하기 위해 일련의 토큰을 구축합니다. 결정적으로 디코더는 숫자 상수에 대한 자리 표시자만 출력하지만 그 외에는 사전 훈련된 방정식 데이터 세트와 동일한 어휘를 사용합니다.

NSRTS는 PyTorch와 PyTorch Lightning을 사용하며 허용되는 오픈 소스 MIT 라이선스를 보유하고 있습니다.

상수가 없는 방정식(방정식 뼈대라고 함)을 생성한 후 NSRTS는 경사하강법을 사용하여 상수를 최적화합니다. 이 접근 방식은 Valipour et al.이 동시에 개발한 소위 "SymbolicGPT"가 공유하는 시퀀스 생성 위에 일반 최적화 알고리즘을 계층화합니다.

Valipour et al.은 NSRTS 방법처럼 주의 기반 인코더를 사용하지 않았습니다. 대신 Stanford 포인트 클라우드 모델 PointNet을 기반으로 한 모델을 사용하여 Transformer 디코더에서 방정식을 생성하는 데 사용되는 고정 차원 기능 세트를 생성합니다. NSRT와 마찬가지로 Symbolic GPT는 BFGS를 사용하여 Transformer 디코더에서 생성된 방정식 골격의 수치 상수를 찾습니다.

자연어 모델을 기반으로 한 2세대 기호 회귀

최근 일부 기사에서는 기호 회귀의 일반화 및 확장성을 달성하기 위해 자연어 처리(NLP) 변환기를 사용하는 방법을 설명하지만 위 모델은 실제로 엔드투엔드가 아닙니다. 그들은 수치 상수를 추정하지 않습니다.

이것은 심각한 결함이 될 수 있습니다. 서로 다른 주파수의 1000개의 정현파 베이스로 방정식을 생성하는 모델을 상상해 보세요. BFGS를 사용하여 각 항의 계수를 최적화하는 것은 아마도 대부분의 입력 데이터 세트에 대해 잘 작동할 것입니다. 그러나 실제로는 푸리에 분석을 수행하는 느리고 우회적인 방법일 뿐입니다.

2022년 봄, Vastl 등이 ArXiv에서 SymFormer를 통해 2세대 Transformer 기반 기호 회귀 모델을 출시했고, Kamienny와 동료들은 또 다른 엔드투엔드 Transformer를 출시했습니다.

이 모델과 이전 Transformer 기반 기호 회귀 모델의 중요한 차이점은 숫자 상수와 기호 수학적 시퀀스를 예측한다는 것입니다.

SymFormer는 양방향 Transformer 디코더를 활용하여 종단 간 기호 회귀를 완료합니다. 한 헤드는 수학적 기호를 생성하고, 두 번째 헤드는 수치 회귀 작업, 즉 방정식에 나타나는 수치 상수를 추정하는 작업을 학습합니다.

Kamienny와 Vastl의 엔드 투 엔드 모델은 수치 추정의 정확성과 같은 세부 사항이 다르지만 두 그룹의 솔루션은 여전히 ​​개선을 위한 후속 최적화 단계에 의존합니다.

그럼에도 불구하고 저자에 따르면 이전 방법보다 추론 시간이 더 빠르고 더 정확한 결과를 생성하고 더 나은 방정식 뼈대를 생성하며 최적화 단계에 대한 좋은 시작점과 추정 상수를 제공합니다.

기호 회귀의 시대가 온다

대부분의 경우 기호 회귀는 지난 10년 동안 평균보다 훨씬 덜 주목을 받은 우아하고 계산 집약적인 기계 학습 방법이었습니다.

이는 부분적으로 각각의 새로운 데이터 세트에 대해 처음부터 시작해야 하는 유전적 또는 확률적 방법의 "실행하고 잃어버리는" 접근 방식 때문입니다. 이는 딥 러닝에서 기호 회귀에 이르는 중간 응용 프로그램과 일치하지 않는 기능입니다( AI Feynman과 같은) 동일합니다.

Transformer를 기호 회귀의 필수 구성 요소로 사용하면 최신 모델이 대규모 사전 훈련을 활용하여 추론 시 에너지, 시간 및 계산 하드웨어 요구 사항을 줄일 수 있습니다.

이러한 추세는 수치 상수를 추정하고 수학 기호를 예측하는 새로운 모델로 더욱 확장되어 더 빠른 추론과 더 높은 정확도를 가능하게 합니다.

상징적 표현을 생성하는 작업은 테스트 가능한 가설을 생성하는 데 사용될 수 있으며, 이는 매우 인간적인 작업이자 과학의 핵심입니다. 기호 회귀의 자동화된 방법은 지난 20년 동안 계속해서 흥미로운 기술 발전을 이루었지만 실제 테스트는 이 방법이 실제 과학을 수행하는 연구자들에게 유용한지 여부입니다.

기호 회귀는 기술 시연 외에도 출판 가능한 과학적 결과를 점점 더 많이 생산하기 시작했습니다. 베이지안 기호 회귀 접근법은 세포 분열을 예측하기 위한 새로운 수학적 모델을 생성합니다.

또 다른 연구팀은 희소 회귀 모델을 사용하여 해양 난류에 대한 합리적인 방정식을 생성하여 향상된 다중 규모 기후 모델을 위한 길을 열었습니다.

그래프 신경망과 기호 회귀를 Eureqa의 유전자 알고리즘과 결합한 프로젝트는 다체 중력을 설명하는 표현을 일반화하고 기존 시뮬레이터에서 암흑 물질의 분포를 설명하는 새로운 방정식을 도출합니다.

기호 회귀 알고리즘의 향후 개발

기호 회귀는 과학자의 도구 상자에서 강력한 도구가 되고 있습니다. Transformer 기반 방법의 일반화 및 확장성은 여전히 ​​뜨거운 주제이며 아직 일반적인 과학 실습에 침투하지 못했습니다. 더 많은 연구자들이 모델을 적용하고 개선함에 따라 과학적 발견이 더욱 발전할 것으로 기대됩니다.

이러한 프로젝트 중 다수는 오픈 소스 라이선스에 따라 수행되므로 몇 년 내에 영향을 미칠 것으로 예상할 수 있으며 해당 응용 프로그램은 Eureqa 및 TuringBot과 같은 독점 소프트웨어보다 더 광범위할 수 있습니다.

기호 회귀는 종종 신비스럽고 해석하기 어려운 딥 러닝 모델의 출력을 자연스럽게 보완하는 반면, 수학적 언어로 더 이해하기 쉬운 출력은 테스트 가능한 새로운 가설을 생성하고 직관적인 도약을 유도하는 데 도움이 될 수 있습니다.

최신 세대 기호 회귀 알고리즘의 이러한 기능과 간단한 기능은 중요한 발견의 순간에 더 큰 기회를 제공할 것을 약속합니다.

위 내용은 신경기호 회귀: 데이터에서 과학 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제