추론 과정을 나타내는 계층 적 트리 구조
단순화 된 데모 : Gradio Math Solver
우리의 데모는 Sympy와 함께 정책 및 보상 모델이 수학적 문제를 해결하는 방법을 보여줍니다. 특징 :
다음 문제 해결 조치를 예측하는 정책 모델
행동의 성공을 평가하는 보상 모델
정확한 수학 계산 및 방정식 해결을위한 Sympy
효율적인 솔루션 탐색을위한 단순화 된 MCTS 구현
모델 개선을위한 기본 강화 학습 루프 (단순화)
단일 및 다변성 방정식에 대한 지원
데모의 한계 :
단순화를 위해, 데모는 원래 논문에서 몇 가지 고급 기능을 생략합니다.
- 확장 성 : 원본은 대규모 미리 훈련 된 모델과 실질적인 리소스를 사용합니다. 데모는 더 작은 네트워크를 사용하고 복잡한 사전 훈련을 피합니다
Advanced MCTS 전략 : 적응 형 UCT 및 다양한 탐사와 같은 기술은 완전히 구현되지 않았습니다.
작업 일반화 :
데모는 대수 방정식에 중점을두고 RSTAR은 더 넓은 수학적 작업을 위해 설계되었습니다.
DataSet : - 큐 레이트 교육 데이터 세트 대신 데모는 상징적 추론 및 사용자 입력에 의존합니다.
구현 단계 (단순화 된 개요) :
전제 조건 : python 3.8, ,
및
신경망 : Pytorch를 사용하여 구현 된 가벼운 정책 및 보상 모델.
Treenode 클래스 : 는 MCTS 트리의 노드, 저장 상태, 부모, 어린이, 방문 및 Q- 값을 나타냅니다.
Mathsolver 클래스 : 는 신경이 유도 검색과 상징적 추론을 결합합니다. 방정식 구문 분석 및 인코딩, 정책 및 보상 모델 예측, 코드 실행, MCT 및 솔루션 프레젠테이션이 포함되어 있습니다.
Gradio 인터페이스 : 방정식을 입력하고보기 결과를 입력하기위한 사용자 친화적 인 인터페이스.
- 테스트 및 검증 : 다양한 단일 및 다중 변수 방정식으로 테스트.
미래의 개선 사항 :
는 미리 훈련 된 언어 모델을 통합합니다
고급 MCTS 전략 구현
더 복잡한 방정식과 수학적 작업을 처리하도록 확장
더 큰 데이터 세트에서 훈련하십시오
다른 추론 과제로 확장
결론
이 단순화 된 데모는 수학적 문제를 해결하기위한 다단계 추론의 실질적인 그림을 제공합니다. 신경망, 상징적 추론 및 MCTS의 조합은 구조화 된 추론 작업에 대한 유망한 접근 방식을 제공합니다. 추가 개발은이 구현을 RSTAR 프레임 워크의 잠재력에 더 가깝게 만들 수 있습니다.