번역가 | Li Rui
리뷰어 | Sun Shujuan
알았어친구들과 체스를 준비하고 있다고 상상해 보세요. 하지만 그는 인간 이 아닙니다. 게임의 규칙을 이해하지 못합니다. 그러나 이 앱은 게임에서 이기는 이라는 하나의 목표 를 달성하기 위해 노력한다는 것을 이해합니다.
컴퓨터 프로그램은 규칙을 모르기 때문에 체스를 시작하는 동작은 무작위입니다. 이러한 트릭 중 일부는 전혀 의미가 없으며 쉽게 승리할 수 있습니다. 여기서 당신이 이 친구와 체스를 너무 좋아해서 게임에 중독되었다고 가정해 보겠습니다.
그러나컴퓨터 프로그램은 결국 승리할 것입니다. 왜냐하면 프로그램은 점차적으로 당신count을 물리칠 수 있는 방법과 요령을 배울 것이기 때문입니다. 이 가상의 시나리오는 믿기지 않는 것처럼 보일 수 있지만 강화 학습(기계 학습 분야)이 일반적으로 작동하는 방식에 대한 기본적인 이해를 제공해야 합니다.
강화 학습은 얼마나 스마트합니까? 인간의 지능은 지식 습득, 지적 능력 확장에 대한 욕구, 직관적 사고 등 다양한 특성을 포함합니다. 체스 챔피언 가리 카스파로프(Garry Kasparov)가 딥 블루(Deep Blue)라는 IBM 컴퓨터에 패하자 인간의 지능은 의심스러워졌습니다. 로봇이 인류를 지배하는 미래를 묘사한 종말론적 시나리오가 대중의 관심을 끌었을 뿐만 아니라 주류 의식도 장악했습니다. 하지만
, "딥 블루"는 평범한 상대가 아닙니다. 이 계산 프로그램 으로 체스를 두는 것은 천년의 노인 남자, 쉬지 않고 체스를 쳐온 모두와 함께 체스를 하는 것과 같습니다. 그의 인생 . 하지만 "딥 블루"는 악기 연주, 책 쓰기, 과학 실험, 아이 키우기, 자동차 수리와 같은 다른 지적 활동이 아닌 특정 게임을 잘합니다. 이
은 확실히 "Deep Blue"의 업적 을 과소평가 하려는 것이 아닙니다. 과는 반대로 컴퓨터가 지적 능력에서 인간을 능가할 수 있다는 생각은 강화 학습 작동 에 대한 분석부터 시작하여 신중한 조사가 필요합니다. 강화 학습의 작동 원리
에서 언급했듯이 강화 학습은 기계 학습의 하위 집합으로, 지능형 에이전트가 환경에서 행동하는 방식을 포함하여 개념을 최대화합니다. 누적 보상. 간단히 말하면, 강화 학습로봇은 보상과 처벌 메커니즘으로 훈련됩니다. 올바른 행동을 하면 보상을 받고, 잘못된 행동은 잘못된 행동에 대해 처벌됩니다. 강화 학습 봇은 더 나은 행동을 취하는 방법을 "생각" 하지 않고 모든 행동을 가능하게 만들어 성공 가능성을 극대화합니다. 강화 학습의 단점 양자 강화 학습 강화 학습을 위한 비즈니스 사례 강화 학습의 힘은 제한적일 수 있지만 과대평가할 수는 없습니다. 또한 강화 학습 연구 및 개발 프로젝트가 증가함에 따라 경제의 거의 모든 부문에서 잠재적인 사용 사례도 증가하고 있습니다. 강화 학습의 대규모 채택은 최적의 알고리즘 설계, 구성된 학습 환경, 컴퓨팅 성능의 가용성을 포함한 여러 요소에 따라 달라집니다. 원제: 강화 학습이 과대평가되었나요?, 저자: 알렉 산드라스 Šulženko
강화 학습에 대한 고찰
위 내용은 강화학습이 과대평가되었나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!