>  기사  >  기술 주변기기  >  구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

WBOY
WBOY앞으로
2023-05-09 15:01:09995검색

강화 학습(RL)을 통해 로봇은 시행착오를 통해 상호 작용하고, 복잡한 행동을 학습하며, 시간이 지남에 따라 점점 더 좋아질 수 있습니다. Google의 이전 연구에서는 RL을 통해 로봇이 쥐기, 다중 작업 학습, 심지어 탁구와 같은 복잡한 기술을 습득할 수 있는 방법을 탐구했습니다. 로봇의 강화 학습이 큰 진전을 이루었지만 일상 환경에서 강화 학습을 수행하는 로봇은 아직 보이지 않습니다. 현실 세계는 복잡하고 다양하며 시간이 지남에 따라 끊임없이 변화하기 때문에 이는 로봇 시스템에 큰 과제를 안겨줍니다. 그러나 강화 학습은 이러한 과제를 해결하기 위한 훌륭한 도구여야 합니다. 로봇은 현장에서 연습하고, 개선하고, 학습함으로써 끊임없이 변화하는 세상에 적응할 수 있어야 합니다.

Google 논문 "Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators"에서 연구원들은 2년에 걸쳐 진행한 최신 대규모 실험을 통해 이 문제를 해결하는 방법을 탐구합니다. 23개의 RL 지원 로봇 그룹이 Google 사무실 건물의 쓰레기 분류 및 재활용에 사용됩니다. 사용된 로봇 시스템은 실제 데이터의 확장 가능한 심층 강화 학습과 시뮬레이션 훈련의 안내 및 보조 객체 인식 입력을 결합하여 일반화를 개선하는 동시에 검증을 위한 4800회의 평가 시험 이점을 유지합니다.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

문서 주소: https://rl-at-scale.github.io/assets/rl_at_scale.pdf

문제 설정

사람들이 쓰레기를 올바르게 분류하지 않으면, 재활용품이 오염될 수 있고 퇴비가 매립지에 부적절하게 폐기될 수 있습니다. Google의 실험에서 로봇은 "쓰레기통"(재활용 쓰레기통, 퇴비통 및 기타 쓰레기통)을 찾기 위해 사무실 건물 주변을 돌아 다녔습니다. 로봇의 임무는 각 쓰레기 처리장에 도착하여 쓰레기를 분류하고, 모든 재활용 품목(캔, 병)을 재활용 쓰레기통에 넣고 모든 퇴비화 가능 품목(판지 용기, 종이컵)을 퇴비통에 넣기 위해 여러 쓰레기통 간에 물품을 운반하는 것입니다. 다른 쓰레기통에 있는 다른 모든 것.

사실 이 작업은 생각보다 쉽지 않습니다. 사람들이 쓰레기통에 버리는 다양한 물건을 줍는 하위 작업은 이미 큰 도전입니다. 로봇은 또한 각 물체에 적합한 상자를 식별하고 가능한 한 빠르고 효율적으로 분류해야 합니다. 현실 세계에서 로봇은 다음과 같은 실제 사무실 건물의 예와 같이 다양하고 독특한 상황에 직면합니다.

다양한 경험에서 배우기

직장에서 지속적인 학습이 도움이 되지만, 이 지점에 도달하기 전에 이전에는 로봇을 안내하려면 기본 기술이 필요했습니다. 이를 위해 Google은 네 가지 경험 소스를 사용합니다. (1) 성공률은 낮지만 초기 경험을 제공하는 데 도움이 되는 간단한 수작업 설계 전략 (2) 시뮬레이션에서 실제로의 전환을 사용하여 일부를 제공하는 시뮬레이션 교육 프레임워크 예비 경험, 쓰레기 분류 전략; (3) 로봇이 대표적인 쓰레기 처리장을 사용하여 지속적으로 연습하는 "로봇 교실", (4) 로봇이 실제 쓰레기가 있는 사무실 건물에서 연습하는 실제 배치 환경.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

이 대규모 애플리케이션에서 강화 학습의 개략도. 스크립트 생성 데이터를 사용하여 정책 실행을 안내합니다(왼쪽 상단). 그런 다음 시뮬레이션-실제 모델이 훈련되어 시뮬레이션 환경(오른쪽 상단)에서 추가 데이터를 생성합니다. 각 배포 주기 동안 '로봇 교실'(오른쪽 하단)에서 수집된 데이터를 추가합니다. 사무실 건물에 데이터 배포 및 수집(왼쪽 하단).

여기에 사용된 강화 학습 프레임워크는 QT-Opt를 기반으로 하며, 실험실 환경에서 다양한 쓰레기를 포착하는 데에도 사용되며 일련의 기타 기술도 사용됩니다. 시뮬레이션 환경을 안내하는 간단한 스크립팅 전략으로 시작하고, 강화 학습을 적용하고, RetinaGAN을 사용하여 CycleGAN 기반 전송 방법을 사용하여 시뮬레이션 이미지를 더욱 현실적으로 보이게 만듭니다.

여기서 "로봇 교실"에 입장하기 시작합니다. 실제 사무실 건물은 가장 현실적인 경험을 제공하지만 데이터 수집 처리량은 제한되어 있습니다. 어떤 날에는 분류해야 할 쓰레기가 많을 것이고 어떤 날에는 그렇지 않을 것입니다. 로봇은 '로봇교실'에서 대부분의 경험을 쌓아왔다. 아래의 "로봇 교실"에는 20대의 로봇이 쓰레기 분류 작업을 연습하고 있습니다.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

이 로봇들이 "로봇 교실"에서 훈련을 받는 동안, 다른 로봇들은 3개의 사무실 건물에서 30개의 쓰레기를 분류하고 있습니다. 서있는 동안.

분류 성능

최종적으로 연구진은 '로봇 교실'에서 540,000개의 실험 데이터를, 실제 배포 환경에서 325,000개의 실험 데이터를 수집했습니다. 데이터가 지속적으로 증가함에 따라 전체 시스템의 성능이 향상됩니다. 연구원들은 제어된 비교가 가능하도록 "로봇 교실"의 최종 시스템을 평가하고 로봇이 실제 배포에서 볼 수 있는 내용을 기반으로 시나리오를 설정했습니다. 최종 시스템은 약 84%의 평균 정확도를 달성했으며, 데이터가 추가됨에 따라 성능이 꾸준히 향상되었습니다. 실제로 연구원들은 2021년부터 2022년까지 실제 배포에 대한 통계를 문서화했으며 이 시스템이 쓰레기통의 오염 물질을 중량 기준으로 40~50% 줄일 수 있다는 사실을 발견했습니다. Google 연구원들은 논문에서 기술 설계에 대한 더 깊은 통찰력, 다양한 설계 결정의 감쇠에 대한 연구, 실험에서 얻은 더 자세한 통계를 제공합니다.

결론 및 향후 작업 전망

실험 결과는 강화 학습 기반 시스템을 통해 로봇이 실제 사무실 환경에서 실제 작업을 처리할 수 있음을 보여줍니다. 오프라인과 온라인 데이터의 결합을 통해 로봇은 현실 세계의 매우 다양한 상황에 적응할 수 있습니다. 동시에 시뮬레이션 환경과 실제 환경을 포함하여 보다 통제된 "교실" 환경에서 학습하면 강화 학습의 "플라이휠"이 회전을 시작하여 적응성을 달성할 수 있는 강력한 시작 메커니즘을 제공할 수 있습니다.

중요한 결과를 얻었지만 아직 해야 할 일이 많습니다. 최종 강화 학습 전략이 항상 성공적인 것은 아니며, 성능을 개선하고 더 넓은 범위의 작업 범위로 확장하려면 더 강력한 모델이 필요합니다. . 또한 다른 작업, 다른 로봇, 심지어 인터넷 비디오를 포함한 다른 경험 소스도 시뮬레이션과 "교실"에서 얻은 시작 경험을 더욱 보완할 수 있습니다. 앞으로 해결해야 할 문제들입니다.

위 내용은 구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제