구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 09, 2023 pm 03:01 PM

ai쓰레기 분류

강화 학습(RL)을 통해 로봇은 시행착오를 통해 상호 작용하고, 복잡한 행동을 학습하며, 시간이 지남에 따라 점점 더 좋아질 수 있습니다. Google의 이전 연구에서는 RL을 통해 로봇이 쥐기, 다중 작업 학습, 심지어 탁구와 같은 복잡한 기술을 습득할 수 있는 방법을 탐구했습니다. 로봇의 강화 학습이 큰 진전을 이루었지만 일상 환경에서 강화 학습을 수행하는 로봇은 아직 보이지 않습니다. 현실 세계는 복잡하고 다양하며 시간이 지남에 따라 끊임없이 변화하기 때문에 이는 로봇 시스템에 큰 과제를 안겨줍니다. 그러나 강화 학습은 이러한 과제를 해결하기 위한 훌륭한 도구여야 합니다. 로봇은 현장에서 연습하고, 개선하고, 학습함으로써 끊임없이 변화하는 세상에 적응할 수 있어야 합니다.

Google 논문 "Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators"에서 연구원들은 2년에 걸쳐 진행한 최신 대규모 실험을 통해 이 문제를 해결하는 방법을 탐구합니다. 23개의 RL 지원 로봇 그룹이 Google 사무실 건물의 쓰레기 분류 및 재활용에 사용됩니다. 사용된 로봇 시스템은 실제 데이터의 확장 가능한 심층 강화 학습과 시뮬레이션 훈련의 안내 및 보조 객체 인식 입력을 결합하여 일반화를 개선하는 동시에 검증을 위한 4800회의 평가 시험 이점을 유지합니다.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

문서 주소: https://rl-at-scale.github.io/assets/rl_at_scale.pdf

문제 설정

사람들이 쓰레기를 올바르게 분류하지 않으면, 재활용품이 오염될 수 있고 퇴비가 매립지에 부적절하게 폐기될 수 있습니다. Google의 실험에서 로봇은 "쓰레기통"(재활용 쓰레기통, 퇴비통 및 기타 쓰레기통)을 찾기 위해 사무실 건물 주변을 돌아 다녔습니다. 로봇의 임무는 각 쓰레기 처리장에 도착하여 쓰레기를 분류하고, 모든 재활용 품목(캔, 병)을 재활용 쓰레기통에 넣고 모든 퇴비화 가능 품목(판지 용기, 종이컵)을 퇴비통에 넣기 위해 여러 쓰레기통 간에 물품을 운반하는 것입니다. 다른 쓰레기통에 있는 다른 모든 것.

사실 이 작업은 생각보다 쉽지 않습니다. 사람들이 쓰레기통에 버리는 다양한 물건을 줍는 하위 작업은 이미 큰 도전입니다. 로봇은 또한 각 물체에 적합한 상자를 식별하고 가능한 한 빠르고 효율적으로 분류해야 합니다. 현실 세계에서 로봇은 다음과 같은 실제 사무실 건물의 예와 같이 다양하고 독특한 상황에 직면합니다.

다양한 경험에서 배우기

직장에서 지속적인 학습이 도움이 되지만, 이 지점에 도달하기 전에 이전에는 로봇을 안내하려면 기본 기술이 필요했습니다. 이를 위해 Google은 네 가지 경험 소스를 사용합니다. (1) 성공률은 낮지만 초기 경험을 제공하는 데 도움이 되는 간단한 수작업 설계 전략 (2) 시뮬레이션에서 실제로의 전환을 사용하여 일부를 제공하는 시뮬레이션 교육 프레임워크 예비 경험, 쓰레기 분류 전략; (3) 로봇이 대표적인 쓰레기 처리장을 사용하여 지속적으로 연습하는 "로봇 교실", (4) 로봇이 실제 쓰레기가 있는 사무실 건물에서 연습하는 실제 배치 환경.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

이 대규모 애플리케이션에서 강화 학습의 개략도. 스크립트 생성 데이터를 사용하여 정책 실행을 안내합니다(왼쪽 상단). 그런 다음 시뮬레이션-실제 모델이 훈련되어 시뮬레이션 환경(오른쪽 상단)에서 추가 데이터를 생성합니다. 각 배포 주기 동안 '로봇 교실'(오른쪽 하단)에서 수집된 데이터를 추가합니다. 사무실 건물에 데이터 배포 및 수집(왼쪽 하단).

여기에 사용된 강화 학습 프레임워크는 QT-Opt를 기반으로 하며, 실험실 환경에서 다양한 쓰레기를 포착하는 데에도 사용되며 일련의 기타 기술도 사용됩니다. 시뮬레이션 환경을 안내하는 간단한 스크립팅 전략으로 시작하고, 강화 학습을 적용하고, RetinaGAN을 사용하여 CycleGAN 기반 전송 방법을 사용하여 시뮬레이션 이미지를 더욱 현실적으로 보이게 만듭니다.

여기서 "로봇 교실"에 입장하기 시작합니다. 실제 사무실 건물은 가장 현실적인 경험을 제공하지만 데이터 수집 처리량은 제한되어 있습니다. 어떤 날에는 분류해야 할 쓰레기가 많을 것이고 어떤 날에는 그렇지 않을 것입니다. 로봇은 '로봇교실'에서 대부분의 경험을 쌓아왔다. 아래의 "로봇 교실"에는 20대의 로봇이 쓰레기 분류 작업을 연습하고 있습니다.

구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.

이 로봇들이 "로봇 교실"에서 훈련을 받는 동안, 다른 로봇들은 3개의 사무실 건물에서 30개의 쓰레기를 분류하고 있습니다. 서있는 동안.

분류 성능

최종적으로 연구진은 '로봇 교실'에서 540,000개의 실험 데이터를, 실제 배포 환경에서 325,000개의 실험 데이터를 수집했습니다. 데이터가 지속적으로 증가함에 따라 전체 시스템의 성능이 향상됩니다. 연구원들은 제어된 비교가 가능하도록 "로봇 교실"의 최종 시스템을 평가하고 로봇이 실제 배포에서 볼 수 있는 내용을 기반으로 시나리오를 설정했습니다. 최종 시스템은 약 84%의 평균 정확도를 달성했으며, 데이터가 추가됨에 따라 성능이 꾸준히 향상되었습니다. 실제로 연구원들은 2021년부터 2022년까지 실제 배포에 대한 통계를 문서화했으며 이 시스템이 쓰레기통의 오염 물질을 중량 기준으로 40~50% 줄일 수 있다는 사실을 발견했습니다. Google 연구원들은 논문에서 기술 설계에 대한 더 깊은 통찰력, 다양한 설계 결정의 감쇠에 대한 연구, 실험에서 얻은 더 자세한 통계를 제공합니다.

결론 및 향후 작업 전망

실험 결과는 강화 학습 기반 시스템을 통해 로봇이 실제 사무실 환경에서 실제 작업을 처리할 수 있음을 보여줍니다. 오프라인과 온라인 데이터의 결합을 통해 로봇은 현실 세계의 매우 다양한 상황에 적응할 수 있습니다. 동시에 시뮬레이션 환경과 실제 환경을 포함하여 보다 통제된 "교실" 환경에서 학습하면 강화 학습의 "플라이휠"이 회전을 시작하여 적응성을 달성할 수 있는 강력한 시작 메커니즘을 제공할 수 있습니다.

중요한 결과를 얻었지만 아직 해야 할 일이 많습니다. 최종 강화 학습 전략이 항상 성공적인 것은 아니며, 성능을 개선하고 더 넓은 범위의 작업 범위로 확장하려면 더 강력한 모델이 필요합니다. . 또한 다른 작업, 다른 로봇, 심지어 인터넷 비디오를 포함한 다른 경험 소스도 시뮬레이션과 "교실"에서 얻은 시작 경험을 더욱 보완할 수 있습니다. 앞으로 해결해야 할 문제들입니다.

위 내용은 구글이 강화 학습을 사용해 쓰레기 분류를 돕는 로봇 23대를 만드는 데 2년이 걸렸습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Top 10은 기계 학습 연구 논문을 읽어야합니다Apr 19, 2025 am 09:53 AM

이 기사는 인공 지능 (AI)과 머신 러닝 (ML)에 혁명을 일으킨 10 가지 주요 간행물을 살펴 봅니다. 우리는 신경망과 알고리즘의 최근의 혁신을 조사하여 현대 AI를 주도하는 핵심 개념을 설명합니다. th

SEO 대행사를 대체하기위한 11 대의 AI 도구 - 분석 VidhyaApr 19, 2025 am 09:49 AM

AI의 SEO 상승 : SEO 대행사를 능가하기위한 11 개의 도구 AI의 빠른 발전은 SEO 환경을 크게 재구성했습니다. 최고의 검색 엔진 순위를 목표로하는 기업은 AI의 힘을 활용하여 온라인 전략을 최적화하고 있습니다. AU에서

2025 년에 시도 할 수있는 상위 10 개 무료 AI 놀이터 - 분석 VidhyaApr 19, 2025 am 09:45 AM

2024 년 최고의 무료 AI 놀이터 탐색 : 포괄적 인 가이드 올바른 도구와 플랫폼에 대한 액세스는 인공 지능의 분야 (AI)에서 학습과 혁신의 핵심입니다. AI 놀이터는 환상적인 기회를 제공합니다

벡터 데이터베이스의 인덱싱 알고리즘에 대한 자세한 안내서Apr 19, 2025 am 09:41 AM

소개 벡터 데이터베이스는 고차원 벡터 데이터를 효율적으로 저장하고 검색하도록 설계된 전문 데이터베이스입니다. 이 벡터는 데이터 포인트의 특징 또는 속성을 나타냅니다.

역 확산 과정은 무엇입니까? - 분석 VidhyaApr 19, 2025 am 09:40 AM

안정적인 확산 : 역 확산의 마법을 공개합니다 안정적인 확산은 노이즈에서 고품질 이미지를 생성 할 수있는 강력한 생성 모델입니다. 이 프로세스는 두 가지 주요 단계가 포함됩니다 : 전방 확산 프로세스 (이전 A에 자세히 설명되어 있습니다.

프롬프트 엔지니어링에서 사전 기술을 마스터하는 것Apr 19, 2025 am 09:38 AM

AI 잠재력 잠금 해제 : 향상된 신속한 엔지니어링을위한 사전 체인 인공 지능과 자연어 처리의 빠르게 진화하는 환경에서 속도와 효율성이 가장 중요합니다. 사전의 사슬 e

대화식 3D 의료 시각화에 Pyvista를 사용하는 방법Apr 19, 2025 am 09:31 AM

Pyvista : 3D 의료 및 과학 시각화를위한 강력한 도구 복잡한 해부학 적 구조를 쉽게 탐색하는 의대생 또는 대화 형 3D 모델을 제작하는 데이터 과학자를 쉽게 탐구하는 의대생이 가능성을 상상해보십시오. Pyvista는 그러한 Endea에 권한을 부여합니다

프롬프트 엔지니어링의 상징 체인은 무엇입니까? - 분석 VidhyaApr 19, 2025 am 09:27 AM

상징 방법의 체인이있는 프롬프트 엔지니어링 : 포괄적 인 가이드 GPT-3 또는 GPT-4와 같은 대형 언어 모델 (LLM)으로 작업하면 종종 정교한 프롬프트 엔지니어링의 이점이 있습니다. 상징 방법의 체인은

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.