>  기사  >  기술 주변기기  >  비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.

비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.

王林
王林앞으로
2024-03-28 22:01:21346검색

올해 업그레이드의 초점은 다중 모드 대형 모델 기능의 도입입니다.

Sora와 Suno가 만든 비디오 및 음악 작곡이 전 세계적으로 시청각 혁명을 촉발함에 따라 업계의 대규모 다중 모드 애플리케이션은 어떻게 발전할까요? 3월 27일, 중국 최고의 'AI+ 제조' 솔루션 제공업체인 Innovation Qizhi는 미래 지향적인 답변을 공개했습니다.

반년 간의 노력 끝에 Innovation Qizhi는 베이징에서 열린 기자간담회에서 더욱 강력해진 Qizhi Haiming 산업용 대형 모델 2.0 버전(AInno-75B)을 출시했습니다. ChatVision, ChatCAD 및 ChatRobot을 포함한 여러 대형 모델 기본 응용 프로그램도 데뷔했으며 Pro 버전으로 업그레이드되었습니다. O t

비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.

기자회견에서 CTO Zhang Fien의 응용 프로그램

Scaling LAWS는 연구원과 엔지니어가 모델 크기에 따른 성과 수입을 예측하고 특정 성과 목표에 필요한 매개변수를 달성하는 데 도움이 될 수 있습니다. 수량. 현재 인터페이스에 대한 일부 합의가 이루어졌습니다. 매개변수를 개선하면 모델 성능이 향상될 수 있습니다. AInno-15B와 비교하여 AInno-75B는 크기와 성능면에서 상당한 성장을 이루었습니다.

올해 업그레이드의 초점은 다중 모드 대형 모델 기능의 도입입니다. Zhang Faen은 이 고급 대형 모델이 텍스트, 사진, 비디오를 포함한 다양한 정보 형식을 처리할 수 있으며 CAD 도면 및 EEG 신호와 같은 산업 시나리오에 고유한 데이터 유형도 통합할 수 있다고 설명했습니다. 출력은 마찬가지로 다양하며 텍스트, 이미지, 비디오, CAD 설계 도면 또는 도구 본체 작동 동작을 생성할 수 있습니다.

비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.

1. ChatCAD: 산업용 "Wen Sheng Diagram"의 아름다움

C-side AIGC 애플리케이션으로 생성된 사진과 영상 작품은 숨이 막힐 정도이며, 엔터프라이즈 서비스 분야에서는 AI 생성 기능도 똑같이 흥미롭습니다.

산업디자인은 생산활동의 초석입니다. 휴대폰부터 신에너지 자동차 공장까지, 산업디자인은 생산과 건설에 앞서 완성되어야 합니다. 산업 디자인의 기초로서 CAD 소프트웨어는 산업 체인에서 중요한 위치를 차지합니다. 오랫동안 우리나라의 미디어 CAD 소프트웨어 시장은 인터페이스가 복잡하고 사용 장벽이 높은 외국 제조업체가 지배해 왔습니다.

중국 IPIM International Mechanical Engineering Co., Ltd.의 운영 총괄 책임자인 Wang Xian은 대부분의 설계 작업이 육체 노동에 의존하고 있다고 밝혔습니다. 단일 건물은 표준층이든 복합건물이든 설계자가 하나하나 그려야 하기 때문에 인력과 물적 자원이 많이 소모되는 산업 도면도 마찬가지다. 또한, 산업 사양이 많고 개정이 잦아 설계의 난이도가 더욱 높아집니다.

이런 상황을 타개하기 위해 Chuangxinqizhi는 산업 디자인 분야에 산업 대형 모델 기술을 도입하는 데 앞장섰고 간단한 대화와 질문 및 답변 형식을 통해 Text-to-CAD 애플리케이션인 "ChatCAD"를 출시했습니다. 를 사용하면 디자이너의 창의성 의도를 신속하게 이해하고 요구 사항을 충족하는 산업 디자인 도면을 자동으로 생성하며 미세 조정을 위해 기존 소프트웨어로 내보내기를 지원할 수 있습니다.

입력 "산업용 풀리 설계를 도와주세요. 매개변수는 다음과 같습니다: 풀리의 반경은 6, 두께는 5, 풀리의 가장자리는 바깥쪽으로 0.8, 튀어나온 부분의 두께는 0.5, 풀리 중심축의 높이는 5이고 반경은 4"입니다. ChatCAD는 즉시 아트웍을 생성하고 피드백을 기반으로 디자인을 지속적으로 개선합니다. ㅋㅋ                                               라이브 시연 산업용 도르래 설계 비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다. 길고 복잡한 부품 설계 요구사항이 있더라도 ChatCAD가 이를 처리할 수 있습니다. 예: "터빈 설계를 도와주세요. 터빈은 모터와 엔진 커버로 구성됩니다. 구체적인 요구 사항은 다음과 같습니다. 모터는 원통형이고 길이는 20이고 직경은 16입니다. 터빈은 원통형 터빈 샤프트로 구성됩니다. 5개의 팬 블레이드 길이는 20이고, 터빈 상단에는 원통형 원추형 회전 샤프트가 있어야 하며, 샤프트 캡 길이는 9, 직경은 12, 후드 직경은 50입니다. 길이는 30이고 터빈 블레이드와 후드 사이의 거리는 1입니다.” ChatCAD는 여전히 결과를 생성하고 피드백을 기반으로 계속 개선할 수 있습니다. ChatCAD로 생성된 디자인은 주류 파일 형식도 지원하며 다른 산업용 소프트웨어에 원활하게 연결되어 후속 통합 및 수정을 용이하게 할 수 있습니다.

비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.                                            터빈 설계 실시간 시연

이 기능은 왕씨를 매우 흥분하게 만듭니다. 그는 ChatCAD가 업계에서 반복적인 노동을 줄이고 엄격한 사양 제한을 ​​피함으로써 전체 업계의 수동 견적에 영향을 미치는 데 도움이 될 것이라고 믿습니다.

그럼 ChatCAD는 어떻게 구현되나요? Zhang Faen은 CAD가 점, 선, 모서리, 원, 기둥 및 프로세스와 같은 기하학적 데이터를 표현해야 한다고 설명했습니다. "그래서 우리는 이를 모달리티(modality)라고도 부르는데, C측에는 없는 모달리티입니다. CAD를 표현하기 위해 자체 중간 언어를 발명하고, 이 중간 언어나 대형 모델용 중간 코드를 생성한 다음, 이 중간 코드를 번역해야 합니다. CAD로 "비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.

                                                                                                                                                   공식적으로 출시된 ChatCAD DEMO

Zhang Fa'en은 다음과 같이 솔직하게 말했습니다. ChatCAD에서 생성된 도면은 처리에 직접 사용할 수 있지만 복잡한 설계는 여전히 개선이 필요합니다. ChatCAD의 목표는 설계 연구소 엔지니어의 오른팔 조수가 되는 것입니다. 대형 모델이 작업의 90%를 담당하고 나머지 10%는 수동으로 최적화해 원래 10시간이 걸렸던 설계 과정을 1시간으로 단축할 것으로 예상된다.

Chuangxinqizhi는 첨단 대형 모델 기술을 CAD, MES, BI 등 다양한 산업용 소프트웨어에 성공적으로 통합하여 "R&D 설계-생산 제어-정보 관리" 혁신 및 업그레이드의 전체 프로세스의 지능화를 실현했다는 점을 언급할 가치가 있습니다.

2. ChatVision: 산업 안전 감독을 위한 새로운 도구

공장 생산 안전 및 규정 준수는 매우 중요하며 비디오 감시 및 이미지 분석은 필수입니다. 보드 카드 공장의 웨이브 솔더링을 예로 들어보겠습니다. 작업자가 280도 고온 주석로를 청소할 때 밀폐 활성탄 마스크, 고온 보호 장갑 등 안전 보호 장비를 엄격히 착용하지 않은 경우. ., 심각한 화상을 입을 위험이 있습니다.

기존 모니터링 방법은 비효율적이고 숨겨진 위험을 놓치기 쉬우며 후속 검사에서 명백한 지연이 발생합니다. Alnno-75B 산업용 대형 모델을 기반으로 ChatVision은 자연어를 통해 감시 비디오 스트림, 비디오 파일 및 사진을 실시간으로 분석하고 비준수 행위를 정확하게 식별하며 즉시 경보 시스템을 트리거합니다(예: 관리자에게 자동으로 이메일 전송). 산업 기업의 보안 생산을 돕기 위해.

기자간담회 ​​라이브 시연에서 챗비전은 "현재 화면을 잘 보고 이게 어디에 있는지 말해주세요", "화면에서 전원 소켓을 찾아주세요", "" 등 종합적인 이해 명령에 정확하게 응답했습니다. 흰색 안전모 찾기' 등 특정 대상 인식 작업은 광범위한 응용 가능성을 보여줍니다. 비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.

라이브 시연 중에 C 演Hasion은 사진 속 전원 소켓 '과'하얀 헬멧' 등 구체적인 목표를 찾아냅니다.

이 지침은 매우 간단한 것 같지만, 그렇지 않은 경우 대형 모델의 경우 소형 인식 카테고리(예: 안전모, 흡연 등)별로 특정 알고리즘을 개발해야 하며 디버깅 및 배포 후 수정이 어렵고 구현 비용이 높으며 대형 모델의 출현 주기가 깁니다. 단일 대형 모델은 여러 소형 모델의 기능을 포괄할 수 있으며 성능, 정확성 및 일반화 기능 측면에서 모든 측면을 능가하며 자연어 상호 작용을 지원하여 개발 및 배포 프로세스를 크게 단순화합니다. 실시간 시연 중에 화면이 바뀌었는데, 동료가 그것을 벗었다. 작업자가 휴대전화를 가지고 놀고 있는 동안 다른 동료가 안전복을 벗더니 “이 사진을 잘 분석해서 관리자에게 이메일을 보내주세요.”라고 지시했다. 이 지침은 매우 지식 집약적이며 단순한 위반 이상의 내용을 포함합니다. 판단하려면 이메일 전송 및 수신자를 트리거할지 여부도 결정해야 합니다. 이것이 대형 모델의 일반적인 서비스 모드입니다. 결과적으로 ChatVision은 백그라운드에서 많은 보안 모니터링 기술을 사용하여 세 가지 위반 사항을 식별할 뿐만 아니라 스크린샷과 함께 이메일을 보냅니다.发 发 发 发 发Chatvision 데모는 산업 모델의 계획 및 추론 기능을 완벽하게 반영하여 복잡한 비디오 이해 작업을 순서대로 완료합니다. Innovation Qizhi CTO Zhang Faen은 회사가 200개 이상의 시각적 개체를 축적했다고 말했습니다. 지난 몇 년 동안의 알고리즘 및 모델 자산과 산업용 대형 모델은 이러한 자산을 적용할 수 있는 새로운 세계를 열었습니다. 이 모델은 사용자 경험을 최적화하기 위한 지능형 조정자 역할을 할 수 있을 뿐만 아니라 다중 모드 기능도 가능합니다. 영상 이해도를 높이고 기업 보안 분야에서 중요한 역할을 합니다 .

마지막 시연 사례는 다중 모드 분야에서 대형 모델의 최첨단 적용을 강조합니다. 실제 워크숍 영상을 접한 시위자는 다음과 같은 어려운 요구 사항을 제시했습니다. "이 영상을 주의 깊게 분석하고, 식사 중인 사람이 있는지 알려주고, 이 동작이 발생한 시간을 표시해 주세요." 이 작업에는 장기 시퀀스 이미지에 대해 지속적인 동작 인식을 수행하고 동작의 시작 및 종료 시간을 표시하는 대규모 모델이 필요합니다. 그 결과 ChatVision은 영상의 처음 15초 안에 직원들이 식사하는 장면을 정확하게 찾아냈습니다.

"식사는 매우 일반적인 이벤트이며, 이벤트를 이해하는 대형 모델의 능력은 기존의 소형 알고리즘 모델보다 훨씬 뛰어납니다." 오랫동안 영상을 통해 생산 및 엔지니어링 안전을 보장해야 하는 필요성이 시급했습니다. 향후에는 대형 모델을 중심으로 한 관련 작업을 통해 생산 안전 조건 및 생산 프로세스 준수에 대한 지능형 영상 이해가 가능할 것으로 기대됩니다.

Wang Xian의 관점에서는 엔지니어링 프로젝트에서 안전이 항상 최우선 과제입니다. 수년 동안 엔지니어링 안전 교육에는 현장 위험 식별이 거의 포함되지 않았습니다. 그는 ChatVision이 폭넓은 적용 가능성을 갖고 있으며 현장 안전모 감지, 고공 안전 로프 착용, 안전 장비 운반 등의 시나리오에서 구현될 것으로 기대하고 있다고 믿습니다. ChatVision은 감독 산업에서도 큰 잠재력을 갖고 있습니다. 현재 많은 현장 안전 점검은 여전히 ​​인력에 크게 의존하고 있습니다.

3. ChatRobot Pro: "동작 상상 인식"

AInno-15B의 기본 애플리케이션인 ChatRobot은 산업용 로봇의 음성 제어를 구현했습니다. ChatRobot에게 "커피 한 잔 가져오세요"라고 말하면 산업용 로봇 팔이 선반에 있는 커피를 검색하고 상품을 배달할 자체 경로를 설계하도록 지시할 수 있습니다. ChatRobot Pro는 보다 복잡한 정보 캐리어 EEG 신호를 처리할 수 있습니다.

기자회견에서 시연자는 제품(균일한 녹차)을 무작위로 선택하고 두피에 여러 개의 전극을 고정한 사람에게 운동 상상력을 사용하여 산업용 로봇을 제어하여 음료수를 손에 쥐어달라고 요청했습니다. 컬렉터를 착용한 남자는 왼쪽, 오른쪽, 선택 세 가지를 생각하려고 노력하고 있다. 커서도 대형 모델이 번역한 신호에 따라 화면 위에서 좌우로 움직인다. 커서가 대상 아이콘으로 이동하면 아이콘을 응시하고 커서를 클릭하여 선택합니다.

다음으로 ChatRobot Pro는 작업의 지능적인 조정을 독립적으로 완료하고 실행 가능한 작업 단계를 생성하며 실시간으로 산업용 로봇 인터페이스와 상호 작용하여 로봇에게 작업을 완료하도록 지시합니다.

EEG 신호는 뇌 활동 중에 생성되는 신호입니다. 뇌 활동과 EEG 신호의 관계는 매우 복잡하며, 이를 어떻게 해독할지가 연구자들에게 주요 문제가 되었습니다. 기존 접근 방식은 정확도가 낮지만 AInno-75B는 이러한 유형의 다중 모드 정보를 해석할 수 있는 가능성을 보여줍니다. 일부 해외 뇌-컴퓨터 인터페이스 기술은 침습성 전극을 사용하여 EEG 신호를 획득하는데, 여기에는 전극 설계, 수술 이식, 거부 반응, 신호 전송 및 신호 디코딩과 같은 일련의 공학적 문제가 포함됩니다. 혁신 Qizhi는 비침습적 EEG 캡을 사용하여 EEG 정보를 수집하므로 엔지니어링 난이도가 크게 줄어듭니다.

그러나 Zhang Faen은 또한 침습적 방법이 더 많은 채널과 더 명확한 EEG 신호를 얻을 수 있어 더 복잡한 뇌 의도의 후속 디코딩을 촉진할 수 있다고 말했습니다. 생생한 비유는 다음과 같습니다. EEG 신호를 수집하는 침습적 방법은 경기장 내부에서 콘서트를 듣는 것과 비슷하지만, 비침습적 방법은 경기장 밖에서 콘서트를 듣는 것과 같습니다. 노래의 선명도에는 큰 차이가 있습니다. . 현재 Chuangxinqizhi가 수행하고 있는 연구 개발 작업은 대형 산업 모델의 다중 모드 기능을 검증하고 가능한 미래의 두뇌 제어 산업 자동화 시나리오에 대한 기술 사전 연구를 수행하는 것입니다.

이 역시 엔드 투 엔드 네이티브 애플리케이션이라고 Zhang Faen은 강조했습니다. EEG 신호 입력부터 최종 결과(상품을 시연자에게 전달하는 로봇 팔)의 직접 출력까지의 전체 프로세스는 손으로 디자인한 기능이나 기존 데이터 처리에 의존하지 않고 신경망에 의해 완료됩니다.

ChatRobot Pro는 자연어 상호 작용 및 운동 상상력 인식 외에도 산업용 대형 모델 추론 기능을 최대한 활용하여 긴 시퀀스 작업 조정 및 복잡한 의사 결정을 달성합니다. 다양한 본체(산업용 로봇 팔, AGV 등)에 강력한 지능형 제어 및 의사 결정 기능을 제공하는 것도 혁신적인 Qizhi Industrial 대형 모델의 미래 방향이 될 것입니다.

4. 계속해서 발전하고 전진하세요

생성 AI 시대에 혁신 Qizhi는 산업 시나리오에서 다양한 가능성을 탐구해 왔습니다.

Zhang Faen은 엔터프라이즈 서비스 방향의 대형 모델 전망을 "유망"이라고 부릅니다. 그러나 그는 기술 변화의 창구 기간 동안 모든 사람의 이해가 종종 고르지 않다는 점을 인정했습니다. 특히 상대적으로 큰 변화의 경우 사람들의 이해에는 후속 조치를 취하는 데 시간이 필요하며 그도 예외는 아닙니다.

새로운 네이티브 애플리케이션 외에도 작년에 출시된 ChatDOC의 전반적인 성능과 효과가 향상되었으며, 제품 기능도 더욱 완성도가 높아졌습니다. ChatBI에는 Excel 및 CSV 데이터에 대한 지원이 추가되었으며, 이제 SQL 문 및 분석 보고서 생성의 정확도가 15% 향상되었습니다. 대규모 모델 제공 엔진은 배포가 더 쉽고 더 높은 추론 성능을 제공합니다.

"Innovation Qizhi는 산업용 대형 모델의 핵심 생성 기능을 기반으로 직접 구축한 ChatX 애플리케이션을 더욱 발전시킬 것입니다."라고 Zhang Faen은 말했습니다.

위 내용은 비디오를 보고, CAD를 그리고, 모션 이미지를 인식하세요! 75B의 대규모 다중 모드 산업 모델은 매우 유능합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제