장면 텍스트 인식 (STR)은 실제 환경에서 다양한 텍스트 모양으로 인해 연구원들에게 중요한 도전으로 남아 있습니다. 문서에서 텍스트를 인식하는 것은 예를 들어 티셔츠에서 텍스트를 식별하는 것과 다릅니다. ECCV 2022에서 소개 된 장면 텍스트 인식 (MGP-STR) 모델에 대한 다중 부문 예측은 획기적인 접근 방식을 제공합니다. MGP-STR은 VISION 트랜스포머 (VIT)의 견고성을 혁신적인 다중 부문 언어 예측과 결합하여 복잡한 STR 작업을 처리하는 능력을 크게 향상시킵니다. 이로 인해 다양한 실제 시나리오에서 더 높은 정확도와 유용성이 높아져 간단하면서도 강력한 솔루션을 제공합니다.
주요 학습 지점
- Vision Transformers (VIT)를 포함한 MGP-STR의 아키텍처 및 구성 요소를 파악하십시오.
- 다중 부문 예측이 장면 텍스트 인식의 정확성과 적응성을 어떻게 향상시키는 지 이해하십시오.
- 실제 광학 문자 인식 (OCR) 작업에서 MGP-STR의 실제 응용 프로그램을 살펴보십시오.
- 장면 텍스트 인식을 위해 Pytorch와 함께 MGP-STR을 구현하고 사용하는 실제 경험을 얻습니다.
*이 기사는 *** Data Science Blogathon의 일부입니다.
목차
- mgp-str 란 무엇입니까?
- MGP-STR의 응용 및 사용 사례
- MGP-STR로 시작합니다
- 1 단계 : 의존성 가져 오기
- 2 단계 : 기본 모델로드
- 3 단계 : 이미지에서 텍스트 예측을위한 도우미 기능
- 결론
- 자주 묻는 질문
mgp-str 란 무엇입니까?
MGP-STR은 별도의 언어 모델이 필요없이 비전 기반 STR 모델입니다. 다중 부문 예측 (MGP) 전략을 사용하여 언어 정보를 아키텍처에 직접 통합합니다. 이 암시 적 접근 방식을 통해 MGP-STR은 순수한 시각적 모델과 언어 강화 방법을 능가하여 최첨단 STR 결과를 달성 할 수 있습니다.
아키텍처는 두 가지 주요 구성 요소로 구성됩니다.
- 비전 변압기 (VIT)
- A³ 모듈
간단하면서도 효과적인 전략을 통한 문자, 서브 워드 및 단어 수준에서 예측의 융합은 MGP-STR이 시각적 및 언어 적 세부 사항을 모두 포착 할 수 있도록합니다.
MGP-STR의 응용 및 사용 사례
MGP-STR은 주로 텍스트 이미지의 OCR 작업을위한 것입니다. 언어 지식을 암시 적으로 통합하는 독특한 능력은 다양한 텍스트와 왜곡 된 텍스트를 가진 실제 시나리오에서 특히 유용합니다. 예제는 다음과 같습니다.
- 자연 장면 (거리 표지판, 광고판)에서 텍스트를 읽습니다.
- 스캔 한 양식 및 문서에서 텍스트 추출 (필기 또는 인쇄).
- 산업 환경에서 텍스트 분석 (제품 레이블, 바코드).
- 증강 현실 (AR) 응용 프로그램의 텍스트 번역/전사.
- 스캔 된 문서 또는 인쇄물 사진의 정보 추출.
- 접근성 솔루션 지원 (스크린 리더).
주요 기능과 이점
- 독립적 인 언어 모델이 필요하지 않습니다
- 다중 부문 예측
- 최신 성과
- 사용자 친화적입니다
MGP-STR로 시작합니다
이 섹션에서는 샘플 이미지에서 장면 텍스트 인식에 MGP-STR을 사용하는 방법을 보여줍니다. Pytorch, Transformers 라이브러리 및 종속성 (PIL, 요청)이 필요합니다.
1 단계 : 필요한 라이브러리 가져 오기
필수 라이브러리를 가져옵니다 : 모델 처리 용 변압기, 이미지 조작 용 PIL 및 온라인 이미지 가져 오기 요청.
<code>from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition import requests import base64 from io import BytesIO from PIL import Image from IPython.display import display, Image as IPImage</code>
2 단계 : 미리 훈련 된 모델로드
MGP-STR베이스 모델과 프로세서를 포옹 페이스 트랜스포머를로드하십시오.
<code>processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base') model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')</code>
3 단계 : 이미지 처리 및 텍스트 예측 기능
이미지 URL을 입력하고 MGP-STR을 사용하여 처리하고 텍스트 예측을 반환하는 함수를 만듭니다. 이것은 이미지 변환, Base64 인코딩 및 텍스트 디코딩을 처리합니다.
<code>def predict(url): image = Image.open(requests.get(url, stream=True).raw).convert("RGB") pixel_values = processor(images=image, return_tensors="pt").pixel_values outputs = model(pixel_values) generated_text = processor.batch_decode(outputs.logits)['generated_text'] buffered = BytesIO() image.save(buffered, format="PNG") image_base64 = base64.b64encode(buffered.getvalue()).decode("utf-8") display(IPImage(data=base64.b64decode(image_base64))) print("\n\n") return generated_text</code>
예제 (원본 텍스트의 이미지 URL 사용) :
공간을 절약하기 위해 이미지 URL 및 예측이 포함 된 예제는 여기에서 생략되지만 원본 텍스트와 동일한 구조를 따라 다른 이미지 URL이있는 predict
기능을 호출합니다.
모델의 정확도는 이미지 예제에서 분명합니다. RAM 사용량이 적은 CPU에서 실행되는 효율성이 주목할 만합니다. 이를 통해 도메인 별 작업에 미세 조정에 쉽게 적응할 수 있습니다.
결론
MGP-STRT는 비전과 언어 이해를 효과적으로 결합합니다. 혁신적인 다중 부문 예측은 STR에 대한 포괄적 인 접근 방식을 제공하여 외부 언어 모델없이 정확성과 적응성을 향상시킵니다. 간단하지만 정확한 아키텍처는 OCR 및 STR의 연구원과 개발자에게 귀중한 도구입니다. 오픈 소스 자연은 해당 분야에서 더 많은 발전을 촉진합니다.
자원
- Google Collab : [Link] (실제 링크로 교체)
- arxiv : [link] (실제 링크로 교체)
- github : [link] (실제 링크로 교체)
- Huggingface : [Link] (실제 링크로 교체)
핵심 요점
- MGP-STR은 별도의 언어 모델없이 비전과 언어를 통합합니다.
- 다중 부문 예측은 다양한 도전 과제에서 성능을 향상시킵니다.
- MGP-STR은 간단한 아키텍처로 최첨단 결과를 달성합니다.
- 다양한 OCR 작업에 쉽게 적응할 수 있습니다.
자주 묻는 질문
Q1 : MGP-STR이란 무엇이며 기존 STR 모델과 어떻게 다릅니 까? A1 : MGP-STR은 언어 예측을 MGP를 사용하여 비전 기반 프레임 워크에 직접 통합하여 전통적인 방법에서 발견되는 별도의 언어 모델이 필요하지 않습니다.
Q2 : MGP-STR을 훈련시키는 데 어떤 데이터 세트가 사용 되었습니까? A2 : 기본 모델은 Mjsynth 및 SynthText에서 교육을 받았습니다.
Q3 : MGP-STR이 왜곡 또는 저품질 텍스트 이미지를 처리 할 수 있습니까? A3 : 그렇습니다. 다중 부문 예측 메커니즘으로 인해 그러한 과제를 처리 할 수 있습니다.
Q4 : MGP-STR은 영어 이외의 언어에 적합합니까? A4 : 영어에 최적화되었지만 적절한 교육 데이터를 사용하여 다른 언어에 적응할 수 있습니다.
Q5 : A³ 모듈은 MGP-STR의 성능에 어떻게 기여합니까? A5 : A³ 모듈은 VIT 출력을 개선하여 서브 워드 레벨 예측을 가능하게하고 언어 정보를 포함시킵니다.
참고 : 이미지 자리 표시자는 원래 입력에서와 동일하게 유지됩니다. 브래킷 링크를 실제 링크로 바꾸는 것을 잊지 마십시오.
위 내용은 비전 기반 텍스트 인식을 사용한 장면 텍스트 인식의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!
![chatgpt를 사용할 수 없습니다! 즉시 테스트 할 수있는 원인과 솔루션 설명 [최신 2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
chatgpt에 액세스 할 수 없습니까? 이 기사는 다양한 실용적인 솔루션을 제공합니다! 많은 사용자가 매일 chatgpt를 사용할 때 액세스 할 수 없거나 느린 응답과 같은 문제가 발생할 수 있습니다. 이 기사는 다양한 상황에 따라 이러한 문제를 단계별로 해결하도록 안내합니다. Chatgpt의 접근성 및 예비 문제 해결의 원인 먼저 문제가 OpenAI 서버 측 또는 사용자의 네트워크 또는 장치 문제에 있는지 확인해야합니다. 문제 해결을 위해 아래 단계를 따르십시오. 1 단계 : OpenAI의 공식 상태를 확인하십시오 chatgpt 서비스가 정상적으로 실행 중인지 확인하려면 OpenAi 상태 페이지 (status.openai.com)를 방문하십시오. 빨간색 또는 노란색 알람이 표시되면 열린 것을 의미합니다.

2025 년 5 월 10 일, MIT 물리학 자 Max Tegmark는 AI Labs가 인공 초 지능을 방출하기 전에 Oppenheimer의 삼위 일체 테스트 미적분학을 모방해야한다고 Guardian에게 말했다. “내 평가는 'Compton Constant', 인종이

AI 음악 제작 기술은 매일 매일 변화하고 있습니다. 이 기사는 Chatgpt와 같은 AI 모델을 예로 사용하여 AI를 사용하여 음악 제작을 지원하고 실제 사례에 대해 설명하는 방법을 자세히 설명합니다. 우리는 Sunoai, Hugging Face의 AI Jukebox 및 Python 's Music21 Library를 통해 음악을 만드는 방법을 소개합니다. 이러한 기술을 통해 모든 사람은 독창적 인 음악을 쉽게 만들 수 있습니다. 그러나 AI 생성 컨텐츠의 저작권 문제는 무시할 수 없으며 사용할 때는 신중해야합니다. 음악 분야에서 AI의 무한한 가능성을 모색 해 봅시다! OpenAi의 최신 AI 에이전트 "OpenAi Deep Research"가 소개됩니다. [chatgpt] ope

ChatGpt-4의 출현은 AI 응용 프로그램의 가능성을 크게 확장했습니다. GPT-3.5와 비교하여 ChatGpt-4는 상당히 개선되었습니다. 강력한 맥락 이해력이 있으며 이미지를 인식하고 생성 할 수도 있습니다. 그것은 보편적 인 AI 조수입니다. 비즈니스 효율성 향상 및 창출 지원과 같은 많은 분야에서 큰 잠재력을 보여주었습니다. 그러나 동시에, 우리는 또한 사용의 예방 조치에주의를 기울여야합니다. 이 기사에서는 ChatGpt-4의 특성을 자세히 설명하고 다양한 시나리오에 대한 효과적인 사용 방법을 소개합니다. 이 기사에는 최신 AI 기술을 최대한 활용하는 기술이 포함되어 있습니다. OpenAi의 최신 AI 에이전트, "OpenAi Deep Research"에 대한 자세한 내용은 아래 링크를 클릭하십시오.

chatgpt 앱 : AI 조수와 함께 창의력을 발휘하십시오! 초보자 가이드 Chatgpt 앱은 쓰기, 번역 및 질문 답변을 포함하여 광범위한 작업을 처리하는 혁신적인 AI 어시스턴트입니다. 창의적인 활동과 정보 수집에 유용한 끝없는 가능성이있는 도구입니다. 이 기사에서는 초보자를위한 이해하기 쉬운 방법, ChatGpt 스마트 폰 앱을 설치하는 방법, 음성 입력 기능 및 플러그인과 같은 앱의 고유 한 기능 및 앱을 사용할 때 염두에 두는 포인트에 이르기까지 설명합니다. 또한 플러그인 제한 및 장치 간 구성 동기화를 자세히 살펴 보겠습니다.

Chatgpt Chinese 버전 : 중국 AI 대화의 새로운 경험 잠금 해제 Chatgpt는 전 세계적으로 인기가 있습니다. 중국어 버전도 제공한다는 것을 알고 있습니까? 이 강력한 AI 도구는 일상적인 대화를 지원할뿐만 아니라 전문적인 콘텐츠를 처리하며 단순화되고 전통적인 중국어와 호환됩니다. 중국의 사용자이든 중국어를 배우는 친구이든 상관없이 혜택을 누릴 수 있습니다. 이 기사는 계정 설정, 중국 신속한 단어 입력, 필터 사용 및 다양한 패키지 선택을 포함하여 ChatGpt 중국어 버전을 사용하는 방법을 자세히 소개하고 잠재적 위험 및 응답 전략을 분석합니다. 또한 ChatGpt 중국어 버전을 다른 중국 AI 도구와 비교하여 장점과 응용 프로그램 시나리오를 더 잘 이해할 수 있도록 도와줍니다. Openai의 최신 AI 인텔리전스

이것들은 생성 AI 분야의 다음 도약으로 생각 될 수 있으며, 이는 우리에게 Chatgpt 및 기타 대규모 모델 챗봇을 제공했습니다. 단순히 질문에 대답하거나 정보를 생성하는 대신, 우리를 대신하여 조치를 취할 수 있습니다.

ChatGpt를 사용한 효율적인 다중 계정 관리 기술 | 비즈니스와 사생활 사용 방법에 대한 철저한 설명! Chatgpt는 다양한 상황에서 사용되지만 일부 사람들은 여러 계정 관리에 대해 걱정할 수 있습니다. 이 기사는 ChatGpt에 대한 여러 계정을 만드는 방법, 사용할 때 수행 할 작업 및 안전하고 효율적으로 작동하는 방법을 자세히 설명합니다. 또한 비즈니스와 개인 사용의 차이, OpenAI의 이용 약관을 준수하는 것과 같은 중요한 점을 다루며 여러 계정을 안전하게 활용하는 데 도움이되는 안내서를 제공합니다. Openai


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)