Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya-일체 포함-php.cn

집

기술 주변기기

일체 포함

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

Jennifer Aniston

Apr 19, 2025 am 10:21 AM

소개

원래 변압기의 도입은 현재 큰 언어 모델의 길을 열었습니다. 유사하게, 변압기 모델이 도입 된 후, Vision Transformer (VIT)가 도입되었다. 응답이 주어진 텍스트를 이해하고 텍스트를 생성하는 데 탁월한 변압기와 마찬가지로, 비전 변압기 모델은 이미지를 이해하고 이미지가 주어진 정보를 제공하기 위해 개발되었습니다. 이로 인해 비전 언어 모델이 생겨 이미지를 이해하는 데 탁월했습니다. Microsoft는이를 한 단계 더 발전 시켰으며 단일 모델만으로 많은 비전 작업을 수행 할 수있는 모델을 도입했습니다. 이 안내서에서는 Microsoft에서 발표 한 Florence-2라는이 모델을 여러 가지 비전 작업을 해결하도록 설계 될 것입니다.

학습 목표

비전 언어 모델 인 Florence-2에 소개됩니다.
Florence-2 교육 데이터를 이해합니다.
Florence-2 가족의 다른 모델에 대해 알아보십시오.
Florence-2를 다운로드하는 방법을 배우십시오.
Florence-2로 다른 컴퓨터 비전 작업을 수행하기 위해 코드를 작성하십시오.

이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .

플로렌스 -2는 무엇입니까?

Florence-2는 Microsoft 팀이 개발 한 VLM (Vision Language Model)입니다. 피렌체 -2는 두 가지 크기로 제공됩니다. 하나는 0.23B 버전이고 다른 하나는 0.77B 버전입니다. 이러한 낮은 크기로 모든 사람이 CPU 자체에서 이러한 모델을 쉽게 실행할 수 있습니다. Florence-2는 하나의 모델이 모든 것을 해결할 수 있음을 명심하고 있습니다. Florence-2는 객체 감지, 객체 분할, 이미지 캡션 (세부 캡션 생성), 문구 분할, OCR (광학 문자 인식) 및 이들의 조합을 포함한 다양한 작업을 해결하도록 교육을 받았습니다.

Florence-2 Vision Language 모델은 FLD 5B 데이터 세트에서 교육을 받았습니다. 이 FLD-5B는 Microsoft 팀이 작성한 데이터 세트입니다. 이 데이터 세트에는 약 1 억 2 천 6 백만 이미지에 약 54 억 개의 텍스트 주석이 포함되어 있습니다. 여기에는 13 억 개의 텍스트 영역 주석, 5 억 텍스트 주석 및 36 억 개의 텍스트 문구 주석이 포함됩니다. Florence-2는 OCR, 객체 감지 또는 이미지 캡션과 같은 작업에 대한 텍스트 결과를 생성하여 텍스트 지침 및 이미지 입력을 수용합니다.

아키텍처에는 시각적 인코더와 변압기 인코더 디코더 블록이 포함되어 있으며 손실을 위해 표준 손실 기능, 즉 교차 엔트로피 손실과 함께 작동합니다. Florence-2 모델은 세 가지 유형의 영역 탐지를 수행합니다. 객체 감지를위한 박스 표현, OCR 텍스트 감지를위한 쿼드 박스 표현 및 세분화 작업을위한 다각형 표현.

플로렌스 -2를 사용한 이미지 캡션

이미지 캡션은 이미지가 주어지면 딥 러닝 모델이 이미지에 대한 캡션을 출력하는 비전 언어 작업입니다. 이 캡션은 모델이 겪은 교육을 기반으로 짧거나 상세 할 수 있습니다. 이러한 작업을 수행하는 모델은 이미지가 주어지면 텍스트를 출력하는 방법을 배우는 거대한 이미지 캡션 데이터에 대해 교육을받습니다. 훈련을받는 데이터가 많을수록 이미지를 더 잘 설명하는 데 능숙합니다.

다운로드 및 설치

Florence Vision 모델을 실행하는 데 필요한 일부 라이브러리를 다운로드하고 설치하여 시작합니다.

 ! PIP 설치 -Q -U 변압기는 Flash_attn Einops Timm을 가속화합니다

트랜스포머 : Huggingface의 Transformers Library는 다운로드 할 수있는 다양한 작업을위한 다양한 딥 러닝 모델을 제공합니다.
가속 : Huggingface의 Accelerate 라이브러리는 GPU를 통해 모델을 제공 할 때 모델 추론 시간을 향상시킵니다.
Flash_attn : Flash-Attention Library는 원본보다 더 빠른주의 알고리즘을 구현하며 Florence-2 모델에서 사용됩니다.
Einops : 아인슈타인 작업은 매트릭스 곱셈을 나타내는 단순화되며 Florence-2 모델에서 구현됩니다.

Florence-2 모델 다운로드

이제 Florence-2 모델을 다운로드해야합니다. 이를 위해 아래 코드로 작업 할 것입니다.

 Transformers에서 AutoProcessor, Automodelforcausallm을 가져옵니다

model_id = 'Microsoft/Florence-2-Large-ft'
model = automodelforcausallm.from_pretraind (model_id, trust_remote_code = true) .eval (). cuda ()
프로세서 = autoprocessor.from_pretraind (model_id, trust_remote_code = true, device_map = "cuda")

우리는 AutomodElforcausallm과 자동 프로세서를 가져 오는 것으로 시작합니다.
그런 다음 모델 이름을 Model_Name 변수에 저장합니다. 여기서 우리는 Florence-2의 큰 미세 조정 모델과 협력 할 것입니다.
그런 다음 .from_pretraind () 함수를 호출하여 모델 이름을 제공하고 trust_remote_code = true를 설정하여 automodelforcausallm의 인스턴스를 만듭니다. 이것은 HF 저장소에서 모델을 다운로드합니다.
그런 다음 .eval ()을 호출 하여이 모델을 평가 모델로 설정하고 .cuda () 함수를 호출하여 GPU로 보냅니다.
그런 다음 .from_pretraind ()를 호출하고 모델 이름을 제공하고 device_map을 cuda로 설정하여 자동 프로세서 인스턴스를 만듭니다.

자동 프로세서는 Autotokenizer와 매우 유사합니다. 그러나 Autotokenizer 클래스는 텍스트 및 텍스트 토큰 화를 처리합니다. Florence-2는 이미지 데이터를 처리하기 때문에 자동 프로이트 세저는 텍스트 및 이미지 토큰 화를 모두 처리하는 반면, 우리는 자동 프로세서와 함께 일합니다.

이제 이미지를 찍어 보겠습니다.

 PIL 가져 오기 이미지에서
image = image.open ( "/content/beach.jpg")

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기서 우리는 해변 사진을 찍었습니다.

생성 캡션

이제 우리는이 이미지를 Florence-2 Vision Language 모델에 제공하고 캡션을 생성하도록 요청합니다.

 프롬프트 = ""
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

result = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))

인쇄 (결과 [프롬프트])

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

우리는 프롬프트를 만드는 것으로 시작합니다.
그런 다음 프로세서 클래스에 프롬프트와 이미지를 모두 제공하고 Pytorch 센서를 반환합니다. 모델은 GPU에 상주하고 변수 입력에 저장하기 때문에 GPU에 제공합니다.
입력 변수에는 input_ids, 즉 토큰 ID 및 이미지의 픽셀 값이 포함됩니다.
그런 다음 모델의 생성 기능을 호출하고 입력 ID 인 이미지 픽셀 값을 제공합니다. 우리는 생성 된 최대 토큰을 512로 설정하여 샘플링을 False로 유지하고 생성 된 토큰을 Generated_ids에 저장합니다.
그런 다음 프로세서의 .batch_decode 함수를 호출하십시오. 이것은 목록이므로 목록의 첫 번째 요소가 필요합니다.
마지막으로, .post_process_generated를 호출하고 생성 된 텍스트, 작업 유형 및 image_size를 튜플로 제공하여 생성 된 텍스트를 사후 처리합니다.

코드를 실행하고 위의 출력 사진을 볼 때, 우리는이 모델이 이미지에 대한“배경에 바다가있는 해변에 우산과 라운지 의자”캡션을 생성했음을 알 수 있습니다. 위의 이미지 캡션은 매우 짧습니다.

프롬프트 제공

우리는 및 과 같은 다른 프롬프트를 제공함으로써 다음 단계를 수행 할 수 있습니다.

이것을 시도하기위한 코드는 아래에서 볼 수 있습니다.

 프롬프트 = "<elected_caption>"
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

result = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))

인쇄 (결과 [프롬프트])</elected_caption>

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

 프롬프트 = "<more_detailed_caption>"

입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")

generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))


text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

result = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))

인쇄 (결과 [프롬프트])</more_detailed_caption>

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기에서 작업 유형의 및 과 함께 진행되었으며 위 그림에서 코드를 실행 한 후 결과를 볼 수 있습니다. 은 출력을 제작했습니다.“이 이미지에서는 의자, 테이블, 우산, 물, 선박, 나무, 구름이있는 건물 및 하늘을 볼 수 있습니다.” 그리고 프롬프트는 출력을 생산했습니다.“오렌지 우산이 해변에 있습니다. 우산 옆에 흰색 라운지 의자가 있습니다. 물에 두 개의 보트가 있습니다.” 따라서이 두 가지 프롬프트를 사용하면 일반 프롬프트보다 이미지 캡션에서 약간 더 깊이를 얻을 수 있습니다.

플로렌스 -2를 사용한 물체 감지

객체 감지는 컴퓨터 비전에서 잘 알려진 작업 중 하나입니다. 이미지가 주어진 객체를 찾는 것을 다룹니다. 객체 감지에서 모델은 이미지를 식별하고 객체 주변의 경계 상자의 X 및 Y 좌표를 제공합니다. Florence-2 Vision Language 모델은 이미지가 주어진 물체를 감지 할 수 있습니다.

아래 이미지로 이것을 시도해 봅시다.

 image = image.open ( "/content/van.jpg")

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기, 우리는 백그라운드에 흰색 건물이있는 도로에 밝은 주황색 밴의 이미지가 있습니다.

Florence-2 Vision Language 모델에 이미지 제공

이제이 이미지를 Florence-2 Vision Language 모델에 제공합시다.

 프롬프트 = "<d>"

입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")

generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

results = processor.post_process_generation (text_generations, 
task = prompt, image_size = (image.width, image.height)))
</d>

객체 감지 프로세스는 방금 수행 한 이미지 캡션 작업과 매우 유사합니다. 여기서 유일한 차이점은 프롬프트를 의미 객체 감지로 변경한다는 것입니다. 따라서이 프롬프트와 함께 이미지와 함께 프로세서 객체에 대한 프롬프트를 제공하고 토큰 화 된 입력을 얻습니다. 그런 다음 이미지 픽셀 값으로 이러한 토큰 화 된 입력을 Florence-2 Vision Language Model에 제공하여 출력을 생성합니다. 그런 다음이 출력을 해독하십시오.

출력은 이름이 지정된 변수에 저장됩니다. 변수 결과는 형식 {”: { 'bboxes': [[x1, y1, x2, y2],…], 'labels': [ 'label1', 'label2',…]}}.

이미지에 경계 상자를 그리십시오

이제 우리는 우리가 가진 좌표와 함께 이미지에 경계 상자를 그릴 것입니다.

 matplotlib.pyplot을 plt로 가져옵니다
matplotlib.patches를 패치로 가져옵니다
그림, ax = plt.subplots ()
ax.imshow (이미지)
bbox, zip의 레이블 (results [prompt] [ 'bboxes'], results [prompt] [ 'labels']) :
    x1, y1, x2, y2 = bbox
    rect_box = patches.rectangle ((x1, y1), x2-x1, y2-y1, linewidth = 1, 
    edgecolor = 'r', facecolor = 'none')
    ax.add_patch (rect_box)
    plt.text (x1, y1, label, color = 'white', fontsize = 8, bbox = dict (facecolor = 'red', alpha = 0.5)).
ax.axis ( 'off')
plt.show ()

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

이미지 주위에 직사각형 경계 상자를 그리기 위해 Matplotlib 라이브러리로 작업합니다.
우리는 그림과 축을 만드는 것으로 시작한 다음 Florence-2 Vision Language 모델에 제공 한 이미지를 표시합니다.
여기서는 모델 출력이 x, y 좌표를 포함하는 목록이며 최종 출력에는 경계 상자 목록이 있습니다. 즉, 각 레이블에는 자체 경계 상자가 있습니다.
그래서 우리는 경계 상자 목록을 반복합니다.
그런 다음 경계 상자의 X 및 Y 좌표를 풀립니다.
그런 다음 마지막 단계에서 포장을 풀었던 좌표로 사각형을 그립니다.
마지막으로, 우리는 현재 표시중인 이미지에 패치합니다.
경계 상자에 어떤 객체가 포함되어 있는지 알리기 위해 경계 상자에 레이블을 추가해야합니다.
마지막으로 축을 제거합니다.

이 코드를 실행하고 그림을보고, 우리는 우리가 제공 한 밴 이미지에 대한 Florence-2 Vision Language Model에서 생성 된 많은 경계 상자가 있음을 알 수 있습니다. 우리는 모델이 밴, 창 및 휠을 감지했으며 각 레이블에 대한 올바른 좌표를 제공 할 수 있음을 알 수 있습니다.

문구 접지에 대한 캡션

다음으로, Florence-2 모델이 지원하는 "캡션에 대한 캡션"이라는 작업이 있습니다. 모델이 이미지와 캡션을 감안할 때, 구절 접지의 작업은 주어진 캡션의 명사 문구에 의해 언급 된 각 / 가장 관련성있는 엔티티 / 객체를 이미지의 영역에 찾는 것입니다.

아래 코드 로이 작업을 살펴볼 수 있습니다.

 프롬프트 = "<caption_to_phrase_grounding> 흰색 건물 앞에 주차 된 오렌지 밴"
task_type = "<caption_to_phrase_grounding>"
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]
results = processor.post_process_generation (text_generations, 
task = task_type, image_size = (image.width, image.height)))
</caption_to_phrase_grounding></caption_to_phrase_grounding>

프롬프트를 위해, 우리는“ 흰색 건물 앞에 주차 된 오렌지 밴”을 제공하고 있습니다. 여기서 작업은“”이며 문구는“흰색 건물 앞에 주차 된 오렌지 밴”입니다. 피렌체 모델은이 주어진 문구에서 얻을 수있는 객체/엔티티에 경계 상자를 생성하려고합니다. 그것을 플로팅하여 최종 출력을 보자.

 matplotlib.pyplot을 plt로 가져옵니다
matplotlib.patches를 패치로 가져옵니다
그림, ax = plt.subplots ()
ax.imshow (이미지)
bbox, zip의 레이블 (results [task_type] [ 'bboxes'], results [task_type] [ 'labels') :
    x1, y1, x2, y2 = bbox
    rect_box = patches.rectangle ((x1, y1), x2-x1, y2-y1, linewidth = 1, 
    edgecolor = 'r', facecolor = 'none')
    ax.add_patch (rect_box)
    plt.text (x1, y1, label, color = 'white', fontsize = 8, bbox = dict (facecolor = 'red', alpha = 0.5)).
ax.axis ( 'off')
plt.show ()

Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya

여기서는 Florence-2 Vision Language 모델이 두 개체에서 두 개를 추출 할 수 있음을 알 수 있습니다. 하나는 오렌지 밴이고 다른 하나는 흰색 건물입니다. 그런 다음 Florence-2는 이러한 각 엔티티에 대한 경계 상자를 생성했습니다. 이러한 방식으로, 캡션이 주어지면, 모델은 주어진 캡션에서 관련 엔티티/객체를 추출하고 해당 객체에 해당하는 경계 박스를 생성 할 수 있습니다.

플로렌스 -2를 사용한 세분화

세분화는 이미지의 여러 부분에 대해 이미지를 촬영하고 마스크가 생성되는 프로세스입니다. 각 마스크는 물체입니다. 세분화는 객체 감지의 다음 단계입니다. 객체 감지에서는 이미지의 위치 만 찾아 경계 상자 만 생성합니다. 그러나 분할에서 직사각형 경계 박스를 생성하는 대신 물체의 모양에있는 마스크를 생성하므로 해당 물체의 마스크를 만드는 것과 같습니다. 이것은 우리가 객체의 위치를 알뿐만 아니라 물체의 모양조차 알고 있기 때문에 도움이됩니다. 운 좋게도 Florence-2 Vision Language 모델은 세분화를 지원합니다.

이미지에서 분할

우리는 밴 이미지로 분할을 시도 할 것입니다.

 프롬프트 = "<weferring_expression_segmentation> 두 개의 검은 타이어"
task_type = "<seferring_expression_segmentation>"
입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda")
generated_ids = model.generate (
    input_ids = inputs [ "input_ids"],
    pixel_values = 입력 [ "pixel_values"],
    max_new_tokens = 512,
    do_sample = false,
))
text_generations = processor.batch_decode (generated_ids, 
skip_special_tokens = false) [0]

results = processor.post_process_generation (text_generations, 
task = task_type, image_size = (image.width, image.height)))
</seferring_expression_segmentation></weferring_expression_segmentation>

여기서 프로세스는 이미지 캡션 및 객체 감지 작업과 유사합니다. 우리는 프롬프트를 제공하는 것으로 시작합니다.
여기서 프롬프트는 " 두 검은 타이어"입니다. 여기서 작업은 세분화입니다.
세분화는 제공된 텍스트 입력을 기반으로하며 여기서는 "두 개의 검은 색 타이어"입니다.
따라서 Florence-2 모델은이 텍스트 입력 및 제공된 이미지와 밀접한 관련이있는 마스크를 생성하려고합니다.

여기서 결과 변수는 형식 {”: { 'polygons': [[polygon]],…], 'labels': [”,”,…]}} 형식입니다. 여기서 각 객체/마스크는 다각형 목록으로 표시되고 각 다각형은 [x1, y1, x2, y2, xn, yn] 형식입니다.

마스크 생성 및 실제 이미지에서 오버레이

이제이 마스크를 만들어 실제 이미지에서 오버레이하여 더 잘 시각화 할 수 있습니다.

 가져 오기 사본
Numpy를 NP로 가져옵니다
IPYTHON. DISPLAY 가져 오기 디스플레이
PIL 가져 오기 이미지, ImageDraw, ImageFont에서

output_image = copy.deepcopy (이미지)
res = 결과 [task_type]
draw = imagedraw.draw (output_image)
스케일 = 1
다각형의 경우 zip (res [ 'polygons'], res [ 'labels'])의 레이블 :
    fill_color = "파란색"
    다각형의 _polygon의 경우 :
        _polygon = np.array (_polygon). Reshape (-1, 2)
        Len (_polygon) 인 경우 <p><img  src="/static/imghwm/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174502929770135.png?x-oss-process=image/resize,p_40" class="lazy" alt="Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya" ></p><h4 id="설명"> 설명</h4>

여기서는 이미지 처리를 위해 PIL 라이브러리에서 다양한 도구를 가져 오는 것으로 시작합니다.
우리는 이미지의 깊은 사본을 만들고 새로운 변수에 ""의 값을 저장합니다.
다음으로, 우리는 the.draw () 메소드를 호출하고 실제 이미지의 사본을 제공하여 ImagedRaw 인스턴스를 만들어 이미지를로드합니다.
다음으로, 우리는 다각형의 지퍼와 레이블 값을 반복합니다.
각각의 다각형에 대해, 우리는 _polygon이라는 이름으로 개별 다각형을 반복하여 재구성합니다. _polygon은 이제 고차원 목록입니다.
우리는 _polygon이 연결할 수 있도록 최소한 3면을 가져야한다는 것을 알고 있습니다. 따라서이 유효성 조건을 확인하여 _polygon 목록에 3 개 이상의 목록 항목이 있는지 확인합니다.
마지막으로, .polygon () 메소드를 호출하고 _polygon을 제공하여 실제 이미지의 사본 에이 _polygon을 그립니다. 그와 함께 우리는 그것을 개요 색상과 채우기 색상을 제공합니다.
Florence-2 Vision Language 모델이 해당 다각형에 대한 레이블을 생성하는 경우 .text () 함수를 호출하고 레이블을 제공하여 실제 이미지의 사본 에이 텍스트를 그릴 수도 있습니다.
마지막으로, Florence-2 모델에 의해 생성 된 모든 다각형을 그린 후, 우리는 ipython 라이브러리에서 디스플레이 함수를 호출하여 이미지를 출력합니다.

Florence-2 Vision Language Model은“두 개의 검은 타이어”에 대한 우리의 쿼리를 성공적으로 이해하고 이미지에 눈에 띄는 검은 색 타이어가있는 차량이 포함되어 있다고 추론했습니다. 이 모델은이 타이어에 대한 다각형 표현을 생성했으며,이 타이어는 파란색으로 마스킹되었습니다. 이 모델은 Microsoft 팀이 큐 레이트 한 강력한 교육 데이터로 인해 다양한 컴퓨터 비전 작업이 뛰어났습니다.

결론

Florence-2는 Microsoft Team이 처음부터 제작하고 훈련 한 비전 언어 모델입니다. 다른 비전 언어 모델과 달리 Florence-2는 객체 감지, 이미지 캡션, 문구 객체 감지, OCR, 세분화 및 이들의 조합을 포함한 다양한 컴퓨터 비전 작업을 수행합니다. 이 안내서에서는 Florence-2 Large 모델을 다운로드하는 방법과 Florence-2로 변화하는 프롬프트로 다른 컴퓨터 비전 작업을 수행하는 방법을 살펴 보았습니다.

주요 테이크 아웃

Florence-2 모델은 두 가지 크기로 제공됩니다. 하나는 0.23 억 파라미터 버전 인 기본 변형이고 다른 하나는 0.7 억 매개 변수 버전 인 큰 변형입니다.
Microsoft Team은 FLD 5B 데이터 세트에서 Florence-2 모델을 훈련 시켰습니다. FLD 5B 데이터 세트는 Microsoft 팀이 생성 한 다양한 이미지 작업을 포함하는 이미지 데이터 세트입니다.
피렌체 -2는 입력 프롬프트와 함께 이미지를 수용합니다. 프롬프트가 작업 유형을 정의하는 경우 Florence-2 Vision 모델이 수행해야합니다.
각 작업은 다른 출력을 생성하며 이러한 모든 출력은 텍스트 형식으로 생성됩니다.
Florence-2는 MIT 라이센스가있는 오픈 소스 모델이므로 상용 응용 프로그램을 위해 작업 할 수 있습니다.

자주 묻는 질문

Q1. 플로렌스 -2는 무엇입니까?

A. Florence-2는 Microsoft 팀이 개발 한 비전 언어 모델이며 0.23B 매개 변수와 0.7b 매개 변수 버전의 두 가지 크기로 출시되었습니다.

Q2. 자동 프로세서는 자동으로 프로토 톨이저와 어떻게 다릅니 까?

A. Autotokenizer는 텍스트를 토큰으로 변환하는 텍스트 데이터 만 처리 할 수 있습니다. 반면, 이미지 데이터를 포함하는 멀티 모달 모델에 대한 자동 프로세서 사전 프로세서 데이터.

Q3. FLD-5B 란 무엇입니까?

A. FLD-5B는 Microsoft 팀이 큐 레이션 한 이미지 데이터 세트입니다. 1 억 2 천 5 백만 이미지의 약 54 억 이미지 캡션이 포함되어 있습니다.

Q4. Florence-2 모델은 무엇을 출력합니까?

A. Florence-2 모델은 주어진 입력 이미지 및 입력 텍스트를 기반으로 텍스트를 출력합니다. 이 텍스트는 간단한 이미지 캡션이거나 작업이 객체 감지 또는 세분화 인 경우 경계 박스를 조정할 수 있습니다.

Q5. Florence-2 오픈 소스입니까?

A. 예. Florence-2는 MIT 라이센스에 따라 릴리스되므로 오픈 소스로 만들 수 있으며이 모델을 사용하기 위해 HuggingFace를 인증 할 필요가 없습니다.

이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.

위 내용은 Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

[AI가 포함 된 Ghibli 스타일 이미지] chatgpt 및 저작권으로 무료 이미지를 만드는 방법 소개May 13, 2025 am 01:57 AM

OpenAI에서 발표 한 최신 모델 GPT-4O는 텍스트를 생성 할 수있을뿐만 아니라 이미지 생성 기능을 가지고있어 광범위한 관심을 끌었습니다. 가장 눈길을 끄는 기능은 "Ghibli 스타일 일러스트레이션"의 생성입니다. 사진을 chatgpt에 업로드하고 스튜디오 Ghibli의 작품과 같은 꿈꾸는 이미지를 생성하기 위해 간단한 지침을 제공하십시오. 이 기사는 실제 작동 프로세스, 효과 경험,주의를 기울여야하는 오류 및 저작권 문제에 대해 자세히 설명합니다. OpenAi에서 발표 한 최신 모델 "O3"에 대한 자세한 내용은 여기를 클릭하십시오 ⬇️ OpenAi O3 (ChatGpt O3)에 대한 자세한 설명 : 기능, 가격 시스템 및 O4-MINI 소개 Ghibli 스타일의 영어 버전을 보려면 여기를 클릭하십시오. chatgpt로 ji를 만듭니다

지방 정부에서 ChatGpt의 사용 및 구현의 예를 설명하십시오! 또한 금지 된 지방 정부를 소개합니다May 13, 2025 am 01:53 AM

새로운 커뮤니케이션 방법으로서 지방 정부에서 ChatGpt의 사용 및 도입이 주목을 받고 있습니다. 이러한 추세가 광범위한 분야에서 진행되는 동안 일부 지방 정부는 Chatgpt 사용을 거부했습니다. 이 기사에서는 지방 정부에서 ChatGpt 구현의 예를 소개 할 것입니다. 우리는 문서 제작 및 시민과의 대화를 포함하여 다양한 개혁 사례를 통해 지방 정부 서비스의 품질과 효율성 개선을 어떻게 달성하고 있는지 탐구 할 것입니다. 직원 업무량을 줄이고 시민의 편의성을 향상시키는 것을 목표로하는 지방 정부 공무원뿐만 아니라 고급 사용 사례에도 관심이 있습니다.

Chatgpt의 Fukatsu 스타일 프롬프트는 무엇입니까? 예제 문장에 대한 철저한 설명!May 13, 2025 am 01:52 AM

"Fukatsu 프롬프트 시스템"이라는 프레임 워크에 대해 들어 보셨습니까? Chatgpt와 같은 언어 모델은 매우 우수하지만 적절한 프롬프트는 잠재력을 극대화하기 위해 필수적입니다. 후 카츠 프롬프트는 출력 정확도를 향상시키기 위해 고안된 가장 인기있는 프롬프트 기술 중 하나입니다. 이 기사에서는 특정 사용법 및 예제를 포함하여 Fukatsu 스타일 프롬프트의 원리와 특성을 설명합니다. 또한, 우리는 다른 잘 알려진 프롬프트 템플릿과 프롬프트 디자인을위한 유용한 기술을 도입 했으므로이를 기반으로 C를 소개합니다.

chatgpt 검색이란 무엇입니까? 주요 기능, 사용 및 수수료 구조를 설명합니다!May 13, 2025 am 01:51 AM

ChatGpt 검색 : 혁신적인 AI 검색 엔진으로 최신 정보를 효율적으로 얻으십시오! 이 기사에서는 OpenAI가 제공하는 새로운 ChatGpt 기능 "Chatgpt Search"를 철저히 설명합니다. 실시간 웹 정보와 직관적 인 사용 편의성을 기반으로 안정적인 답변으로 정보 수집 효율성을 향상시키는 데 도움이되는 기능, 사용 및이 도구를 자세히 살펴 보겠습니다. Chatgpt Search는 광고를 숨기는 편안하고 숨겨진 환경에서 사용자 질문에 답변하는 대화적인 대화식 검색 경험을 제공합니다.

Chatgpt와 프롬프트에서 구성을 만드는 방법에 대한 이해하기 쉬운 설명!May 13, 2025 am 01:50 AM

정보 폭발이있는 현대 사회에서는 설득력있는 기사를 만드는 것이 쉽지 않습니다. 제한된 시간과 에너지 내에 독자를 끌어들이는 기사를 작성하기 위해 창의성을 사용하는 방법에는 뛰어난 기술과 풍부한 경험이 필요합니다. 현재 혁명적 인 작문 보조제로서 Chatgpt는 많은 관심을 끌었습니다. Chatgpt는 거대한 데이터를 사용하여 언어 생성 모델을 교육하여 자연스럽고 매끄럽고 세련된 기사를 생성합니다. 이 기사는 Chatgpt를 효과적으로 사용하고 고품질 기사를 효율적으로 만드는 방법을 소개합니다. 우리는 ChatGpt 사용의 글쓰기 과정을 점차적으로 설명하고 특정 사례를 결합하여 장점과 단점, 해당 시나리오 및 안전한 사용 예방 조치를 자세히 설명합니다. Chatgpt는 모든 종류의 장애물을 극복하는 작가가 될 것입니다.

chatgpt를 사용하여 다이어그램을 만드는 방법! 그림로드 및 플러그인도 설명합니다May 13, 2025 am 01:49 AM

AI를 사용하여 차트 생성에 대한 효율적인 안내서 시각적 자료는 정보를 효과적으로 전달하는 데 필수적이지만 많은 시간과 노력이 필요합니다. 그러나 Chatgpt 및 Dall-E 3과 같은 AI 기술의 증가로 인해 차트 제작 프로세스가 극적으로 변하고 있습니다.이 기사는 이러한 최첨단 도구를 사용하여 효율적이고 매력적인 다이어그램 작성 방법에 대한 자세한 설명을 제공합니다. 여기에는 아이디어에서 완료까지 모든 것을 다루고, 사용될 수있는 특정 단계, 팁, 플러그인 및 API의 다이어그램을 작성하는 데 유용한 풍부한 정보, 이미지 생성 AI "Dall-E 3"을 사용하는 방법이 포함되어 있습니다.

Chatgpt Plus의 가격 구조 및 지불 방법에 대한 이해하기 쉬운 설명!May 13, 2025 am 01:48 AM

chatgpt 플러스 잠금 해제 : 수수료, 지불 방법 및 업그레이드 가이드 세계적으로 유명한 생성 AI 인 Chatgpt는 일상 생활 및 비즈니스 분야에서 널리 사용되었습니다. Chatgpt는 기본적으로 무료이지만 Chatgpt Plus의 유료 버전은 플러그인, 이미지 인식 등과 같은 다양한 부가 가치 서비스를 제공하여 작업 효율성을 크게 향상시킵니다. 이 기사는 ChatGpt Plus의 충전 표준, 지불 방법 및 업그레이드 프로세스를 자세히 설명합니다. OpenAI의 최신 이미지 생성 기술 "GPT-4O 이미지 생성"에 대한 자세한 내용은 다음을 클릭하십시오. GPT-4O 이미지 생성에 대한 자세한 설명 : 사용 방법, 신속한 단어 예제, 상업용 응용 프로그램 및 다른 AI의 차이점 목차 chatgpt + 수수료 ch

Chatgpt를 사용하여 디자인을 만드는 방법을 설명하십시오! 우리는 또한 사용 및 프롬프트의 예를 소개합니다May 13, 2025 am 01:47 AM

chatgpt를 사용하여 디자인 작업을 간소화하고 창의성을 높이는 방법 이 기사는 Chatgpt를 사용하여 디자인을 만드는 방법을 자세히 설명합니다. 아이디어, 텍스트 생성 및 웹 디자인과 같은 다양한 디자인 필드에서 ChatGpt를 사용하는 예를 소개합니다. 또한 그래픽 디자인, 일러스트레이션 및 로고 디자인과 같은 다양한 창의적 작업의 효율성과 품질을 향상시키는 데 도움이되는 포인트를 소개합니다. AI가 디자인 가능성을 크게 확장 할 수있는 방법을 살펴보십시오. 목차 Chatgpt : 디자인 생성을위한 강력한 도구

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

WebStorm Mac 버전

유용한 JavaScript 개발 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.