소개
원래 변압기의 도입은 현재 큰 언어 모델의 길을 열었습니다. 유사하게, 변압기 모델이 도입 된 후, Vision Transformer (VIT)가 도입되었다. 응답이 주어진 텍스트를 이해하고 텍스트를 생성하는 데 탁월한 변압기와 마찬가지로, 비전 변압기 모델은 이미지를 이해하고 이미지가 주어진 정보를 제공하기 위해 개발되었습니다. 이로 인해 비전 언어 모델이 생겨 이미지를 이해하는 데 탁월했습니다. Microsoft는이를 한 단계 더 발전 시켰으며 단일 모델만으로 많은 비전 작업을 수행 할 수있는 모델을 도입했습니다. 이 안내서에서는 Microsoft에서 발표 한 Florence-2라는이 모델을 여러 가지 비전 작업을 해결하도록 설계 될 것입니다.
학습 목표
- 비전 언어 모델 인 Florence-2에 소개됩니다.
- Florence-2 교육 데이터를 이해합니다.
- Florence-2 가족의 다른 모델에 대해 알아보십시오.
- Florence-2를 다운로드하는 방법을 배우십시오.
- Florence-2로 다른 컴퓨터 비전 작업을 수행하기 위해 코드를 작성하십시오.
이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .
목차
- 플로렌스 -2는 무엇입니까?
- 플로렌스 -2를 사용한 이미지 캡션
- 플로렌스 -2를 사용한 물체 감지
- 플로렌스 -2를 사용한 세분화
- 자주 묻는 질문
플로렌스 -2는 무엇입니까?
Florence-2는 Microsoft 팀이 개발 한 VLM (Vision Language Model)입니다. 피렌체 -2는 두 가지 크기로 제공됩니다. 하나는 0.23B 버전이고 다른 하나는 0.77B 버전입니다. 이러한 낮은 크기로 모든 사람이 CPU 자체에서 이러한 모델을 쉽게 실행할 수 있습니다. Florence-2는 하나의 모델이 모든 것을 해결할 수 있음을 명심하고 있습니다. Florence-2는 객체 감지, 객체 분할, 이미지 캡션 (세부 캡션 생성), 문구 분할, OCR (광학 문자 인식) 및 이들의 조합을 포함한 다양한 작업을 해결하도록 교육을 받았습니다.
Florence-2 Vision Language 모델은 FLD 5B 데이터 세트에서 교육을 받았습니다. 이 FLD-5B는 Microsoft 팀이 작성한 데이터 세트입니다. 이 데이터 세트에는 약 1 억 2 천 6 백만 이미지에 약 54 억 개의 텍스트 주석이 포함되어 있습니다. 여기에는 13 억 개의 텍스트 영역 주석, 5 억 텍스트 주석 및 36 억 개의 텍스트 문구 주석이 포함됩니다. Florence-2는 OCR, 객체 감지 또는 이미지 캡션과 같은 작업에 대한 텍스트 결과를 생성하여 텍스트 지침 및 이미지 입력을 수용합니다.
아키텍처에는 시각적 인코더와 변압기 인코더 디코더 블록이 포함되어 있으며 손실을 위해 표준 손실 기능, 즉 교차 엔트로피 손실과 함께 작동합니다. Florence-2 모델은 세 가지 유형의 영역 탐지를 수행합니다. 객체 감지를위한 박스 표현, OCR 텍스트 감지를위한 쿼드 박스 표현 및 세분화 작업을위한 다각형 표현.
플로렌스 -2를 사용한 이미지 캡션
이미지 캡션은 이미지가 주어지면 딥 러닝 모델이 이미지에 대한 캡션을 출력하는 비전 언어 작업입니다. 이 캡션은 모델이 겪은 교육을 기반으로 짧거나 상세 할 수 있습니다. 이러한 작업을 수행하는 모델은 이미지가 주어지면 텍스트를 출력하는 방법을 배우는 거대한 이미지 캡션 데이터에 대해 교육을받습니다. 훈련을받는 데이터가 많을수록 이미지를 더 잘 설명하는 데 능숙합니다.
다운로드 및 설치
Florence Vision 모델을 실행하는 데 필요한 일부 라이브러리를 다운로드하고 설치하여 시작합니다.
! PIP 설치 -Q -U 변압기는 Flash_attn Einops Timm을 가속화합니다
- 트랜스포머 : Huggingface의 Transformers Library는 다운로드 할 수있는 다양한 작업을위한 다양한 딥 러닝 모델을 제공합니다.
- 가속 : Huggingface의 Accelerate 라이브러리는 GPU를 통해 모델을 제공 할 때 모델 추론 시간을 향상시킵니다.
- Flash_attn : Flash-Attention Library는 원본보다 더 빠른주의 알고리즘을 구현하며 Florence-2 모델에서 사용됩니다.
- Einops : 아인슈타인 작업은 매트릭스 곱셈을 나타내는 단순화되며 Florence-2 모델에서 구현됩니다.
Florence-2 모델 다운로드
이제 Florence-2 모델을 다운로드해야합니다. 이를 위해 아래 코드로 작업 할 것입니다.
Transformers에서 AutoProcessor, Automodelforcausallm을 가져옵니다 model_id = 'Microsoft/Florence-2-Large-ft' model = automodelforcausallm.from_pretraind (model_id, trust_remote_code = true) .eval (). cuda () 프로세서 = autoprocessor.from_pretraind (model_id, trust_remote_code = true, device_map = "cuda")
- 우리는 AutomodElforcausallm과 자동 프로세서를 가져 오는 것으로 시작합니다.
- 그런 다음 모델 이름을 Model_Name 변수에 저장합니다. 여기서 우리는 Florence-2의 큰 미세 조정 모델과 협력 할 것입니다.
- 그런 다음 .from_pretraind () 함수를 호출하여 모델 이름을 제공하고 trust_remote_code = true를 설정하여 automodelforcausallm의 인스턴스를 만듭니다. 이것은 HF 저장소에서 모델을 다운로드합니다.
- 그런 다음 .eval ()을 호출 하여이 모델을 평가 모델로 설정하고 .cuda () 함수를 호출하여 GPU로 보냅니다.
- 그런 다음 .from_pretraind ()를 호출하고 모델 이름을 제공하고 device_map을 cuda로 설정하여 자동 프로세서 인스턴스를 만듭니다.
자동 프로세서는 Autotokenizer와 매우 유사합니다. 그러나 Autotokenizer 클래스는 텍스트 및 텍스트 토큰 화를 처리합니다. Florence-2는 이미지 데이터를 처리하기 때문에 자동 프로이트 세저는 텍스트 및 이미지 토큰 화를 모두 처리하는 반면, 우리는 자동 프로세서와 함께 일합니다.
이제 이미지를 찍어 보겠습니다.
PIL 가져 오기 이미지에서 image = image.open ( "/content/beach.jpg")
여기서 우리는 해변 사진을 찍었습니다.
생성 캡션
이제 우리는이 이미지를 Florence-2 Vision Language 모델에 제공하고 캡션을 생성하도록 요청합니다.
프롬프트 = "" 입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda") generated_ids = model.generate ( input_ids = inputs [ "input_ids"], pixel_values = 입력 [ "pixel_values"], max_new_tokens = 512, do_sample = false, )) text_generations = processor.batch_decode (generated_ids, skip_special_tokens = false) [0] result = processor.post_process_generation (text_generations, task = prompt, image_size = (image.width, image.height))) 인쇄 (결과 [프롬프트])
- 우리는 프롬프트를 만드는 것으로 시작합니다.
- 그런 다음 프로세서 클래스에 프롬프트와 이미지를 모두 제공하고 Pytorch 센서를 반환합니다. 모델은 GPU에 상주하고 변수 입력에 저장하기 때문에 GPU에 제공합니다.
- 입력 변수에는 input_ids, 즉 토큰 ID 및 이미지의 픽셀 값이 포함됩니다.
- 그런 다음 모델의 생성 기능을 호출하고 입력 ID 인 이미지 픽셀 값을 제공합니다. 우리는 생성 된 최대 토큰을 512로 설정하여 샘플링을 False로 유지하고 생성 된 토큰을 Generated_ids에 저장합니다.
- 그런 다음 프로세서의 .batch_decode 함수를 호출하십시오. 이것은 목록이므로 목록의 첫 번째 요소가 필요합니다.
- 마지막으로, .post_process_generated를 호출하고 생성 된 텍스트, 작업 유형 및 image_size를 튜플로 제공하여 생성 된 텍스트를 사후 처리합니다.
코드를 실행하고 위의 출력 사진을 볼 때, 우리는이 모델이 이미지에 대한“배경에 바다가있는 해변에 우산과 라운지 의자”캡션을 생성했음을 알 수 있습니다. 위의 이미지 캡션은 매우 짧습니다.
프롬프트 제공
우리는
이것을 시도하기위한 코드는 아래에서 볼 수 있습니다.
프롬프트 = "<elected_caption>" 입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda") generated_ids = model.generate ( input_ids = inputs [ "input_ids"], pixel_values = 입력 [ "pixel_values"], max_new_tokens = 512, do_sample = false, )) text_generations = processor.batch_decode (generated_ids, skip_special_tokens = false) [0] result = processor.post_process_generation (text_generations, task = prompt, image_size = (image.width, image.height))) 인쇄 (결과 [프롬프트])</elected_caption>
프롬프트 = "<more_detailed_caption>" 입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda") generated_ids = model.generate ( input_ids = inputs [ "input_ids"], pixel_values = 입력 [ "pixel_values"], max_new_tokens = 512, do_sample = false, )) text_generations = processor.batch_decode (generated_ids, skip_special_tokens = false) [0] result = processor.post_process_generation (text_generations, task = prompt, image_size = (image.width, image.height))) 인쇄 (결과 [프롬프트])</more_detailed_caption>
여기에서 작업 유형의
플로렌스 -2를 사용한 물체 감지
객체 감지는 컴퓨터 비전에서 잘 알려진 작업 중 하나입니다. 이미지가 주어진 객체를 찾는 것을 다룹니다. 객체 감지에서 모델은 이미지를 식별하고 객체 주변의 경계 상자의 X 및 Y 좌표를 제공합니다. Florence-2 Vision Language 모델은 이미지가 주어진 물체를 감지 할 수 있습니다.
아래 이미지로 이것을 시도해 봅시다.
image = image.open ( "/content/van.jpg")
여기, 우리는 백그라운드에 흰색 건물이있는 도로에 밝은 주황색 밴의 이미지가 있습니다.
Florence-2 Vision Language 모델에 이미지 제공
이제이 이미지를 Florence-2 Vision Language 모델에 제공합시다.
프롬프트 = "<d>" 입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda") generated_ids = model.generate ( input_ids = inputs [ "input_ids"], pixel_values = 입력 [ "pixel_values"], max_new_tokens = 512, do_sample = false, )) text_generations = processor.batch_decode (generated_ids, skip_special_tokens = false) [0] results = processor.post_process_generation (text_generations, task = prompt, image_size = (image.width, image.height))) </d>
객체 감지 프로세스는 방금 수행 한 이미지 캡션 작업과 매우 유사합니다. 여기서 유일한 차이점은 프롬프트를
출력은 이름이 지정된 변수에 저장됩니다. 변수 결과는 형식 {”: { 'bboxes': [[x1, y1, x2, y2],…], 'labels': [ 'label1', 'label2',…]}}.
이미지에 경계 상자를 그리십시오
이제 우리는 우리가 가진 좌표와 함께 이미지에 경계 상자를 그릴 것입니다.
matplotlib.pyplot을 plt로 가져옵니다 matplotlib.patches를 패치로 가져옵니다 그림, ax = plt.subplots () ax.imshow (이미지) bbox, zip의 레이블 (results [prompt] [ 'bboxes'], results [prompt] [ 'labels']) : x1, y1, x2, y2 = bbox rect_box = patches.rectangle ((x1, y1), x2-x1, y2-y1, linewidth = 1, edgecolor = 'r', facecolor = 'none') ax.add_patch (rect_box) plt.text (x1, y1, label, color = 'white', fontsize = 8, bbox = dict (facecolor = 'red', alpha = 0.5)). ax.axis ( 'off') plt.show ()
- 이미지 주위에 직사각형 경계 상자를 그리기 위해 Matplotlib 라이브러리로 작업합니다.
- 우리는 그림과 축을 만드는 것으로 시작한 다음 Florence-2 Vision Language 모델에 제공 한 이미지를 표시합니다.
- 여기서는 모델 출력이 x, y 좌표를 포함하는 목록이며 최종 출력에는 경계 상자 목록이 있습니다. 즉, 각 레이블에는 자체 경계 상자가 있습니다.
- 그래서 우리는 경계 상자 목록을 반복합니다.
- 그런 다음 경계 상자의 X 및 Y 좌표를 풀립니다.
- 그런 다음 마지막 단계에서 포장을 풀었던 좌표로 사각형을 그립니다.
- 마지막으로, 우리는 현재 표시중인 이미지에 패치합니다.
- 경계 상자에 어떤 객체가 포함되어 있는지 알리기 위해 경계 상자에 레이블을 추가해야합니다.
- 마지막으로 축을 제거합니다.
이 코드를 실행하고 그림을보고, 우리는 우리가 제공 한 밴 이미지에 대한 Florence-2 Vision Language Model에서 생성 된 많은 경계 상자가 있음을 알 수 있습니다. 우리는 모델이 밴, 창 및 휠을 감지했으며 각 레이블에 대한 올바른 좌표를 제공 할 수 있음을 알 수 있습니다.
문구 접지에 대한 캡션
다음으로, Florence-2 모델이 지원하는 "캡션에 대한 캡션"이라는 작업이 있습니다. 모델이 이미지와 캡션을 감안할 때, 구절 접지의 작업은 주어진 캡션의 명사 문구에 의해 언급 된 각 / 가장 관련성있는 엔티티 / 객체를 이미지의 영역에 찾는 것입니다.
아래 코드 로이 작업을 살펴볼 수 있습니다.
프롬프트 = "<caption_to_phrase_grounding> 흰색 건물 앞에 주차 된 오렌지 밴" task_type = "<caption_to_phrase_grounding>" 입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda") generated_ids = model.generate ( input_ids = inputs [ "input_ids"], pixel_values = 입력 [ "pixel_values"], max_new_tokens = 512, do_sample = false, )) text_generations = processor.batch_decode (generated_ids, skip_special_tokens = false) [0] results = processor.post_process_generation (text_generations, task = task_type, image_size = (image.width, image.height))) </caption_to_phrase_grounding></caption_to_phrase_grounding>
프롬프트를 위해, 우리는“
matplotlib.pyplot을 plt로 가져옵니다 matplotlib.patches를 패치로 가져옵니다 그림, ax = plt.subplots () ax.imshow (이미지) bbox, zip의 레이블 (results [task_type] [ 'bboxes'], results [task_type] [ 'labels') : x1, y1, x2, y2 = bbox rect_box = patches.rectangle ((x1, y1), x2-x1, y2-y1, linewidth = 1, edgecolor = 'r', facecolor = 'none') ax.add_patch (rect_box) plt.text (x1, y1, label, color = 'white', fontsize = 8, bbox = dict (facecolor = 'red', alpha = 0.5)). ax.axis ( 'off') plt.show ()
여기서는 Florence-2 Vision Language 모델이 두 개체에서 두 개를 추출 할 수 있음을 알 수 있습니다. 하나는 오렌지 밴이고 다른 하나는 흰색 건물입니다. 그런 다음 Florence-2는 이러한 각 엔티티에 대한 경계 상자를 생성했습니다. 이러한 방식으로, 캡션이 주어지면, 모델은 주어진 캡션에서 관련 엔티티/객체를 추출하고 해당 객체에 해당하는 경계 박스를 생성 할 수 있습니다.
플로렌스 -2를 사용한 세분화
세분화는 이미지의 여러 부분에 대해 이미지를 촬영하고 마스크가 생성되는 프로세스입니다. 각 마스크는 물체입니다. 세분화는 객체 감지의 다음 단계입니다. 객체 감지에서는 이미지의 위치 만 찾아 경계 상자 만 생성합니다. 그러나 분할에서 직사각형 경계 박스를 생성하는 대신 물체의 모양에있는 마스크를 생성하므로 해당 물체의 마스크를 만드는 것과 같습니다. 이것은 우리가 객체의 위치를 알뿐만 아니라 물체의 모양조차 알고 있기 때문에 도움이됩니다. 운 좋게도 Florence-2 Vision Language 모델은 세분화를 지원합니다.
이미지에서 분할
우리는 밴 이미지로 분할을 시도 할 것입니다.
프롬프트 = "<weferring_expression_segmentation> 두 개의 검은 타이어" task_type = "<seferring_expression_segmentation>" 입력 = 프로세서 (텍스트 = 프롬프트, 이미지 = 이미지, return_tensors = "pt"). to ( "cuda") generated_ids = model.generate ( input_ids = inputs [ "input_ids"], pixel_values = 입력 [ "pixel_values"], max_new_tokens = 512, do_sample = false, )) text_generations = processor.batch_decode (generated_ids, skip_special_tokens = false) [0] results = processor.post_process_generation (text_generations, task = task_type, image_size = (image.width, image.height))) </seferring_expression_segmentation></weferring_expression_segmentation>
- 여기서 프로세스는 이미지 캡션 및 객체 감지 작업과 유사합니다. 우리는 프롬프트를 제공하는 것으로 시작합니다.
- 여기서 프롬프트는 "
두 검은 타이어"입니다. 여기서 작업은 세분화입니다. - 세분화는 제공된 텍스트 입력을 기반으로하며 여기서는 "두 개의 검은 색 타이어"입니다.
- 따라서 Florence-2 모델은이 텍스트 입력 및 제공된 이미지와 밀접한 관련이있는 마스크를 생성하려고합니다.
여기서 결과 변수는 형식 {”: { 'polygons': [[polygon]],…], 'labels': [”,”,…]}} 형식입니다. 여기서 각 객체/마스크는 다각형 목록으로 표시되고 각 다각형은 [x1, y1, x2, y2, xn, yn] 형식입니다.
마스크 생성 및 실제 이미지에서 오버레이
이제이 마스크를 만들어 실제 이미지에서 오버레이하여 더 잘 시각화 할 수 있습니다.
가져 오기 사본 Numpy를 NP로 가져옵니다 IPYTHON. DISPLAY 가져 오기 디스플레이 PIL 가져 오기 이미지, ImageDraw, ImageFont에서 output_image = copy.deepcopy (이미지) res = 결과 [task_type] draw = imagedraw.draw (output_image) 스케일 = 1 다각형의 경우 zip (res [ 'polygons'], res [ 'labels'])의 레이블 : fill_color = "파란색" 다각형의 _polygon의 경우 : _polygon = np.array (_polygon). Reshape (-1, 2) Len (_polygon) 인 경우 <p><img src="/static/imghwm/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174502929770135.png?x-oss-process=image/resize,p_40" class="lazy" alt="Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya" ></p><h4 id="설명"> 설명</h4>
- 여기서는 이미지 처리를 위해 PIL 라이브러리에서 다양한 도구를 가져 오는 것으로 시작합니다.
- 우리는 이미지의 깊은 사본을 만들고 새로운 변수에 "
"의 값을 저장합니다. - 다음으로, 우리는 the.draw () 메소드를 호출하고 실제 이미지의 사본을 제공하여 ImagedRaw 인스턴스를 만들어 이미지를로드합니다.
- 다음으로, 우리는 다각형의 지퍼와 레이블 값을 반복합니다.
- 각각의 다각형에 대해, 우리는 _polygon이라는 이름으로 개별 다각형을 반복하여 재구성합니다. _polygon은 이제 고차원 목록입니다.
- 우리는 _polygon이 연결할 수 있도록 최소한 3면을 가져야한다는 것을 알고 있습니다. 따라서이 유효성 조건을 확인하여 _polygon 목록에 3 개 이상의 목록 항목이 있는지 확인합니다.
- 마지막으로, .polygon () 메소드를 호출하고 _polygon을 제공하여 실제 이미지의 사본 에이 _polygon을 그립니다. 그와 함께 우리는 그것을 개요 색상과 채우기 색상을 제공합니다.
- Florence-2 Vision Language 모델이 해당 다각형에 대한 레이블을 생성하는 경우 .text () 함수를 호출하고 레이블을 제공하여 실제 이미지의 사본 에이 텍스트를 그릴 수도 있습니다.
- 마지막으로, Florence-2 모델에 의해 생성 된 모든 다각형을 그린 후, 우리는 ipython 라이브러리에서 디스플레이 함수를 호출하여 이미지를 출력합니다.
Florence-2 Vision Language Model은“두 개의 검은 타이어”에 대한 우리의 쿼리를 성공적으로 이해하고 이미지에 눈에 띄는 검은 색 타이어가있는 차량이 포함되어 있다고 추론했습니다. 이 모델은이 타이어에 대한 다각형 표현을 생성했으며,이 타이어는 파란색으로 마스킹되었습니다. 이 모델은 Microsoft 팀이 큐 레이트 한 강력한 교육 데이터로 인해 다양한 컴퓨터 비전 작업이 뛰어났습니다.
결론
Florence-2는 Microsoft Team이 처음부터 제작하고 훈련 한 비전 언어 모델입니다. 다른 비전 언어 모델과 달리 Florence-2는 객체 감지, 이미지 캡션, 문구 객체 감지, OCR, 세분화 및 이들의 조합을 포함한 다양한 컴퓨터 비전 작업을 수행합니다. 이 안내서에서는 Florence-2 Large 모델을 다운로드하는 방법과 Florence-2로 변화하는 프롬프트로 다른 컴퓨터 비전 작업을 수행하는 방법을 살펴 보았습니다.
주요 테이크 아웃
- Florence-2 모델은 두 가지 크기로 제공됩니다. 하나는 0.23 억 파라미터 버전 인 기본 변형이고 다른 하나는 0.7 억 매개 변수 버전 인 큰 변형입니다.
- Microsoft Team은 FLD 5B 데이터 세트에서 Florence-2 모델을 훈련 시켰습니다. FLD 5B 데이터 세트는 Microsoft 팀이 생성 한 다양한 이미지 작업을 포함하는 이미지 데이터 세트입니다.
- 피렌체 -2는 입력 프롬프트와 함께 이미지를 수용합니다. 프롬프트가 작업 유형을 정의하는 경우 Florence-2 Vision 모델이 수행해야합니다.
- 각 작업은 다른 출력을 생성하며 이러한 모든 출력은 텍스트 형식으로 생성됩니다.
- Florence-2는 MIT 라이센스가있는 오픈 소스 모델이므로 상용 응용 프로그램을 위해 작업 할 수 있습니다.
자주 묻는 질문
Q1. 플로렌스 -2는 무엇입니까?A. Florence-2는 Microsoft 팀이 개발 한 비전 언어 모델이며 0.23B 매개 변수와 0.7b 매개 변수 버전의 두 가지 크기로 출시되었습니다.
Q2. 자동 프로세서는 자동으로 프로토 톨이저와 어떻게 다릅니 까?A. Autotokenizer는 텍스트를 토큰으로 변환하는 텍스트 데이터 만 처리 할 수 있습니다. 반면, 이미지 데이터를 포함하는 멀티 모달 모델에 대한 자동 프로세서 사전 프로세서 데이터.
Q3. FLD-5B 란 무엇입니까?A. FLD-5B는 Microsoft 팀이 큐 레이션 한 이미지 데이터 세트입니다. 1 억 2 천 5 백만 이미지의 약 54 억 이미지 캡션이 포함되어 있습니다.
Q4. Florence-2 모델은 무엇을 출력합니까?A. Florence-2 모델은 주어진 입력 이미지 및 입력 텍스트를 기반으로 텍스트를 출력합니다. 이 텍스트는 간단한 이미지 캡션이거나 작업이 객체 감지 또는 세분화 인 경우 경계 박스를 조정할 수 있습니다.
Q5. Florence-2 오픈 소스입니까?A. 예. Florence-2는 MIT 라이센스에 따라 릴리스되므로 오픈 소스로 만들 수 있으며이 모델을 사용하기 위해 HuggingFace를 인증 할 필요가 없습니다.
이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
위 내용은 Florence -2를 사용하여 컴퓨터 비전 작업을 수행하는 방법 -Raletics Vidhya의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

2008 년 이래로 저는 도시 교통의 미래로서 "Robotjitney"라고 불리는 공유 라이드 밴을 옹호했습니다. 나는이 차량들을 21 세기의 차세대 대중 교통 솔루션 인 Surpas로 예측합니다.

체크 아웃 경험 혁명 Sam 's Club의 혁신적인 "Just Go"시스템은 기존 AI 기반 AI 기반 "Scan & Go"기술을 기반으로하여 회원이 쇼핑 중에 Sam's Club 앱을 통해 구매를 스캔 할 수 있습니다.

GTC 2025에서 Nvidia의 향상된 예측 가능성 및 신제품 라인업 AI 인프라의 핵심 업체 인 Nvidia는 고객의 예측 가능성 증가에 중점을두고 있습니다. 여기에는 일관된 제품 제공, 성과 기대치 충족 및 충족이 포함됩니다

Google의 Gemma 2 : 강력하고 효율적인 언어 모델 효율성과 성능으로 축하되는 Google의 Gemma Family of Language 모델은 Gemma 2의 도착으로 확장되었습니다.이 최신 릴리스는 두 가지 모델로 구성됩니다 : 27 억 매개 변수 Ver Ver

이 데이터 에피소드와 함께이 선도에는 주요 데이터 과학자, 천체 물리학 자, TEDX 스피커 인 Kirk Borne 박사가 있습니다. Borne 박사는 빅 데이터, AI 및 머신 러닝 분야의 유명한 전문가 인 현재 상태와 미래의 Traje에 대한 귀중한 통찰력을 제공합니다.

이 연설에는 인공 지능이 사람들의 신체 운동을 지원하는 데 왜 좋은지를 보여주는 공학에 대한 백 그라운드 정보가 매우 통찰력있는 관점이있었습니다. 스포츠에서 인공 지능 적용을 탐구하는 데 중요한 부분 인 세 가지 디자인 측면을 보여주기 위해 각 기고자의 관점에서 핵심 아이디어를 간략하게 설명 할 것입니다. 에지 장치 및 원시 개인 데이터 인공 지능에 대한이 아이디어에는 실제로 두 가지 구성 요소가 포함되어 있습니다. 하나는 우리가 큰 언어 모델을 배치하는 위치와 관련하여 하나의 구성 요소와 다른 하나는 인간 언어와 활력 징후가 실시간으로 측정 될 때“표현”하는 언어의 차이와 관련이 있습니다. Alexander Amini는 달리기와 테니스에 대해 많은 것을 알고 있지만 그는 여전히

Caterpillar의 최고 정보 책임자이자 IT의 수석 부사장 인 Jamie Engstrom은 28 개국에서 2,200 명 이상의 IT 전문가로 구성된 글로벌 팀을 이끌고 있습니다. 현재 역할에서 4 년 반을 포함하여 Caterpillar에서 26 년 동안 Engst

Google Photos의 새로운 Ultra HDR 도구 : 빠른 가이드 Google Photos의 새로운 Ultra HDR 도구로 사진을 향상시켜 표준 이미지를 활기차고 높은 동기 범위의 걸작으로 변환하십시오. 소셜 미디어에 이상적 이며이 도구는 모든 사진의 영향을 높이고


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.
