찾다
기술 주변기기일체 포함1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!

웹 개발에서는 서버에 파일을 업로드하기 전에 파일 형식을 감지하는 것이 중요합니다. 이 단계는 서버와 사용자의 보안을 보장하고 악성 파일을 차단할 뿐만 아니라 업로드된 파일이 완전하고 기대치를 충족하는지 확인하여 데이터 규정 준수를 향상시킬 수 있습니다. 동시에 사용자에게 적시에 피드백과 지침을 제공함으로써 사용자 경험을 개선하고 불필요한 혼란을 피할 수도 있습니다.

아바오 형제님은 앞서 "JavaScript는 파일 형식을 어떻게 감지하나요?"라고 소개한 적이 있습니다. 이제 AI 시대에 접어들었으니 시대에 발맞춰야 합니다. 다음으로 Abao 형제는 Google의 오픈 소스 Magika[1] 도구를 사용하여 정확한 파일 형식 감지를 달성하는 방법을 소개합니다.

1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!Pictures

Magika 소개

Magika+는 최신 딥 러닝 기술을 사용하여 정확한 탐지를 제공하는 새로운 인공 지능 파일 분류 탐지 도구입니다. 무게가 약 1MB에 불과하고 단일 CPU에서 실행되는 경우에도 밀리초 내에 정확한 파일 식별이 가능한 고도로 최적화된 맞춤형 Keras 모델을 사용합니다.

백만 개 이상의 파일과 100개 이상의 콘텐츠 유형(바이너리 및 텍스트 파일 형식 포함)에 대한 평가에서 Magika는 99% 이상의 정밀도와 재현율을 달성했습니다. Magika는 Gmail, 드라이브, 세이프 브라우징 파일을 적절한 보안 및 콘텐츠 정책 스캐너로 라우팅하여 Google 사용자를 안전하게 보호하기 위해 대규모로 사용됩니다.

Magika의 기능

  • 100개 이상의 파일 형식 감지를 지원합니다.
  • Python 명령줄, Python API 및 실험적인 TFJS 버전과 같은 다양한 사용 방법을 지원합니다.
  • 모델이 로드된 후(일회성 오버헤드) 추론 시간은 파일당 ~5ms입니다.
  • 파일 크기에 관계없이 추론 시간이 거의 일정합니다. Magika는 파일 바이트의 제한된 하위 집합만 사용합니다.
  • 일괄 처리 지원: 동시에 여러 파일을 명령줄과 API로 보내는 것을 지원하며 Magika는 추론 시간을 단축하기 위해 일괄 처리를 사용합니다.
  • 100개 이상의 콘텐츠 유형에 걸쳐 2,500만 개가 넘는 파일로 구성된 데이터 세트를 학습했습니다.
  • 대규모 평가 후 Magika의 평균 정밀도와 재현율은 99% 이상에 도달하여 기존 방법을 능가했습니다.
  • Magika는 각 콘텐츠 유형에 대한 임계값 시스템을 사용하여 모델의 예측을 "신뢰"할지 또는 "일반 텍스트 문서" 또는 "알 수 없는 바이너리 데이터"와 같은 일반 레이블을 반환할지 여부를 결정합니다.
  • 오류 허용 범위를 조정하기 위해 높은 신뢰도, 중간 신뢰도, 최선의 추측이라는 세 가지 예측 모드를 지원합니다.

Magika의 성능

1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!Pictures

성능 측면에서 Magika는 AI 모델과 대규모 교육 데이터 세트 덕분에 100개 이상의 파일 형식을 사용하는 100만 개 파일 벤치마크에서 평가할 때 다른 최신 애플리케이션보다 성능이 뛰어납니다. 약 20% 더 높습니다. 파일 유형별로 분류하면 다른 도구에서 처리하는 데 문제가 있을 수 있는 코드 파일 및 구성 파일을 포함하여 텍스트 파일의 성능이 크게 향상되었습니다.

1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!Pictures

Magika 온라인 예제

Magika는 브라우저와 Node.js 환경을 지원하며, 웹 데모[2] 웹사이트를 방문하면 해당 기능을 체험해 볼 수 있습니다.

1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!Pictures

Magika 빠르게 시작하기

magika 설치

npm install magikaorpnpm add magika

브라우저에서 magika 사용

import { Magika } from "magika";const file = new File(["# Hello I am a markdown file"], "hello.md");const fileBytes = new Uint8Array(await file.arrayBuffer());const magika = new Magika();await magika.load();const prediction = await magika.identifyBytes(fileBytes);console.log(prediction);

Node.js에서 magika 사용

import { readFile } from "fs/promises";import { MagikaNode as Magika } from "magika";const data = await readFile("some file");const magika = new Magika();await magika.load();const prediction = await magika.identifyBytes(data);console.log(prediction);

Mag 정보 ika 의 관련 콘텐츠인 경우 Magika에 대해 더 자세히 알고 싶으시면 Magika: AI로 구동되는 빠르고 효율적인 파일 형식 식별[3] 기사를 계속 읽어보세요.

References

[1]Magika: https://github.com/google/magika

[2]웹 데모: https://google.github.io/magika/

[3]Magika: AI 기반 빠르고 효율적인 파일 형식 식별: https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html

위 내용은 1MB의 마법같은 AI가 수백만 개의 파일을 99% 정확도로 감지합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기