Maison  >  Article  >  Périphériques technologiques  >  1 Mo d'IA magique détecte des millions de fichiers avec une précision de 99 % !

1 Mo d'IA magique détecte des millions de fichiers avec une précision de 99 % !

WBOY
WBOYavant
2024-04-08 09:22:081067parcourir

Dans le développement Web, la détection du type de fichier avant de télécharger les fichiers sur le serveur est cruciale. Cette étape peut non seulement garantir la sécurité du serveur et des utilisateurs, intercepter d'éventuels fichiers malveillants, mais également garantir que les fichiers téléchargés sont complets et répondent aux attentes, améliorant ainsi la conformité des données. Dans le même temps, en fournissant des commentaires et des conseils en temps opportun aux utilisateurs, cela peut également améliorer l'expérience utilisateur et éviter toute confusion inutile.

Frère A Bao a déjà présenté "Comment JavaScript détecte-t-il le type de fichier ?" Maintenant que nous sommes entrés dans l'ère de l'IA, nous devons suivre le rythme de notre temps. Ensuite, Brother Abao présentera comment utiliser l'outil open source Magika[1] de Google pour obtenir une détection précise du type de fichier.

1 Mo dIA magique détecte des millions de fichiers avec une précision de 99 % !Photos

Magika Introduction

Magika+ est un nouvel outil de détection de classification de fichiers par intelligence artificielle qui s'appuie sur la dernière technologie d'apprentissage en profondeur pour fournir une détection précise. Il utilise un modèle Keras personnalisé hautement optimisé qui ne pèse qu'environ 1 Mo et permet une identification précise des fichiers en quelques millisecondes, même lorsqu'il est exécuté sur un seul processeur.

Dans les évaluations de plus d'un million de fichiers et de plus de 100 types de contenu (couvrant les formats de fichiers binaires et texte), Magika a atteint une précision et un rappel de plus de 99 %. Magika est utilisé à grande échelle pour assurer la sécurité des utilisateurs de Google en acheminant les fichiers Gmail, Drive et Safe Browsing vers les analyseurs de sécurité et de politique de contenu appropriés.

Caractéristiques de Magika

  • Prend en charge la détection de plus de 100 types de fichiers.
  • Prend en charge plusieurs méthodes d'utilisation telles que la ligne de commande Python, l'API Python et la version expérimentale TFJS.
  • Une fois le modèle chargé (il s'agit d'une surcharge ponctuelle), le temps d'inférence est d'environ 5 ms par fichier.
  • Temps d'inférence quasi constant quelle que soit la taille du fichier. Magika n'utilise qu'un sous-ensemble limité d'octets de fichier.
  • Prend en charge le traitement par lots : prend en charge l'envoi simultané de plusieurs fichiers à la ligne de commande et à l'API, Magika utilisera le traitement par lots pour accélérer le temps d'inférence.
  • Formé sur un ensemble de données de plus de 25 millions de fichiers sur plus de 100 types de contenu.
  • Après une évaluation à grande échelle, la précision et le rappel moyens de Magika ont atteint plus de 99 %, surpassant les méthodes existantes.
  • Magika utilise un système de seuil pour chaque type de contenu afin de déterminer s'il faut « faire confiance » aux prédictions d'un modèle ou s'il faut renvoyer une étiquette générique telle que « Document texte générique » ou « Données binaires inconnues ».
  • Prend en charge trois modes de prédiction différents pour ajuster la tolérance aux erreurs : confiance élevée, confiance moyenne et meilleure estimation.

Performances de Magika

1 Mo dIA magique détecte des millions de fichiers avec une précision de 99 % !Pictures

En termes de performances, Magika surpasse les autres applications modernes lorsqu'elles sont évaluées sur un benchmark de 1 million de fichiers avec plus de 100 types de fichiers grâce à son modèle d'IA et son vaste ensemble de données de formation. environ 20 % plus élevé. Ventilés par type de fichier, nous constatons de plus grandes améliorations de performances pour les fichiers texte, y compris les fichiers de code et les fichiers de configuration que d'autres outils peuvent avoir du mal à traiter.

1 Mo dIA magique détecte des millions de fichiers avec une précision de 99 % !Images

Exemple en ligne Magika

Magika prend en charge le navigateur et l'environnement Node.js, vous pouvez découvrir ses fonctions en visitant le site Web Web Demo[2].

1 Mo dIA magique détecte des millions de fichiers avec une précision de 99 % !Photos

Magika Commencez vite

Installez magika

npm install magikaorpnpm add magika

Utilisez magika dans le navigateur

import { Magika } from "magika";const file = new File(["# Hello I am a markdown file"], "hello.md");const fileBytes = new Uint8Array(await file.arrayBuffer());const magika = new Magika();await magika.load();const prediction = await magika.identifyBytes(fileBytes);console.log(prediction);

Utilisez magika dans Node.js

import { readFile } from "fs/promises";import { MagikaNode as Magika } from "magika";const data = await readFile("some file");const magika = new Magika();await magika.load();const prediction = await magika.identifyBytes(data);console.log(prediction);

About Magika Contenu pertinent de,Si Si vous souhaitez en savoir plus sur Magika, vous pouvez continuer à lire cet article Magika : identification rapide et efficace du type de fichier grâce à l'IA[3].

Références

[1]Magika : https://github.com/google/magika

[2]Démo Web : https://google.github.io/magika/

[3]Magika : alimentée par l'IA identification rapide et efficace du type de fichier : https://opensource.googleblog.com/2024/02/magika-ai-powered-fast-and-efficient-file-type-identification.html

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer