Maison  >  Article  >  Périphériques technologiques  >  Le modèle de génération audio open source de 47 secondes de Stability AI peut générer des insectes, des oiseaux, de la musique rock et des battements de tambour.

Le modèle de génération audio open source de 47 secondes de Stability AI peut générer des insectes, des oiseaux, de la musique rock et des battements de tambour.

WBOY
WBOYoriginal
2024-06-10 09:37:36971parcourir

Il y a de bonnes nouvelles dans le domaine de la génération audio : Stability AI vient d'annoncer le lancement du modèle ouvert Stable Audio Open, capable de générer des données audio de haute qualité.

Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成

Adresse du projet : https://huggingface.co/stabilityai/stable-audio-open-1.0

Avec le produit commercial Stable Audio de Stability AI (qui peut générer des pistes musicales plus longues et cohérentes allant jusqu'à trois minutes), Stable Audio Open génère jusqu'à 47 secondes de données audio de haute qualité via une simple livraison de texte.

Cette maquette a été créée pour la production musicale et la conception sonore. Il comprend des battements de batterie, des riffs instrumentaux, des sons ambiants, des enregistrements de bruitage et d'autres échantillons audio destinés à être utilisés dans la production musicale et la conception sonore. Bien qu'il puisse générer de courts extraits de musique, il n'est pas optimisé pour les chansons, mélodies ou voix complètes.

Le principal avantage de Stable Audio Open est que les utilisateurs peuvent affiner le modèle en fonction de leurs propres données audio personnalisées.

Par exemple, voici un nouveau rythme généré par un batteur qui peaufine son propre échantillon d'enregistrement sonore de batterie : Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成 Générez l'audio des oiseaux chantant dans la forêt : Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成 Générez ensuite une musique rock "bouge à chaque fois" : Stability AI开源47秒音频生成模型,虫鸣鸟叫、摇滚、鼓点都能生成 Détails de la formation et ensemble de données

Stable+Audio+Open est un modèle de diffusion latente basé sur l'architecture Transformer. Se compose de trois composants : un encodeur automatique qui compresse les formes d'onde en longueurs de séquence gérables, une intégration de texte basée sur T5 pour le conditionnement du texte et un modèle de diffusion basé sur un transformateur (DiT) qui fonctionne au sein de l'encodeur automatique et de l'intégration de texte. Ce modèle est conçu pour trouver un équilibre entre l’efficacité spatiale et la qualité de la génération vocale.

Parmi les générateurs de musique internes, à mesure que certains générateurs, dont Stability, deviennent de plus en plus populaires, les problèmes de droits d'auteur et d'éventuelles violations des droits d'auteur par certains créateurs de générateurs sont devenus importants. Cependant, certains créateurs de générateurs sont capables d’utiliser le droit d’auteur d’une manière qui les met en lumière.

Dans ce modèle de formation, la stabilité et l'intelligence artificielle surveilleront la qualité des données de formation pour garantir la stabilité du modèle. Le « problème du droit d'auteur » dans la formation des modèles de graphes vincentiens a autrefois amené cette société à être profondément impliquée dans une controverse. Par conséquent, Stable+Audio+Open est formé à l’aide de données audio de FreeSound et Free Music Archive pour garantir qu’aucun matériel protégé par le droit d’auteur ou exclusif n’est utilisé. Cela garantit que toute personne ou organisation utilisant Stable+Audio+Open ne violera aucun droit d'auteur ou droit de propriété.

L'ensemble de données contient un total de 486 492 enregistrements audio, dont 472 618 proviennent de Freesound et 13 874 proviennent de Free Music Archive. Tous les fichiers audio sont sous licence CC0, CC BY ou CC Sampling+. Ces données ont été utilisées pour entraîner l'auto-encodeur et le DiT, et les chercheurs ont utilisé un modèle T5 pré-entraîné (base t5) accessible au public pour le conditionnement de texte.

Avant de commencer la formation, les chercheurs ont effectué une analyse approfondie pour s'assurer qu'il n'y avait pas de musique protégée par le droit d'auteur non autorisée dans les données de formation.

Ils ont d'abord identifié des échantillons de musique dans FreeSound à l'aide du classificateur de musique PANN basé sur les catégories AudioSet. Les échantillons de musique identifiés contiennent au moins 30 secondes de musique qui devrait appartenir à la catégorie liée à la musique avec un seuil de 0,15 (les probabilités de sortie des PANN vont de 0 à 1).

Les échantillons de musique identifiés sont envoyés au service d'identification d'Audible Magic, une société de détection de contenu de confiance, pour garantir qu'aucune musique protégée par le droit d'auteur n'est présente. Audible Magic signale la musique qui semble être protégée par le droit d'auteur, et celle-ci est supprimée avant l'entraînement sur l'ensemble de données. La plupart des contenus supprimés étaient des enregistrements en direct avec une musique de fond protégée par le droit d'auteur. Après le traitement ci-dessus, le chercheur a obtenu 266 324 échantillons CC0, 194 840 CC-BY et 11 454 CC + enregistrements audio.

La dernière chose à vérifier est qu'il n'y a pas de contenu protégé par le droit d'auteur dans le sous-ensemble FMA. Dans ce cas, la procédure est légèrement différente puisque le sous-ensemble FMA contient des signaux musicaux. Les chercheurs effectuent des recherches de métadonnées dans de vastes bases de données de musique protégée par le droit d'auteur et signalent toutes les correspondances possibles, qui sont examinées individuellement par des humains. Après ce processus, 8967 musiques CC-BY et 4907 CC0 ont finalement été obtenues.

Limitations

Stable Audio Open 1.0 En tant que modèle de génération audio, il existe également certaines limitations, notamment :

  • ne peut pas générer des sons réalistes ;

  • est formé avec des descriptions en anglais et ne fonctionnera pas aussi bien dans d'autres langues

  • ne peut pas être appliqué à tous les styles de musique et à toutes les cultures, manque de diversité dans les données de formation, modèle May ; ne fonctionne pas aussi bien sur les différents genres musicaux et effets sonores disponibles

  • Il est parfois difficile d'évaluer quel type de description textuelle fournit les meilleurs résultats de génération, et une ingénierie peut être nécessaire pour obtenir un résultat satisfaisant impressionnant.

Il convient de noter que Stable Audio Open est un modèle ouvert, mais techniquement, ce n'est pas open source. Stable Audio Open n'utilise pas de licence réelle approuvée par l'Open Source Initiative (OSI), mais est fourni aux utilisateurs sous la licence Stability AI Non-Commercial Research Community Agreement.

Dans le même temps, Stable Audio Open ne peut pas être utilisé à des fins commerciales ; les conditions d'utilisation l'interdisent. De plus, il ne fonctionne pas aussi bien dans différents styles musicaux et cultures, ou lorsqu'il est décrit dans des langues autres que l'anglais.

Stability AI attribue cela aux données d'entraînement. La description du modèle se lit comme suit : "Les sources de données peuvent manquer de diversité et toutes les cultures ne sont pas représentées de la même manière dans l'ensemble de données. Les échantillons générés par le modèle refléteront les biais dans les données d'entraînement."

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn