Powerdrill AI se classe au #1 spot sur l'échelle de référence QuALITY

Yulu

4 sept. 2024

perceuse-ai-classée-1-ère-place-sur-le-benchmark-de-qualité
perceuse-ai-classée-1-ère-place-sur-le-benchmark-de-qualité
perceuse-ai-classée-1-ère-place-sur-le-benchmark-de-qualité
perceuse-ai-classée-1-ère-place-sur-le-benchmark-de-qualité

TABLE DES MATIÈRES

Nous sommes ravis d'annoncer que Powerdrill AI a été classé numéro 1 sur le tableau de classement des benchmarks QuALITY (dernière mise à jour : septembre 2024). En termes de précision, il a obtenu un score de 83,1 sur l'ensemble de test et de 77,3 sur le sous-ensemble difficile. Pour le score de style SAT, il a obtenu 77,5 sur l'ensemble de test et 69,7 sur le sous-ensemble difficile. Consultez le tableau de classement pour plus de détails : https://nyu-mll.github.io/quality

Qu'est-ce que QuALITY?

QuALITY (Question Answering with Long Input Texts) est un ensemble de données conçu pour tester les modèles sur la compréhension de documents longs, en particulier lorsqu'il s'agit de contextes beaucoup plus longs que ce que les modèles actuels peuvent généralement gérer. L'ensemble de données contient des passages en anglais d'une longueur moyenne d'environ 5000 jetons. Contrairement à d'autres ensembles de données où les questions sont créées sur la base de résumés ou d'extraits, les questions de QuALITY sont rédigées et validées par des contributeurs qui ont lu l'intégralité du passage.

Une caractéristique clé de QuALITY est que seule la moitié des questions peuvent être répondues par des annotateurs travaillant sous des contraintes de temps, ce qui indique que parcourir ou effectuer une recherche par mots clés simples est insuffisant pour bien performer de manière cohérente. Cela rend l'ensemble de données particulièrement difficile et vise à promouvoir le développement de modèles capables de s'engager dans une compréhension approfondie plutôt que dans une simple extraction superficielle.

Les modèles de référence obtiennent de mauvais résultats sur cette tâche, avec des précisions d'environ 55,4 %, loin derrière la performance humaine à 93,5 %. L'ensemble de données comprend également un "sous-ensemble difficile" (QuALITY-HARD), composé de questions particulièrement difficiles.

Critères d'évaluation pour la liste QuALITY 

Les classements sont déterminés en évaluant la précision sur l'ensemble de test entier. Cela signifie que la position d'un participant dans le classement est basée sur la précision avec laquelle il répond à toutes les questions, sans se concentrer uniquement sur un sous-ensemble d'entre elles.

La précision, dans ce contexte, est calculée en divisant le nombre total de réponses correctes par le nombre total d'exemples de l'ensemble de test. Cela donne une mesure simple de la performance globale d'un participant.

Le score de style SAT est un peu plus nuancé. Il commence par le nombre de réponses correctes qu'un participant fournit. Cependant, pour décourager les devinettes aléatoires, la formule déduit un tiers de point pour chaque réponse incorrecte. Cette pénalité aide à s'assurer que les participants sont plus réfléchis dans leurs réponses. En revanche, les réponses qui sont abstentionnistes—c'est-à-dire que le participant a choisi de ne pas répondre—n'affectent pas le score, car elles reçoivent un poids de zéro. Enfin, le score ajusté est divisé par le nombre total d'exemples pour normaliser le résultat et fournir un score final qui reflète la performance globale du participant. 

Dans la liste finale QuALITY, le classement des scores est déterminé par deux composants principaux : la précision et les scores de style SAT. Chacun de ces composants est évalué en utilisant à la fois l'ensemble de test et le sous-ensemble difficile. Il est important de souligner que Powerdrill AI a excellé dans tous les aspects, surpassant les modèles de l'Université de Stanford, de l'Université Northeastern,  et d'autres, atteignant le score le plus élevé dans chaque partie de l'évaluation. À titre de référence, un score de 0 représente la valeur de référence. Cette performance exceptionnelle de Powerdrill AI souligne ses capacités supérieures à gérer les tâches définies dans l'évaluation QuALITY.

L'ensemble de test est une partie de l'ensemble de données qui est mise de côté pour évaluer la performance d'un modèle après l'entraînement. Il contient généralement des exemples que le modèle n'a pas vus pendant l'entraînement ou la validation. L'objectif est de mesurer dans quelle mesure le modèle généralise à de nouvelles données inédites. Les métriques de performance telles que la précision, la précision, le rappel, et d'autres sont calculées en fonction de la performance du modèle sur cet ensemble de test.

Le sous-ensemble difficile est une partie de l'ensemble de test qui se compose d'exemples particulièrement difficiles pour le modèle à gérer. Ceux-ci peuvent être des cas où les distinctions entre les classes sont subtiles, où les données sont plus bruyantes, ou où le modèle a historiquement des difficultés. La performance sur le sous-ensemble difficile est souvent analysée séparément pour comprendre comment le modèle performe dans des conditions plus difficiles et identifier des domaines spécifiques où le modèle a besoin d'amélioration.

Pourquoi Powerdrill AI est en première position

Powerdrill AI est un système sophistiqué conçu pour gérer efficacement des requêtes complexes. Il excelle dans la décomposition des entrées utilisateur et l'optimisation du processus de récupération grâce à des algorithmes avancés, garantissant que des informations précises et pertinentes sont fournies rapidement. Ce système s'adapte à divers contextes, offrant une expérience utilisateur fluide et efficace.

RAPTOR est un système de récupération basé sur des arbres innovant qui améliore les connaissances paramétriques des grands modèles de langage en incorporant des informations contextuelles à plusieurs niveaux d'abstraction. Il utilise des techniques de clustering et de résumé récursif pour construire une structure d'arbre hiérarchique qui synthétise l'information à travers diverses sections des corpus de récupération. En partant de la base vers le haut, RAPTOR regroupe des morceaux de texte et génère des résumés, créant un arbre à plusieurs couches où les nœuds feuilles contiennent le texte original et les nœuds supérieurs représentent des informations résumées. 

Powerdrill AI  exploite l'indexation RAPTOR pour récupérer des morceaux plus raffinés, améliorant ainsi le raisonnement et la réponse dans les tâches de génération augmentée par récupération (RAG). Powerdrill AI décompose d'abord les requêtes utilisateur en un plan à plusieurs étapes, cette décomposition permettant au système de traiter des requêtes complexes étape par étape, en s'assurant que chaque étape est traitée avec précision.

Pour chaque étape du plan à plusieurs étapes, des entités clés sont extraites de la requête. Ces entités sont cruciales car elles aident à faire correspondre la requête avec les informations les plus pertinentes de la base de données ou du document, améliorant la précision dans la récupération des données nécessaires.

Pour optimiser davantage le processus, Powerdrill AI met en œuvre un modèle de rerank. Ce modèle filtre les morceaux d'information non essentiels pour répondre à la requête. En éliminant ces pièces non pertinentes, le système évite de traiter des contextes excessivement longs, ce qui réduit non seulement les coûts mais améliore également la performance du système en réduisant la latence.

Dans l'ensemble, Powerdrill AI se concentre sur la fourniture d'un traitement des requêtes précis et efficace en gérant soigneusement la décomposition des requêtes, l'extraction d'entités et les processus de récupération de données.

Étapes futures de Powerdrill AI

Le récent exploit de Powerdrill AI en revendiquant la première place sur le benchmark QuALITY pour le Répondre aux Questions avec des Textes d'Entrée Longs est un moment pivot pour la plateforme. Cette reconnaissance souligne la précision inégalée de Powerdrill AI pour comprendre et répondre à des requêtes d'utilisateur complexes, surtout lorsqu'il s'agit de textes d'entrée longs et complexes. Le benchmark QuALITY, connu pour ses cas de test difficiles, évalue les modèles sur leur capacité à comprendre des passages longs et à répondre aux questions avec précision — un exploit qui nécessite une compréhension avancée et des capacités de traitement sophistiquées. En surpassant les concurrents dans cet espace, Powerdrill AI a démontré sa capacité supérieure à gérer des scénarios de données du monde réel, solidifiant encore sa position de leader dans l'interprétation de requêtes alimentée par l'IA.

Ce jalon valide non seulement l'efficacité des stratégies et des technologies sous-jacentes à Powerdrill AI, mais ouvre également la voie à son développement futur. Avec cet exploit, Powerdrill AI est bien positionné pour étendre ses capacités, en affinant ses modèles pour traiter des tâches encore plus complexes avec une efficacité accrue. En regardant vers l'avenir, l'accent sera probablement mis sur l'optimisation de la latence, la réduction des coûts et l'amélioration de la capacité du système à traiter des textes d'entrée encore plus longs et plus détaillés. Ce succès entraînera une innovation continue, permettant à Powerdrill AI de continuer à diriger l'industrie du traitement des requêtes alimentée par l'IA tout en élargissant ses applications à travers divers domaines.

Essayez-le dès maintenant :https://powerdrill.ai/