AccueilActualités informatiqueBase de données multi-modèles : ArangoDB 3.9 introduit d'autres analyseurs pour la...

Base de données multi-modèles : ArangoDB 3.9 introduit d’autres analyseurs pour la recherche

L’équipe de développement derrière la base de données multi-modèles ouverte ArangoDB a présenté la version 3.9. Selon l’annonce faite sur le blog, cette nouvelle version apporte un certain nombre d’améliorations et de corrections de bugs, mais propose également quelques nouvelles fonctionnalités – notamment pour la recherche avec ArangoSearch ainsi que pour le langage de requête ArangoDB (AQL).

Sommaire

Dans ArangoDB Search 3.9, les utilisateurs trouveront deux nouveaux analyseurs : Segmentation et Collation. Au-delà de la manipulation de base du texte avec les fonctions de chaînes de l’AQL, les analyseurs permettent des transformations de données plus ciblées pour des tâches de recherche et de traitement de texte plus exigeantes. Le nouvel analyseur de segmentation permet d’attribuer des jetons au texte. Il remplit cette fonction indépendamment de la langue, comme le prévoit l’annexe 29 de la norme Unicode. L’analyseur de collage, quant à lui, convertit l’entrée en jetons spécifiques à la langue.

L’équipe de développement a étendu le Query Language d’ArangoDB avec, entre autres, trois nouvelles fonctions Decay et Vector. DECAY_EXP(), DECAY_LINEAR() et DECAY_GAUSS() peuvent être utilisées par exemple pour l’analyse de séries chronologiques. Ces fonctions permettent par exemple de calculer un score qui diminue en fonction de la distance entre une valeur numérique et une valeur d’origine donnée. Pour calculer la similarité de deux vecteurs – par exemple pour regrouper des documents similaires – les utilisateurs d’AnrangoDB disposent désormais des nouvelles fonctions vectorielles « A » et « B ». COSINE_SIMILARITY (similitude des cosinus), L1_DISTANCE (distance de Manhattan) et L2_DISTANCE (distance euclidienne) sont disponibles.

Les autres nouveautés d’ArangoDB 3.9 concernent le support UTF8 pour les noms de base de données et les SmartGraphs hybrides. Ces derniers permettent pour la première fois de combiner les fonctions Enterprise SmartGraph et SatelliteCollections. Alors que les SmartGraphs aident à diviser intelligemment des graphes extrêmement grands et à les traiter de manière performante, les SatelliteCollections servent à répliquer certaines données – par exemple des métadonnées – sur tous les serveurs afin de pouvoir y garantir un accès local. La réunion de ces deux fonctions dans les SmartGraphs hybrides devrait permettre à un plus grand nombre de scénarios d’interrogation de bénéficier de la possibilité d’une exécution locale, comme cela est également possible en liaison avec les SmartGraphs disjoints introduits en 2020. Les SmartGraphs hybrides restent toutefois réservés aux utilisateurs de la version Enterprise payante d’ArangoDB.

Grâce aux SmartGraphs hybrides, les SatelliteCollections peuvent être intégrées dans les SmartGraphs.

(Image : arangodb.com)

Un aperçu des principales modifications est disponible dans le blog de la nouvelle version, une liste complète est disponible dans les notes de mise à jour ainsi que dans le repo GitHub du projet de base de données.

Plus d'articles