AccueilActualités informatiqueEnterprise Search : Un petit monde - Apache Lucene et Solr 9.0...

Enterprise Search : Un petit monde – Apache Lucene et Solr 9.0 recherchent en plusieurs langues

Les projets Apache Solr et Lucene sont sortis dans leur version 9.0. Le serveur de recherche d’entreprise Solr propose cette fois des plug-ins pour le placement de répliques, limite les taux de recherche et offre une nouvelle interface de recherche SQL dans l’interface utilisateur. La nouvelle version majeure de la bibliothèque du moteur de recherche Apache Lucene, entièrement écrite en Java et considérée comme particulièrement performante, apporte une série de fonctionnalités supplémentaires. La technologie du moteur de recherche convient à presque toutes les applications qui nécessitent une recherche structurée, une recherche en texte intégral, une recherche à facettes, mais aussi une correction orthographique ou des suggestions de requêtes.

Sommaire

La version majeure d’Apache Lucene supporte l’indexation de vecteurs numériques de grande dimension pour la recherche de nœuds voisins (Nearest Neighbor Search). Pour ce faire, elle se sert d’un algorithme pour un réseau du petit monde navigable hiérarchiquement (Small World Graph), un modèle connu en mathématiques. Dans ce réseau, les voisins d’un nœud sont probablement les voisins d’autres nœuds (nodes) et la plupart des nœuds sont accessibles en quelques étapes à partir de n’importe quel autre nœud.

La version de Milestone étend les compétences linguistiques de Lucenes en ajoutant à la bibliothèque des analyseurs pour le serbe, le népali et le tamoul. Elle propose désormais des suggestions pour les recherches en japonais et comprend des stemmers pour l’hindi, l’indonésien et le yiddish, entre autres. Une nouvelle normalisation avec stemming pour le suédois et le norvégien complète les fonctionnalités linguistiques. L’équipe Lucene a également amélioré les performances. Ainsi, la facettisation de la taxonomie devrait être 400 % plus rapide et l’indexation de points multidimensionnels a également pris de l’ampleur, selon le billet de blog des développeurs Apache.

Le tri accéléré des champs indexés avec des points est désormais standard avec une possibilité d’opt-out. Ceux qui travaillent depuis longtemps avec Lucene connaissent bien cette option : dans les versions supérieures 8.x, le tri accéléré multiple était déjà possible, à l’époque encore en opt-in. Le site ConcurrentMergeScheduler part maintenant d’une entrée/sortie (I/O) rapide, ce qui devrait, selon les éditeurs, améliorer le flux d’indexation. Afin de gagner de la place, l’équipe de Lucene est passée du mode « postings lists » au mode « postings ». FOR-delta à PFOR-delta a été modifié.

Lire aussi

Lucene 9.0 n’utilise plus les paquets partagés, ce qui nécessite de renommer certains paquets (en dehors du JAR lucene-core) et d’adapter les imports. Un système de modules est encore à l’état expérimental, il devrait arriver à maturité dans les prochaines versions 9.x.

Des informations plus détaillées sur Apache Lucene sont disponibles dans le billet de blog de la version majeure 9.0. En ce qui concerne les modifications apportées au serveur de recherche Solr, le blog final n’a pas encore été publié. Le changelog et une liste des paramètres modifiés sont déjà disponibles, avec des remarques complémentaires de l’équipe Solr. Ceux qui le souhaitent peuvent déjà se plonger dans les Raw Notes.

Plus d'articles