Apache Solr, Zookeeper, Clusters, Réplication, Cloud, Cloud, Grandes données, Algorithmes de recherche et bien plus encore...

Description
Solr est la plate-forme de recherche d'entreprise rapide, rapide et flamboyante du projet Apache LuceneTM. ses principales caractéristiques comprennent une recherche en texte intégral puissante, la mise en évidence des occurrences, la recherche par facettes, l'indexation en temps quasi réel, le regroupement dynamique, l'intégration de bases de données, la gestion de documents riches (p. ex. Word, PDF) et la recherche géospatiale.

Solr est écrit en Java et fonctionne comme un serveur autonome de recherche plein texte dans un conteneur de servlet tel que Jetty. Solr utilise la bibliothèque de recherche Java Lucene Java à son cur pour l'indexation et la recherche plein texte, et a REST-like HTTP/XML et JSON APIs qui le rendent facile à utiliser à partir de pratiquement tout langage de programmation. la puissante configuration externe de Solr lui permet d'être adapté à presque tous les types d'applications sans codage Java, et il dispose d'API JSON qui permettent de s'adapter à presque tous les types d'applications sans codage Java, et il dispose d'un système d'indexation et de recherche plein-textes de type REST-like HTTP/XML et JSON APIs qui le rendent facile à utiliser à partir de pratiquement n'importe quel langage de programmation.

Caractéristiques de Solr

Solr est un serveur de recherche d'entreprise autonome avec une API de type REST, dans lequel vous mettez des documents (appelés'indexation') via XML, JSON, CSV ou binaire sur HTTP, vous l'interrogez via HTTP GET et recevez des résultats XML, JSON, CSV ou binaires.


Fonctions avancées de recherche plein texte
Optimisé pour un trafic Web à haut volume
Interfaces ouvertes basées sur des standards - XML, JSON et HTTP
Interfaces d'administration HTML complètes
Statistiques du serveur exposées sur JMX pour la surveillance
Évolutivité linéaire, réplication automatique de l'index, basculement automatique et récupération.
Indexation en temps quasi réel
Flexible et adaptable avec une configuration XML
Architecture de plugin extensible
Solr utilise la bibliothèque de recherche LuceneTM et l'étend !


Un schéma de données réelles, avec des types numériques, des champs dynamiques, des clés uniques, des champs dynamiques, des clés uniques..............................................................................................................................................................................
Extensions puissantes du langage d'interrogation Lucene
Recherche par facettes et filtrage
Recherche géospatiale avec prise en charge de plusieurs points par document et polygones géographiques.
Analyse de texte avancée et configurable
Mise en cache hautement configurable et extensible par l'utilisateur
Optimisation des performances
Configuration externe via XML
Une interface d'administration basée sur AJAX
Enregistrement surveillable
Indexation incrémentale rapide en temps quasi réel et réplication de l'index.
Recherche distribuée hautement évolutive avec un index éclaté sur plusieurs hôtes.
JSON, XML, CSV/texte délimité et formats de mise à jour binaire.
Des moyens faciles d'extraire des données des bases de données et des fichiers XML à partir de sources locales sur disque et HTTP.
Analyse et indexation de documents riches (PDF, Word, HTML, etc.) à l'aide d'Apache Tika.
Intégration d'Apache UIMA pour l'extraction de métadonnées configurables.
Index de recherche multiples
Caractéristiques

Schéma


Définit les types de champs et les champs des documents.
Peut piloter des traitements plus intelligents
Spécifications de l'analyseur Lucene Declarative Lucene Analyzer
Dynamic Fields permet d'ajouter à la volée de nouveaux champs.
La fonctionnalité CopyField permet d'indexer un champ unique de plusieurs façons, ou de combiner plusieurs champs dans un seul champ interrogeable.
Les types explicites éliminent le besoin de deviner des types de champs.
Configuration externe de listes de mots vides, de listes de synonymes et de listes de mots protégés.
De nombreux autres composants d'analyse de texte, y compris le fractionnement de mots, le regex et les filtres ressemblant à des sons.
Modèle de similarité enfichable par champ
Query


Interface HTTP avec des formats de réponse configurables (XML/XSLT, JSON, Python, Ruby, PHP, Velocity, CSV, binaire).
Trier par nombre quelconque de champs et par fonctions complexes de champs numériques.
Analyseur de requêtes DisMax avancé pour des résultats de haute pertinence à partir de requêtes saisies par l'utilisateur.
Bribes de contexte en surbrillance
Recherche par facettes basée sur des valeurs de champs uniques, des requêtes explicites, des plages de dates, des plages numériques ou des pivots.
Multi-Select Faceting par balisage et exclusion sélective des filtres.
Suggestions d'orthographe pour les requêtes des utilisateurs
Plus comme ceci suggestions pour un document donné
Fonction Requête - influencer le score par des fonctions complexes spécifiées par l'utilisateur des champs numériques ou des scores de pertinence de la requête.
Filtre de plage sur les résultats de l'interrogation de fonction
Date Math - spécifiez les dates relatives à'NOW' dans les requêtes et les mises à jour.
Regroupement dynamique des résultats de recherche à l'aide de Carrot2
Statistiques numériques telles que min, max, moyenne, écart-type, écart-type, etc.
Combiner des requêtes dérivées de différentes syntaxes.
Fonctionnalité d'auto-suggestion pour compléter les requêtes des utilisateurs.
Permet de configurer les meilleurs résultats pour une requête, outrepassant la notation et le triage normaux.
Capacité d'assemblage simple entre deux types de documents
Optimisation des performances
Core


Créez et supprimez dynamiquement des collections de documents sans redémarrer.
Gestionnaires de requêtes enfichables et format de données XML extensible
Fonctions utilisateur enfichables pour Function Query Query
Gestionnaire de requêtes personnalisable à base de composants avec prise en charge de la recherche distribuée
Application de l'unicité des documents sur la base d'un champ clé unique.
Détection des duplicatas, y compris les duplicatas de documents, y compris les duplicatas près des duplicatas.
Chaînes de traitement d'index personnalisées, permettant la manipulation de documents avant l'indexation.
Commandes configurables par l'utilisateur déclenchées lors des changements d'index
Possibilité de contrôler où les documents avec le champ de tri manquant seront placés.
Gestionnaire de requêtes'Luke' pour les informations de corpus.
Caching


Configurable Query Result, Filter, et Document cache instances.
Implémentations Cache enfichables, y compris une implémentation à haute concomitance, sans verrouillage.
Réchauffement de l'antémémoire en arrière-plan
Lorsqu'un nouveau chercheur est ouvert, des recherches configurables sont lancées contre lui afin de le réchauffer et d'éviter les premiers résultats lents.
Réchauffage automatique en arrière-plan
Les éléments les plus récemment consultés dans les caches du chercheur actuel sont repeuplés dans le nouveau chercheur, ce qui permet d'atteindre des taux de réponse élevés dans les changements d'index et de chercheur.
Mise en uvre de filtres rapides/petits filtres
Mise en cache au niveau de l'utilisateur avec support du réchauffement automatique
SolrCloud


Configuration centralisée basée sur Apache ZooKeeper.
Indexation/découpe distribuée automatisée - envoyez les documents à n'importe quel nud et ils seront transmis pour corriger les tessons.
Indexation en temps quasi réel avec réplication immédiate en mode push (prise en charge de la réplication en mode pull plus lente).
Le journal des transactions garantit qu'aucune mise à jour n'est perdue, même si les documents ne sont pas encore indexés sur le disque.
Basculement automatique des requêtes, élection du responsable de l'index et récupération en cas d'échec.
Pas de point de défaillance unique
Interface d'administration


Statistiques complètes sur l'utilisation du cache, les mises à jour et les requêtes.
Navigateur de schéma interactif qui inclut des statistiques d'index.
Surveillance de la réplication
Tableau de bord SolrCloud avec l'état des nuds du cluster graphique.
Contrôle total de l'enregistrement
Débogueur d'analyse de texte, montrant le résultat de chaque étape d'un analyseur.
Interface de requête Web avec sortie de débogage
Sortie de requête analysée
Lucene explain() document score détaillant les détails du document
Expliquer le score des documents en dehors de la plage demandée pour déboguer les raisons pour lesquelles un document donné n'a pas été classé plus haut.

CLIQUEZ ICI pour accéder à ce cours