Suchmaschine
Beschreibung der Basiskomponente Suchmaschine
Die E-Government-Plattform stellt mit der Basiskomponente Suchmaschine (BaK SM) eine Infrastruktur zur Erschließung (Indizierung, Kategorisierung etc.) des gesamten Spektrums unstrukturierter und strukturierter Datenbestände von Hypertextmedien, über Office-Dokumente bis hin zu georeferenzierten Datenquellen zur Verfügung.
Teilkomponenten und Funktionen
Die Suchmaschine ist eine Software, die einen Index für eine spezifizierte Dokumentbasis erstellt, um Suchanfragen mittels Schlüsselwörtern und Gewichtungsalgorithmen (auch bei dezentraler Datenhaltung) zentral mit einer nach Relevanz geordneten Trefferliste zu beantworten.
Die verwandte HP IDOL-Software unterstützt zurzeit etwa 400 Dateiformate. Die Suchmaschine verwendet einen informationstheoretischen Algorithmus, um die Relevanz (Recall und Precision) der Ergebnislisten zu erhöhen.
Die BaK SM bietet folgende Funktionen an:
- Stichwortsuche mit Unterstützung von Booleschen Operatoren wie AND, OR, NOT, NEAR, DNEAR, SOUNDEX, FUZZY, RANGE, etc.,
- Sortierung nach Relevanz und/oder frei wählbaren Metadatenfeldern,
- Einschränkung des Ergebnisraums durch sukzessive Auswahl von Metadatenausprägungen (Parametrische Suche),
- Individuelle Gewichtung einzelner Stichworte, Datenfelder oder Dokumente,
- Relevanzmessung, abhängig von der Nähe eines Wertes zum Zielwert,
- Unterstützung von Nutzerfeedback zur Beeinflussung der Suchergebnisse,
- Musterbasiertes Finden ähnlicher Dokumente,
- Sortierung von Ergebnissen in Gruppen ähnlicher Dokumente zur besseren Überschaubarkeit der Suchergebnisse.
Nutzer und gegenwärtige Einsatzbereiche
Für Verwaltungskunden und Verwaltungen:
- Durchsuchen von Hypertextmedien (Internetauftritten, Intra- und Extranetzen)
- Durchsuchen von anderen Fileservern
- Durchsuchen von Datenbanken
- Gleichzeitiges Durchsuchen mehrerer Datenquellen
- Integration in andere Anwendungen, z. B. über API (application programming interface, eine Programmschnittstelle)
- Möglichkeit der Ergänzung der Metadaten einzelner Dokumente / Datensätze durch Tags, Bewertungen durch eine zentrale Redaktion oder Nutzer
- Flexibele Berücksichtigung der nutzerspezifischen Leserechte der Quellsysteme
- Flexibilität in der Oberflächengestaltung
- Beeinflussbarkeit des Relevanzmodells (z. B. nach Nutzerverhalten oder für Empfehlungen)
- Auffinden von Personen und Expertise in der Organisation
Schnittstellen
Die Suchmaschine nimmt u. a. Suchanfragen von anderen BaK und Anwendungen (auch BaK) über eine XML-Schnittstelle entgegen, sie greift auf das Quellsystem zu und stellt die Ergebnisse über die XML-Schnittstelle zur Verfügung, sodass die Informationen durch die entsprechenden Andwendung weiterverarbeitet werden können.
Die Basiskomponenten der E‑Government‑Plattform und andere Anwendungen implementieren in den meisten Fällen die Präsentationsschicht der Suchmaschine als Suchmaske. Für die Indexierung der Suchergebnisse gibt es verschiedene Möglichkeiten:
Fall 1): Über den HTTP-Konnektor werden Inhalte per Crawling eingelesen. Hierfür kann auf öffentliche Webseiten zugegriffen werden, oder die entsprechenden Inhalte, welche auf der Plattform liegen, werden über eine spezielle Sitemap mit Links zu allen relevanten Dokumenten erschlossen, welche die jeweilige BaK oder das Fachverfahren bereitstellt.
Fall 2): Es werden Konnektoren zu anderen Applikationstypen (Datenbanken, E-Mail-Systeme etc.) eingesetzt (in der Regel sind die Konnektoren bereits lizenziert).
Fall 3): Eigene JSON-Schnittstellen werden implementiert, über die Inhalte für die Indexierung aufbereitet und dem eigentlichen Data Operation Layer zur Verfügung gestellt werden, der die Suche ausführt. Über die Adapterschicht können beliebige Schnittstellen bedarfsspezifisch programmiert und angeboten werden.
Derzeit werden die Funktionen der BaK SM in Verbindung mit folgenden Basiskomponenten eingesetzt: BaK WH – Teilkomponente Live-Server, BaK Amt24, Beständeübersicht des sächsischen Staatsarchivs und GeoBaK.