Direkt zum Inhalt
hbz-Homepage
Sie sind hier: Startseite » Dokumentencenter » Presse » Anwenderberichte » Masse mit Klasse. Suchmaschinentechnologie für Bibliotheken

Masse mit Klasse. Suchmaschinentechnologie für Bibliotheken

Document Actions

München, Januar 2006. Von Stefan Müller-Ivok, Redakteur, P-Age die Presse-Agentur GmbH, München.

Die Einträge in Online-Bibliothekskatalogen zählen heute nach Millionen. Spezielle Suchmaschinen sorgen dafür, dass der Nutzer schnell und umfassend mit den passenden Informationen versorgt wird. Auch das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) setzt solche Technologien erfolgreich ein.

30 Millionen Dokumente sind schon jetzt zugänglich, doch das ist erst der Anfang: Der so genannte „Dreiländerkatalog“ gehört sicher zu den ambitioniertesten Dienstleistungen, die das Kölner hbz in über 30 Jahren für Bibliotheken in Nordrhein-Westfalen und anderen Bundesländern realisiert hat. Langfristig soll der Katalog die gesamte wissenschaftliche Literatur im deutschsprachigen Raum nachweisen. Aktuell sind neben den hbz-Daten die des Bayerischen Bibliotheksverbundes und des Österreichischen Bibliothekenverbundes zu finden.

Dreh- und Angelpunkt des Katalogs ist eine Anwendung, die im März 2005 als „hbz-Suchmaschine“ vorgestellt wurde. Die Plattform orientiert sich in Funktionalität und Layout an gängigen Web-Suchmaschinen. Die Suchresultate werden per Ranking nach Relevanz sortiert und können nach verschiedenen Kriterien angezeigt oder eingeschränkt werden, etwa Autor und Erscheinungsjahr. Die Anwendung basiert auf der Software FAST Data Search des norwegischen Unternehmens Fast Search & Transfer (FAST).

Die Suchmaschinentechnologie soll künftig auch bei einem zweiten Großprojekt eingesetzt werden, an dem das hbz maßgeblich beteiligt ist: dem interdisziplinären Internetportal für wissenschaftliche Information in Deutschland, „vascoda“. Das hbz ist dabei für den technischen Betrieb und die Weiterentwicklung des Portals zuständig. Am Projekt, das vom Bundesministerium für Wissenschaft und Forschung (BMBF) und der Deutschen Forschungsgemeinschaft (DFG) gefördert wird, beteiligen sich derzeit 40 Einrichtungen mit rund 35 Angeboten, das sind meist nach Fachgebieten geordnete Verzeichnisse für die Online-Recherche.

Kurze Antwortzeiten


"Nutzer von Online-Bibliothekskatalogen sind heute Google-verwöhnt, das heißt, wie bei einer Web-Suche erwarten sie umfangreiche Resultate in Sekundenbruchteilen“, erklärt Dr. Peter Kostädt, stellvertretender Leiter des hbz. „Wir stellen in der Tat immer wieder fest, dass Suchvorgänge schon abgebrochen werden, wenn sie nach zwei, drei Sekunden keine Ergebnisse liefern“.

Begründen lässt sich das mit der Funktionsweise herkömmlicher Rechercheanwendungen für Bibliothekskataloge und Fachdatenbanken, zum Beispiel Metasuchen in Portalen, die verschiedene Datenquellen ansprechen. Der Nutzer gibt eine Anfrage ein. Sie wandert an die unterschiedlichen Zieldatenbanken. Von dort kommen die einzelnen Suchergebnisse zurück, werden in ein einheitliches Präsentationsformat gebracht und in einer Ergebnisliste zusammengefasst. „Das Verfahren erlaubt zwar die gleichzeitige Suche über verschiedene Ressourcen, ohne dass der Anwender die Suchmaske wechseln muss“, erklärt Kostädt. „Allerdings können die Resultate erst zusammengestellt und sortiert werden, wenn die langsamste Datenbank geantwortet hat. Läuft die Metasuche über mehrere hundert Datenbanken, kann es also entsprechend dauern, bis die komplette Liste beim Nutzer ankommt“.

Alles in einem Topf


Dieses Problem besteht bei Suchmaschinen wie FAST Data Search nicht. Sie sammeln die Daten nicht bei einzelnen Ressourcen ein, sondern durchkämmen einen einzigen großen Index, der alle Verzeichniseinträge der beteiligten Bibliotheken oder Verbünde enthält. Es kostet die hbz-Suchmaschine gerade den Bruchteile einer Sekunde, um über 63.000 Einträge zum Stichwort „Goethe“ aus dem Dreiländerkatalog zu filtern. Beim Dreiländerkatalog verteilt sich der Index auf zwölf Rechner. „Kommen neue Verzeichnisdaten hinzu, was bei solchen langfristigen Projekten ja ständig passiert, kann sie FAST im laufenden Betrieb in die Recherche aufnehmen“, nennt hbz-Experte Kostädt einen weiteren Vorteil der Suchmaschine. Die wichtigsten Datenbanken aktualisiert das hbz einmal pro Woche mit neuen Einträgen.

Sprachgefühl

Nicht nur bei der Performance punktet die Technologie. In einer Nutzerumfrage zum vascoda-Portal durch die Universitäts- und Landesbibliothek (ULB) Münster stießen besonders die Formulierungsmöglichkeiten für Suchanfragenragen auf Kritik. Wurde nach „Medikament“ gesucht, ließen sich Begriffsvarianten nur über ODER-Verknüpfungen einbinden: „Medikament ODER Medikamente“. Derart angereicherte Suchanfragen verlängerten bei den meisten Datenbanken die Antwortzeit erheblich.

Das Problem beseitigt die FAST-Technologie, indem schon bei der Indexierung linguistische Verfahren zur Anwendung kommen, die wiederum auf Wörterbücher zugreifen können. Sie berücksichtigen nicht nur den tatsächlich eingegebenen Begriff, sondern auch flektierte Formen, Komposita, Übersetzungen usw. Zum eigentlich gesuchten „Medikament“ gibt das System dann automatisch Einträge etwa zu „Arzneimittelverordnung“, „Medikamentenmissbrauch“, „Drug“ und „Drugs“ aus. „Diese Fähigkeit ist ganz entscheidend, denn in den meisten Fällen wählt der Nutzer zunächst einen möglichst allgemeinen Oberbegriff bei der Themenrecherche, während das, was er eigentlich sucht, in einem ganz anderen Kontext steckt“, sagt Kostädt. „Die linguistische Kompetenz des Systems führt ihn dann quasi voraus denkend auf die richtige Spur“. Das ist auch bei Tippfehlern des Nutzers der Fall. Die Anwendung schlägt dann automatisch den offensichtlich gemeinten Suchbegriff vor.

Häufig, aber auch wichtig?


Geht es darum, die Resultate nach ihrer Relevanz zu bewerten, haben Suchmaschinen gegenüber traditionellen Recherchemethoden ebenfalls die Nase vorn. Dort werden die Treffer in der Regel nur nach „isolierten“ Kriterien wie Publikationsjahr, Autor, Verlag etc. ausgegeben. Aussagen zur tatsächlichen Relevanz des Titels kann der Anwender daraus nicht unbedingt ableiten. Ein Fachbuch von 1980 ist nicht zwingend veraltet. Genauso wenig ist der Autor mit den meisten Titeln immer der Garant für die beste Information zum Thema.

Mehr Aussagekraft zur Relevanz eines Eintrags entsteht durch ein qualifiziertes Ranking, etwa über eine Volltextsuche, die die Anzahl der Querverweise auf den Titel in Abstracts und Fachaufsätzen bewertet. Je öfter darauf verwiesen wird, desto höher ist die Wahrscheinlichkeit, dass die Publikation im jeweiligen Fachgebiet maßgeblich ist. Dabei bringt die FAST-Technologie einen großen Vorteil gegenüber Internet-Suchmaschinen mit, die nach ähnlichem Muster arbeiten: „Dort liefert die Suche zwar viele Resultate, bleibt aber häufig an der Oberfläche, denn die Suchwerkzeuge dringen gar nicht in alle Ebenen einer Webseite vor, das so genannte Deep Web“, erklärt Kostädt. „Das ist bei unserer Suchmaschine anders. Wir bieten ihr von vornherein einen Pool aus strukturierten Daten an und sorgen dafür, dass er vollständig durchsucht und bewertet werden kann. Sind die entsprechenden Rankingalgorithmen einmal definiert, lassen sie sich äußerst einfach in FAST umsetzen, was die Nutzung besonders flexibel macht“. Dazu gehört auch die Option, Datenbanken gezielt abzuschalten oder hinzuzufügen. „Das ist vor allem für fortgeschrittene Nutzer ein großer Vorteil, die schon genau wissen, wonach sie suchen wollen“, ergänzt Kostädt. „Sie müssen sich dann nicht mehr ‚händisch’ durch die meistens sehr umfangreiche Trefferliste einer Kategorie arbeiten“.

Ausblick


Im vascoda-Projekt soll FAST langfristig als übergeordnete Suchsoftware für die Verzeichnisse der unterschiedlichen Fachdisziplinen zum Einsatz kommen und schon vorhandene Suchtechnologien ablösen. In einem ersten Schritt plant das hbz derzeit die Einbindung der Virtuellen Fachbibliothek Wirtschaftswissenschaften EconBiz in die Suchmaschine.

Weblinks


Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz): http://www.hbz-nrw.de

Dreiländerkatalog: http://suchen.hbz-nrw.de/dreilaender/

vascoda: http://www.vascoda.de       


Erschienen in: Geschichte und Zukunft von Information und Wissen. Wissenschaftliche Zeitschrift der Technischen Universität Dresden, 1-2/2006, S. 98-100.