Grundlagen zur Internetrecherche
 

Als das Internet in den Jahren 1969 bis 1972 seine Geburtsstunde durchmachte, da hätte wohl niemand die folgende rasante Entwicklung vorherzusagen gewagt. Schon von Beginn an war es als dezentrales Netz entworfen, in dem Verbindungen zwischen verschiedenen Computern an verschiedenen Orten hergestellt wurden, ohne dass es einen „Hauptrechner“ gegeben hat.
Es gibt unterschiedliche Auffassungen darüber, ob es nun von vorneherein als militärisch Netzwerk geplant war oder ob man den militärischen Bezug nur herstellte, um auf diese Weise Gelder für den Aufbau zu erhalten.
Schon bald jedenfalls wurden Universitäten und wissenschaftliche Einrichtungen angeschlossen und so wurde das Internet zu einem Datenpool (Sammelstelle für elektronisch verarbeitbare Informationen), der es den angeschlossenen Institutionen ermöglichte, sich gegenseitig ihr Wissen zur Verfügung zu stellen und selber auf das Wissen anderer Institutionen zuzugreifen sowie miteinander zeitnah zu verständigen.

Es wurden unterschiedliche Dienste entwickelt:

  • File Transfer Protocol (FTP): Transfer von Dateien
  • Archie: Suchdienst für FTP
  • E-Mail: Versand von elektronischer Post an bestimmte Empfänger
  • Mailing Lists: Diskussionsforen auf Basis von E-Mail
  • Usenet Newsgroups: Diskussionsforen, die auf speziellen Servern bereitgehalten werden
  • Internet Relay Chat (IRC): Chat über geschlossene Kanäle
  • Gopher: Zugriff auf Dokumente, Vorläufer des WWW
  • Veronica: Suchdienst für den Gopher-Space
  • World Wide Web (WWW): HTML-basierte Dokumente, die verknüpft sein und multimediale Elemente enthalten können
  • Telnet: Fernsteuern von Computern
  • Wide Area Information Server (WAIS): Datenbankdienst

Lange Zeit blieb die Nutzung des Internet jedoch akademischen Kreisen vorbehalten, nicht zuletzt dadurch, daß die Navigation durch das Netz nur mit kryptischen Befehlen (verschlüsselte Kürzel) möglich war. Dies sollte sich jedoch ändern, als 1989 am Kernforschungsinsitut CERN in Zürich die Hypertext Markup Language (HTML) als Seitenbeschreibungssprache des World Wide Web (WWW) sozusagen als grafische Benutzeroberfläche für das Internet entwickelt wurde, vergleichbar mit Windows als grafischer Benutzeroberfläche für DOS. Damit war es nun möglich, Text und Grafik in einem Dokument zu vereinen und mit Verknüpfungen (Links) zu anderen Dokumenten zu versehen.

Der Browser
Um sich durch das WWW bedienen zu können, bedurfte es eines „Browser“ genannten Programms. Dieses Programm liest die Befehle in der HTML-Sprache und setzt sie grafisch um, so dass sie auf dem Bildschirm zu sehen sind. Am Anfang stand der MOSAIC-Browser, der im Vergleich zu heutigen Standards jedoch noch sehr einfach und wenig ausgebildet war. Aus dem MOSAIC-Entwicklungsteam spalteten sich einzelne Entwickler ab und gründeten die Firma Netscape, deren Browser schnell große Verbreitung fand, da er dem MOSAIC-Browser überlegen war. Bald darauf lizenzierte die Firma Microsoft den MOSAIC-Browser, um auf seiner Basis den Internet Explorer zu entwickeln. Die technische Grundlage war nun also vorhanden.

Der Internetzugang
Zu dieser Zeit wurden Zugangsmöglichkeiten vom eigenen Telefon zuhause zum Internet geschaffen.
Zum einen durch klassische Onlinedienste wie CompuServe, America Online oder BTX (später in Datex-J und dann in T-Online umbenannt), die zusätzlich zu ihren eigenen Diensten einen zunächst noch kostenpflichtigen Zugang zum Internet boten.
Zum anderen durch sogenannte Internetprovider, die im Unterschied zu den Onlinediensten nur den reinen Internetzugang ohne eigene Inhalte boten. Den Nutzern wurde zudem die Möglichkeit geboten, sich mit einer eigenen Homepage zu präsentieren, so daß das Angebot im Internet weiter wuchs.

Verzeichnisse
So wie man bei einem Sachbuch ein Inhaltsverzeichnis benötigt, so ist es verständlich, daß eine Art Inhaltsverzeichnis auch für das Internet unumgänglich ist, will man gezielt nach bestimmten Themen suchen. Hierzu wurden zunächst Verzeichnisse eingerichtet, wobei es sich im Prinzip um eine Art Bookmarkliste (Lesezeichenliste bzw. Sammlung von Internet - Adressen) handelt, thematisch gegliedert und mit einer Suchfunktion über die Datenbank ausgestattet.
Das wohl bekannteste Verzeichnis ist Yahoo!. Es ist das Ergebnis der Arbeit zweier Studenten, die ihre Bookmarksammlung als Datenbank durchsuchbar machen wollten. Yahoo! war als Startpunkt bald so beliebt, daß das Verzeichnis sich als Werbefläche anbot. Damit stieg der Wert des Unternehmens und der Börsengang machte die beiden Gründer schließlich zu Milliardären. Inzwischen gibt es Niederlassungen in verschiedenen Ländern, beispielsweise yahoo.de für Deutschland mit dem Schwerpunkt auf deutsche Seiten.
Die Besonderheit solcher Verzeichnisse ist, daß sie manuell geführt sind, d.h. es steht eine Redaktion dahinter, die jeden Eintrag prüft und erst dann in das Verzeichnis übernimmt. Ein größeres deutsches Verzeichnis ist beispielsweise Web.de (nur deutsche Seiten).

Suchmaschinen
Die andere Variante von Inhaltsverzeichnissen sind die sogenannten Suchmaschinen, wie beispielsweise AltaVista, Excite, Google, Hotbot, Infoseek, Lycos. Die Entstehungsgeschichten sind unterschiedlich. Im Fall von AltaVista beispielsweise wollte die Firma Digital Equipment die Leistungsfähigkeit ihrer Rechner demonstrieren. In jedem Fall aber sind die Suchmaschinen geeignete Werbeträger, und viele kleine Suchmaschinen verfolgen wohl auch nur diesen Zweck.
Die in der HTML – Sprache programmierten Internetseiten haben alle eine Art Vorspann, ehe das eigentliche Webseitenprogramm anfängt. Dieser Vorspann heißt „Header“. Hier identifiziert sich der Autor der Internetseite und gibt Stichworte über den Inhalt der Seite an.
Die Arbeitsweise ist bei allen Suchmaschinen ähnlich: sie benutzen eine Software, die Crawler, Robot oder Spider genannt wird und eigenständig das Internet durchforstet (prinzipiell ist es jedoch auch möglich, daß man eine Seite selber bei einer Suchmaschine anmeldet). Hierbei wird der Header eines Dokuments ausgewertet. Entspricht ein Stichwort dem Suchbegriff, wird der Inhalt (volltext)indiziert, also Wort für Wort verglichen und Links verfolgt. Die Ergebnisse werden dann automatisch in die Datenbank übernommen.

Es ist verständlich, daß Suchmaschinen aufgrund der automatischen Suche und der Volltextindizierung in den meisten Fällen umfangreichere Ergebnisse liefern als handgeführte Verzeichnisse. Inzwischen zeichnet sich jedoch ein Trend ab, daß Suchmaschinen zusätzlich Verzeichnisse führen und daß Verzeichnisse die Suche durch Einbindung von Suchmaschinen erweitern.
Weiterhin zu erwähnen sind zudem noch Metasuchmaschinen, das sind Suchmaschinen, die eine Frage an mehrere Suchmaschinen gleichzeitig weiterleiten und deren Antworten dann präsentieren.

Die Suche
Wenn Sie Internetseiten zu einem bestimmten Thema suchen, dann haben Sie die Wahl, ob Sie sich eines Verzeichnisses bedienen oder einer Suchmaschine. Generell kann man in etwa folgende Regel nehmen: Suchen Sie nach einem Begriff, der gängig und eindeutig ist, und möchten Sie nur wenige relevante Dokumente finden, dann verwenden Sie hierzu ein Verzeichnis.
Der Vorteil ist, daß Sie zu den Ergebnissen auch die jeweiligen Rubriken angezeigt bekommen, in denen der entsprechende Verweis zu finden ist, und daß Sie in diesen Rubriken dann Verweise zu themenverwandten Dokumenten finden können. Sie müssen sich dabei jedoch der Tatsache bewußt sein, daß primär nur Verweise aufgelistet werden, die von den Homepagebetreibern eingereicht und von den Redakteuren des Verzeichnisses eingetragen wurden und daß keine Volltextindizierung der Dokumente stattfindet, der Suchbegriff also vom Autor vorgegeben worden sein muß, d.h. die Auswahl ist dementsprechend eingeschränkt.
Möchten Sie hingegen eine größere Auswahl erhalten, möchten Sie nach mehreren Begriffen mit Kombinationen und/oder Ausschlüssen suchen (was gerade bei mehrdeutigen Begriffen sinnvoll sein kann), oder erwarten Sie den Suchbegriff in einem Dokument, ohne daß er zu dessen Hauptthema gehört, dann sind die Suchmaschinen geeigneter. Wie erwähnt, durchforsten die Suchmaschinen automatisiert das Internet und nehmen eine umfassendere Indizierung der Dokumente vor, teilweise werden die ersten Wörter verarbeitet, teilweise das ganze Dokument.