Grundlagen zur Internetrecherche
Als das Internet in den Jahren 1969 bis
1972 seine Geburtsstunde durchmachte, da hätte wohl niemand die folgende
rasante Entwicklung vorherzusagen gewagt. Schon von Beginn an war es als
dezentrales Netz entworfen, in dem Verbindungen zwischen verschiedenen
Computern an verschiedenen Orten hergestellt wurden, ohne dass es einen
„Hauptrechner“ gegeben hat.
Es gibt unterschiedliche Auffassungen
darüber, ob es nun von vorneherein als militärisch Netzwerk geplant
war oder ob man den militärischen Bezug nur herstellte, um auf diese
Weise Gelder für den Aufbau zu erhalten.
Schon bald jedenfalls wurden Universitäten
und wissenschaftliche Einrichtungen angeschlossen und so wurde das Internet
zu einem Datenpool (Sammelstelle für elektronisch verarbeitbare Informationen),
der es den angeschlossenen Institutionen ermöglichte, sich gegenseitig
ihr Wissen zur Verfügung zu stellen und selber auf das Wissen anderer
Institutionen zuzugreifen sowie miteinander zeitnah zu verständigen.
Es wurden unterschiedliche Dienste entwickelt:
-
File Transfer Protocol (FTP): Transfer von
Dateien
-
Archie: Suchdienst für FTP
-
E-Mail: Versand von elektronischer Post an
bestimmte Empfänger
-
Mailing Lists: Diskussionsforen auf Basis
von E-Mail
-
Usenet Newsgroups: Diskussionsforen, die auf
speziellen Servern bereitgehalten werden
-
Internet Relay Chat (IRC): Chat über
geschlossene Kanäle
-
Gopher: Zugriff auf Dokumente, Vorläufer
des WWW
-
Veronica: Suchdienst für den Gopher-Space
-
World Wide Web (WWW): HTML-basierte Dokumente,
die verknüpft sein und multimediale Elemente enthalten können
-
Telnet: Fernsteuern von Computern
-
Wide Area Information Server (WAIS): Datenbankdienst
Lange Zeit blieb die Nutzung des Internet
jedoch akademischen Kreisen vorbehalten, nicht zuletzt dadurch, daß
die Navigation durch das Netz nur mit kryptischen Befehlen (verschlüsselte
Kürzel) möglich war. Dies sollte sich jedoch ändern, als
1989 am Kernforschungsinsitut CERN in Zürich die Hypertext Markup
Language (HTML) als Seitenbeschreibungssprache des World Wide Web (WWW)
sozusagen als grafische Benutzeroberfläche für das Internet entwickelt
wurde, vergleichbar mit Windows als grafischer Benutzeroberfläche
für DOS. Damit war es nun möglich, Text und Grafik in einem Dokument
zu vereinen und mit Verknüpfungen (Links) zu anderen Dokumenten zu
versehen.
Der Browser
Um sich durch das WWW bedienen zu können,
bedurfte es eines „Browser“ genannten Programms. Dieses Programm liest
die Befehle in der HTML-Sprache und setzt sie grafisch um, so dass sie
auf dem Bildschirm zu sehen sind. Am Anfang stand der MOSAIC-Browser, der
im Vergleich zu heutigen Standards jedoch noch sehr einfach und wenig ausgebildet
war. Aus dem MOSAIC-Entwicklungsteam spalteten sich einzelne Entwickler
ab und gründeten die Firma Netscape, deren Browser schnell große
Verbreitung fand, da er dem MOSAIC-Browser überlegen war. Bald darauf
lizenzierte die Firma Microsoft den MOSAIC-Browser, um auf seiner Basis
den Internet Explorer zu entwickeln. Die technische Grundlage war nun also
vorhanden.
Der Internetzugang
Zu dieser Zeit wurden Zugangsmöglichkeiten
vom eigenen Telefon zuhause zum Internet geschaffen.
Zum einen durch klassische Onlinedienste
wie CompuServe, America Online oder BTX (später in Datex-J und dann
in T-Online umbenannt), die zusätzlich zu ihren eigenen Diensten einen
zunächst noch kostenpflichtigen Zugang zum Internet boten.
Zum anderen durch sogenannte Internetprovider,
die im Unterschied zu den Onlinediensten nur den reinen Internetzugang
ohne eigene Inhalte boten. Den Nutzern wurde zudem die Möglichkeit
geboten, sich mit einer eigenen Homepage zu präsentieren, so daß
das Angebot im Internet weiter wuchs.
Verzeichnisse
So wie man bei einem Sachbuch ein Inhaltsverzeichnis
benötigt, so ist es verständlich, daß eine Art Inhaltsverzeichnis
auch für das Internet unumgänglich ist, will man gezielt nach
bestimmten Themen suchen. Hierzu wurden zunächst Verzeichnisse eingerichtet,
wobei es sich im Prinzip um eine Art Bookmarkliste (Lesezeichenliste bzw.
Sammlung von Internet - Adressen) handelt, thematisch gegliedert und mit
einer Suchfunktion über die Datenbank ausgestattet.
Das wohl bekannteste Verzeichnis ist Yahoo!.
Es ist das Ergebnis der Arbeit zweier Studenten, die ihre Bookmarksammlung
als Datenbank durchsuchbar machen wollten. Yahoo! war als Startpunkt bald
so beliebt, daß das Verzeichnis sich als Werbefläche anbot.
Damit stieg der Wert des Unternehmens und der Börsengang machte die
beiden Gründer schließlich zu Milliardären. Inzwischen
gibt es Niederlassungen in verschiedenen Ländern, beispielsweise yahoo.de
für Deutschland mit dem Schwerpunkt auf deutsche Seiten.
Die Besonderheit solcher Verzeichnisse
ist, daß sie manuell geführt sind, d.h. es steht eine Redaktion
dahinter, die jeden Eintrag prüft und erst dann in das Verzeichnis
übernimmt. Ein größeres deutsches Verzeichnis ist beispielsweise
Web.de (nur deutsche Seiten).
Suchmaschinen
Die andere Variante von Inhaltsverzeichnissen
sind die sogenannten Suchmaschinen, wie beispielsweise AltaVista, Excite,
Google, Hotbot, Infoseek, Lycos. Die Entstehungsgeschichten sind
unterschiedlich. Im Fall von AltaVista beispielsweise wollte die Firma
Digital Equipment die Leistungsfähigkeit ihrer Rechner demonstrieren.
In jedem Fall aber sind die Suchmaschinen geeignete Werbeträger, und
viele kleine Suchmaschinen verfolgen wohl auch nur diesen Zweck.
Die in der HTML – Sprache programmierten
Internetseiten haben alle eine Art Vorspann, ehe das eigentliche Webseitenprogramm
anfängt. Dieser Vorspann heißt „Header“. Hier identifiziert
sich der Autor der Internetseite und gibt Stichworte über den Inhalt
der Seite an.
Die Arbeitsweise ist bei allen Suchmaschinen
ähnlich: sie benutzen eine Software, die Crawler, Robot oder Spider
genannt wird und eigenständig das Internet durchforstet (prinzipiell
ist es jedoch auch möglich, daß man eine Seite selber bei einer
Suchmaschine anmeldet). Hierbei wird der Header eines Dokuments ausgewertet.
Entspricht ein Stichwort dem Suchbegriff, wird der Inhalt (volltext)indiziert,
also Wort für Wort verglichen und Links verfolgt. Die Ergebnisse werden
dann automatisch in die Datenbank übernommen.
Es ist verständlich, daß Suchmaschinen
aufgrund der automatischen Suche und der Volltextindizierung in den meisten
Fällen umfangreichere Ergebnisse liefern als handgeführte Verzeichnisse.
Inzwischen zeichnet sich jedoch ein Trend ab, daß Suchmaschinen zusätzlich
Verzeichnisse führen und daß Verzeichnisse die Suche durch Einbindung
von Suchmaschinen erweitern.
Weiterhin zu erwähnen sind zudem
noch Metasuchmaschinen, das sind Suchmaschinen, die eine Frage an mehrere
Suchmaschinen gleichzeitig weiterleiten und deren Antworten dann präsentieren.
Die Suche
Wenn Sie Internetseiten zu einem bestimmten
Thema suchen, dann haben Sie die Wahl, ob Sie sich eines Verzeichnisses
bedienen oder einer Suchmaschine. Generell kann man in etwa folgende Regel
nehmen: Suchen Sie nach einem Begriff, der gängig und eindeutig ist,
und möchten Sie nur wenige relevante Dokumente finden, dann verwenden
Sie hierzu ein Verzeichnis.
Der Vorteil ist, daß Sie zu den
Ergebnissen auch die jeweiligen Rubriken angezeigt bekommen, in denen der
entsprechende Verweis zu finden ist, und daß Sie in diesen Rubriken
dann Verweise zu themenverwandten Dokumenten finden können. Sie müssen
sich dabei jedoch der Tatsache bewußt sein, daß primär
nur Verweise aufgelistet werden, die von den Homepagebetreibern eingereicht
und von den Redakteuren des Verzeichnisses eingetragen wurden und daß
keine Volltextindizierung der Dokumente stattfindet, der Suchbegriff also
vom Autor vorgegeben worden sein muß, d.h. die Auswahl ist dementsprechend
eingeschränkt.
Möchten Sie hingegen eine größere
Auswahl erhalten, möchten Sie nach mehreren Begriffen mit Kombinationen
und/oder Ausschlüssen suchen (was gerade bei mehrdeutigen Begriffen
sinnvoll sein kann), oder erwarten Sie den Suchbegriff in einem Dokument,
ohne daß er zu dessen Hauptthema gehört, dann sind die Suchmaschinen
geeigneter. Wie erwähnt, durchforsten die Suchmaschinen automatisiert
das Internet und nehmen eine umfassendere Indizierung der Dokumente vor,
teilweise werden die ersten Wörter verarbeitet, teilweise das ganze
Dokument.
|