Suchmaschine: google.uni-koeln.de

Die Suchfunktion auf den Servern der Universität zu Köln wird von "Google Mini", einem fertig installierten Appliance-Rechner, übernommen:

http://www.uni-koeln.de/suche/ (Deutsch)

http://www.uni-koeln.de/suche/index.e.html (Englisch)

Welche Server werden erfasst?

Es werden alle Webserver erfasst, deren Domänen-Namen auf uni-koeln.de enden, und die über eine Linkkette von der Uni-Startseite erreichbar sind. Seiten von Projekt-Servern, zum Beispiel oases.uni-koeln.de werden dann erfasst, wenn das Projekt auf den Seiten eines Instituts verlinkt ist.

Liste aller Uni-Einrichtungen

Nicht erfasst werden Server von Projekten oder Einrichtungen mit Namen außerhalb von uni-koeln.de, zum Beispiel www.amma-germany.de oder www.aegee-koeln.de.
Ausnahme: www.uk-koeln.de  (inklusive Subdomains).

Auch Seiten, die auf einer anderen Domäne angeboten werden (zum Beispiel institut-xy-koeln.de), können in die Suche einbezogen werden. Dazu müssen die Seiten auf einem Server der Uni Köln gehostet und zusätzlich über eine Adresse unterhalb uni-koeln.de (zum Beispiel institut-xy.uni-koeln.de) verlinkt werden.

Ausschluss von Servern - ungültige Verlinkung

Server mit rekursiven Verlinkungen, die zu einer ins Unendliche ansteigenden Seitenzahl führen, sind ungültig und werden von der Suchfunktion ausgeschlossen.

Mögliche Ursachen für die Entstehung rekursiver Verlinkungen:

  • Kalender und Ähnliches
    Typischerweise werden Kalenderseiten dynamisch (durch ein Skript) generiert und enthalten Links jeweils zu einer Zeiteinheit (zum Beispiel Jahr) nach vorne und nach hinten.
    Beispiel: der Kalender von 2011 enthält Links auf den Kalender von 2010 und den von 2012. Diese auch verlinken wieder auf 2009 beziehungsweise 2013 und so weiter. Dadurch kommen praktisch unendlich viele Webseiten zustande. In solchen Fällen kann das problematische Verzeichnis über eine robots.txt-Datei von der Suche ausgeschlossen werden.

  • Symlinks und Redirects
    Per Unix-Symlink oder Redirect ist es möglich, auf ein Verzeichnis zu verweisen, das zwar hinsichtlich der Hierarchie eine Stufe darunter, logisch/physikalisch aber eine oder mehrere Stufen höher liegt. Dadurch kommt es zu einer zyklischen Verlinkung.
    Beispiel: Die Verzeichnisfolge lautet a/b/c, wobei von a nach b und von b nach c verlinkt wird. Wird nun per Symlink oder Redirect von c nach a verwiesen, so entstehen unendliche Folgen a/b/a/b/a/... immer identischer Seiten. In solchen Fällen muss der Symlink beziehungsweise das Redirect entfernt und eine andere Lösung gefunden werden.

Wenn Sie die Probleme nicht selbst beheben können, wenden Sie sich bitte an die Webmaster.

Kontrolle - Erfassung neuer Seiten

Da die Konfiguration von Google umfangreich und kompliziert  ist, wird allen Einrichtungen empfohlen, zu überprüfen, ob ihre Webseiten durch die zentrale Suchmaschine erfasst werden. Bei Problemen wenden Sie sich bitte an die Webmaster

Das Erfassen der Webseiten der Uni Köln ("Crawlen") erfolgt nicht periodisch (zum Beispiel einmal pro Woche), sondern kontinuierlich. Dabei werden stark frequentierte Web-Bereiche häufiger erfasst als andere. Wenn neue Webseiten auch nach einer Woche noch nicht gefunden werden, kann Google manuell darauf aufmerksam gemacht werden. In solchen Fällen wenden Sie sich bitte an die Webmaster.

Gesperrte Verzeichnisse

Falls institutsinterne Seiten von der Suchmaschine erfasst werden, bei denen dies nicht gewünscht ist, gibt es zwei Möglichkeiten des Ausschlusses:

  • In der Datei robots.txt ist auf jedem Webserver vereinbart, welche Verzeichnisse von der Suche auszuschließen sind. Für den zentralen Server www.uni-koeln.de wird diese Datei vom Webmaster verwaltet.
    Für die Projektserver des RRZK kann diese Datei robots.txt von den jeweiligen Administratoren im Web-Wurzelverzeichnis angelegt beziehungsweise modifiziert werden. Für alle anderen Server sind die jeweiligen Webmaster zuständig.

    Anleitung zum Umgang mit robotstxt

  • Ein flexiblerer Ausschluss von der Suche bietet das "Meta-Tag", das in den HTML-Header einer Webseite einzufügen ist:

wenn die Seite selbst nicht erfasst und keine darin enthaltenen Links verfolgt werden sollen:  meta name="robots" content="noindex">  

wenn die Seite selbst erfasst, aber keine darin enthaltenen Links verfolgt werden sollen: <meta name="robots" content="nofollow">

Allerdings werden Seiten unterhalb der "index/Startseite", die "direkt" verlinkt sind, dann dennoch von Google erfasst. Ein kompletter Ausschluss ist nur über das oben angeführt robots.txt möglich.

Alte, nicht mehr verlinkte Seiten

Alte, nicht mehr verlinkte Seiten werden nicht automatisch aus dem Index für die Google-Suche entfernt. Um diese Seiten von der Suchfunktion auszuschließen, gibt es zwei Möglichkeiten:

  • Einzelne Seiten: alte Seiten löschen oder umbenennen.

  • Komplette Verzeichnisse oder Server: alte Seiten den Webmastern melden; diese können dann manuell im Google-Index gelöscht werden.

Lokale Suche - Suche auf Institutsseiten

Viele Uni-Einrichtungen stellen auf ihrer Homepage eine lokale Suchfunktion zur Verfügung, die sich auf die Webseiten der betreffenden Einrichtung beschränkt.

Mehr unter: Institutsinterne Suche

Sprachen

Für fremdsprachige Webauftritte können angepasste Suchseiten („Frontends“) erstellt werden. Die Auswahl des entsprechenden Frontends erfolgt standardmäßig durch die Spracheinstellung des vom Benutzer verwendeten Browsers. Sie kann aber auch gezielt über einen Parameter im Link erfolgen. Das Frontend kann optional so eingestellt werden, dass nur Dokumente in der eingestellten Sprache gesucht werden.

Derzeit wird die zentrale Google-Suche in Deutsch und Englisch angeboten. Von den englischen zentralen Uni-Seiten gelangt man automatisch auf die englische Suchseite. Auf den Ergebnisseiten ist über den entsprechenden Button (rechts oben) ein Sprachwechsel möglich. Über die englische Suchseite wird immer zusätzlich auch in deutschen Dokumenten gesucht.

Die Erkennung der Sprache eines Dokuments erfolgt nicht über HTML-Spezifikationen, sondern durch Google über Texterkennung.

Kontakt

RRZK-Helpdesk
Weyertal 121
50931 Köln
Telefon
(0221) 470-89555
Kontaktformular

Öffnungszeiten