Das SSG-FI-System

Eine einheitliche Beschreibung wissenschaftlicher Informationen

Thomas Fischer, SUB Göttingen

Das SSG-FI System ist ein System zur Beschreibung wissenschaftlicher Informationen im Internet, auf CD-ROM oder in Büchern. Beschrieben werden sollen typischerweise Metainformationen, also nicht einzelne Texte oder Quellen, sondern Informationsvermittler, die auf solche Informationen verweisen oder sie beinhalten. Das heißt, daß im Bereich Internet thematische Server beschrieben werden, und im Bereich gedruckter Informationen Bibliographien, Zeitschriften oder ähnlich allgemeine Texte; einzelne CD-ROMs werden i.A. als eine Einheit beschrieben, es können aber auch zusammenhängende CD-ROMs als eine Datenquelle erfaßt werden.

1. Kategorien zur Beschreibung wissenschaftlicher Informationsquellen

Zur Beschreibung dieser Informationsquellen werden ca. 40 Kategorien benutzt, die weitgehend an den Kategorien von Dublin Core orientiert sind. Diese SSG-FI-Kategorien sind in acht Bereiche eingeteilt: Bibliographische Daten, Klassifikation, zeitliche Daten, Verfügbarkeit, Bewertung, Statistik und interne Kategorien (siehe Anhang 5.1).

Diese Kategorien sind deswegen an Dublin Core ausgerichtet, weil dies derzeit der international erfolgreichste Versuch ist, einen einheitlichen Standard zur Beschreibung von Informationsquellen zu entwickeln. Der Dublin Core-Standard ist einerseits einfach genug, daß er auch für Laien handhabbar bleibt, und andererseits hinreichend komplex, um vielfältige Informationen aufnehmen und organisieren zu können (siehe Anhang 5.2).

Nach dem benutzten Medium werden die Informationsquellen unterschieden in on(line) = Internet, off(line) = CD-ROM, pr(inted) = Buch/ Zeitschrift. Die Art dieser Quellen wird durch den Source Type (Formal Key) klassifiziert, mit dem versucht wird, eine für alle drei Bereiche und alle Fächer einheitliche Kategorisierung wissenschaftlicher Informationsquellen zu leisten (siehe Anhang 5.3). Die fachliche Klassifikation erfolgt hingegen fachspezifisch, darum kann hier auch keine Vorlage geliefert werden. Für einige Einträge werden Tabellen internationaler Standardabkürzungen benutzt: ISO 639-1 für das Land, ISO 3166 für die Sprache (siehe Anhang 5.4 und 5.5).

Diese Daten werden in einer Datenbank gesammelt und über Internet allgemein zugänglich gemacht. Dazu dienen die vorliegenden Dateien. Die Dokumente des SSG-FI-Projektes bestehen aus zwei Bereichen: dem Bereich der Datensammlung und ­verwaltung und dem Bereich der Datenpräsentation. Während die Verwaltung der Daten unter Windows 95 bzw. NT (evtl. auch unter MS-DOS) mit einer Allegro-Datenbank geschieht (Kapitel 2), wird zur Präsentation ein Internet-Server benötigt, der die produzierten HTML-Dateien allgemein zugänglich macht (Kapitel 3). Das ist prinzipiell mit einem Server unter einem beliebigen Betriebssystem möglich, an der SUB Göttingen benutzen wir dazu einen LINUX-Server. Für den Export aus der Allegro-Datenbank in den Internet-Bereich ist wiederum Allegro zuständig (Kapitel 4).

Für den Aufbau eines Fachinformationsführers nach dem SSG-FI-Muster werden Dateien und Dateistrukturen benötigt, die im folgenden erläutert werden. Ich beginne mit den Dateien, die für den Aufbau der Allegro-Datenbank notwendig sind, dann folgt die Beschreibung der Serverstruktur und zuletzt die der Dateien, die für den Export der Allegro-Daten benutzt werden, da in diesen Bezug auf die Serverstruktur genommen wird.

2. Datensammlung und ­verwaltung: das Allegro-System

In der Beschreibung des Allegro-Systems des SSG-FI-Projektes gehe ich davon aus, daß ein funktionierendes Allegro152-System vorliegt, das heißt, daß zumindest die Programme ACP, PRESTO, SRCH, IMPORT, INDEX, QRIX, ASORT und UPDATE sowie die zugehörigen Dateien in einem Ordner, dem Programmordner (= Programmpfad), installiert sind. In diesem Ordner wird der Datenordner (= Datenbankpfad) eingerichtet, dessen Inhalt im folgenden beschrieben wird. Diese Einrichtung erfolgt typischerweise für ein spezielles (Sondersammel-) Gebiet, daher sollte der Name des Ordners auf dieses Gebiet verweisen. Da der Name aber auch in verschiedenen DOS-Dateinamen auftaucht, empfiehlt es sich, eine Kurzform zu wählen; in Göttingen benützen wir zum Beispiel Geo für die Geowissenschaften und Math für die Mathematik. Ich werde im folgenden dafür XYZ einsetzen, damit klar wird, welche Dateien wie anzupassen sind.

Eine weitere veränderliche Größe ist die benutzte fachliche Klassifikation, die möglichst einem internationalen Standard entsprechen und umfangreich genug sein sollte, um die verschiedenen Informationstypen klassifizieren zu können. In Göttingen wird dazu im Mathematikbereich die Mathematics Subject Classification von 1991 benutzt (MSC 91), für den geowissenschaftlichen Bereich und den Anglo-Amerikanischen Kulturraum die Göttinger Online Klassifikation (GOK). Ich benutze im folgenden das Kürzel KAT für die Bezeichnung einer generischen Primärklassifikation, die jeweils an die lokalen und fachlichen Bedingungen angepaßt werden muß. Im SSG-FI ist außerdem die Klassifikation nach Dewey (Dewey Decimal Classification, DDC) und nach der Basisklassifikation (BK) des Gemeinsamen Bibliotheksverbundes (GBV) vorgesehen; beide könnten auch als Primärklassifikation eingesetzt werden, wenn die benutzten Dateien entsprechend angepaßt werden. Diese Klassifikation ist von zentraler Bedeutung, da sie über den Subject Guide zum Einstieg in den SSG-FI-Bereich genutzt wird.

Als Zeichensatz wird vom SSG-FI-System der MS-DOS-Zeichensatz verwendet, der für die Internet-Darstellung in den entsprechenden HTML-Code umgesetzt wird und als Latin-1 von allen Browsern auf allen Computersystemen dargestellt werden kann. Wenn viele Informationen aus Ländern vorliegen, deren Buchstaben mit Latin­1 nicht erfaßt werden, müßte allerdings sowohl die Allegro-Datenbank als auch die Umsetzung verändert werden. Außerdem führt diese Einstellung dazu, daß bei den benutzten allgemeinen Allegro-Dateien, insbesondere der Sortierdatei S1.ASP (von SRCH benutzt) auf die Konsistenz der benutzten Zeichensätze zu achten ist: da das SSG-FI-System den MS-DOS-Zeichensatz benutzt, müssen die Sortierdateien darauf eingestellt sein.

2.1 Die Grunddateien

Die Allegro-Dateien sind Textdateien mit dem MS-DOS-Zeichensatz. Sie können mit jedem Texteditor bearbeitet werden, nur bei Sonderzeichen (Umlaute etc.) kann leicht Unvorhergesehenes passieren, das hat aber keine Auswirkungen auf das Funktionieren des Systems, sondern nur auf die Anzeige. Die wichtigsten Dateien sind die Konfigurationsdatei, die die Kategorien der Datenbank festlegt, und die Indexdatei, die die Indizierung steuert. Wie im MS-DOS-System üblich, wird der Typ der Datei durch eine dreibuchstabige Endung festgelegt, bei der nicht zwischen Groß- und Kleinbuchstaben unterschieden wird Der Name der Dateien ist frei wählbar (im Rahmen der 8.3-Konvention: bis zu acht Buchstaben, keine Sonder- oder Leerzeichen), wir benutzen Namen, die auf das bearbeitete Gebiet verweisen. Nach Allegro-Konvention gilt der erste Buchstabe des Namens der Konfigurationsdatei als Kennbuchstabe und tritt bei allen zugehörigen Dateityp-Endungen als erster Buchstabe auf. Dieser Buchstabe ist bei unserer Konfiguration g. Bevor die Dateien im einzelnen kurz beschrieben werden, ist hier eine vollständige Auflistung:
die Konfigurationsdatei GXYZ.CFG
die Indexdatei XYZ.GPI
die BildschirmanzeigeD-1.GPR
Mit diesen Dateien wird die Datenbank XYZ von Allegro aufgebaut und verwaltet. Dazu legt Allegro die folgenden Dateien an:
die DatenbankdateiXYZ_1.GLD
die SatztabelleXYZ.TBL
die IndexdateiXYZ.GDX
das KurztitelregisterXYZ.STL
die LogdateiXYZ.log

Diese werden nicht einzeln angesprochen, sondern von Allegro als eine Einheit behandelt. Zentral ist die Datenbankdatei XYZ_1.GLD, in der die eingetragenen Datensätze gespeichert sind, aus dieser können Index, Satztabelle und Kurztitelregister jederzeit (und in Sekundenschnelle) wieder neu erzeugt werden. Nur wenn XYZ_1.GLD versehentlich zerstört oder gelöscht wurde, kann aus der Logdatei und einer Sicherungsversion von XYZ_1.GLD (die vom Benutzer angelegt werden muß!) die Datenbank wieder regeneriert werden.

Die Einträge eines Datensatzes werden in der üblichen Anzeige entweder mit Namen oder mit Nummer der Kategorie unter einander angegeben und können so auch bearbeitet werden. Zum schnellen Auffinden einzelner Einträge sind die Register da: In jedem Register werden die Einträge einer oder mehrerer Kategorien gesammelt und sortiert angezeigt. Dadurch kann leicht überblickt werden, ob es zu einem Wert (z.B. einer URL) schon Einträge gibt oder ob die Einträge in einem Bereich formal richtig sind. Die Register erlauben auch einen anderen Blick auf die Datenbank: Das gewählte Register bestimmt die Reihenfolge der Dokumente beim Durchblättern der Datenbank, so daß z.B. durch Wahl des Registers 9 alle Dokumente aus Deutschland hintereinander angezeigt werden.

Zusätzlich werden einige Register zur Übersetzung von Abkürzungen und Schlüsseln benutzt, um Sprachen und Länder mit Namen statt ISO-Code anzuzeigen. In der im SSG-FI-Projekt benutzten Konfiguration (XYZ.GPI, s.u.) werden die Register wie folgt belegt (das kann aber an die eigenen Bedürfnisse angepaßt werden):

Register-Nr.Inhalt
1Titel
2Formalschlüssel
3Klassifikation
4URL
5Veröffentlichungsdatum
6Erfassungsdatum; Dekodierung Formal- und Themenschlüssel
7Status, Niveau, Kommentar; Dekodierung Länder- und Sprachcode
8Sprache
9Land
10Nummer
11Typ, Zeitrahmen

Die Einstellungsdateien selbst sind mit umfangreichen Kommentaren versehen, die die Funktion und Bedeutung einzelner Einträge erklären. Die Dateien müssen für den jeweiligen Zweck angepaßt werden, die entsprechenden Stellen sind mit "Anpassen:" markiert und mit einer Erläuterung versehen. Die einzelnen Dateien haben die folgende Bedeutung:

GXYZ.CFG:
Dies ist die Konfigurationsdatei. Hier werden die Kategorien des SSG-FI-Systems festgelegt: Welche zulässig sind, wie sie heißen, wie sie abgefragt werden und welche als notwendig gelten. Die Datei besteht zunächst aus einem einleitenden Abschnitt, in dem einige Allegro-Grundeinstellungen festgelegt werden, der Liste der erlaubten Kategorien und einigen Konfigurationsbefehlen. Schließlich folgt die recht umfangreiche Abfrageliste, die durchgegangen wird, wenn ein neuer Datensatz aufgenommen wird. Hier legt ein "!" an der ersten Stelle nach der Kategorienummer eine zwingende Eingabe fest, außerdem können Standardvorgaben eingetragen werden, z.B. "en" für Sprache und "US" für Land. Am Anfang steht eine Abfrage nach dem Typ der Informationsquelle, dadurch können einige Einstellungen festgelegt werden. Nach diesem speziellen Teil springt das Programm in den allgemeinen Teil der Liste. Diese Liste kann und sollte den Bedürfnissen des jeweiligen Bereiches angepaßt werden.
Anzupassen ist die Bezeichnung der primären Klassifikation KAT, eventuell können auch Voreinstellungen anders gesetzt werden.
XYZ.GPI:
Die Indexparameterdatei, legt fest, welche Register wie angelegt werden: Der Name der Überschriften der elf möglichen Register und ihr Inhalt wird hier angegeben. Die Datei kann im Prinzip nach Belieben verändert werden, aber die Exportprogramme (s.u.) gehen davon aus, daß in Register 7 die Übersetzung des Länder- und des Sprachcodes steht und im Register 6 die des Formal- und des Themenschlüssels. Die Datei enthält außerdem einen "Hilfsabschnitt zur Validierung", der dazu dient, beim Einfügen von Text in die Kategorien 19 und 20 der Allegro-Datenbank etwaige auftretende Zeilenwechsel abzufangen.
Anpassungen sind nicht notwendig.
D-1.GPR:
Die Bildschirmanzeigedatei enthält die Namen der SSG-FI-Kategorien und kann individuell angepaßt werden, insbesondere sollte die generische Klassifikationsbezeichnung KAT durch die jeweilige benutzte ersetzt werden (z.B. GOK bzw. GOKverbal).

2.2 Der Aufruf der Allegro-Datenbank und die Voreinstellungs-Dateien

Während die obigen drei Dateien die Konfiguration des Systems festlegen, dienen zum Aufruf des Systems noch eine Batchdatei XYZdat.bat und eine Einstellungsdatei Xcp.opt. Die Batchdatei löscht einige Umgebungsvariablen des MS-DOS-Systems und ruft dann aus dem Programmordner das Allegro-Programm Cockpit (acp) mit den Einstellungen Xcp.opt auf. In der Voreinstellungsdatei Xcp.opt wird festgelegt, wie das Programm- und Datenverzeichnis, die Datenbank und die Konfigurationsdatei heißen. Dabei werden die Endungen der Dateien nicht angegeben, sondern von Allegro automatisch erschlossen. Darum dürfen diese auch nicht verändert werden und muß der Anfangsbuchstabe der Konfigurationsdatei G bleiben (bzw. sonst alles ersetzt werden). Wichtig ist, daß der Gesamtpfad des Datenverzeichnisses nicht zu viele Buchstaben hat, da das von Allegro als MS-DOS-Programm nicht verwaltet werden kann.

Außerdem enthält die Xcp.opt-Datei Voreinstellungen, Definition und Parameter für Programme und Routinen, die aus Allegro aufgerufen werden können z.B. den Texteditor und einige SSG-FI-Routinen (s.u.). Automatisch legt Allegro die Datei Xcp.pre an, in der die Grundeinstellungen gespeichert werden. Diese Datei kann gelöscht werden, wenn mit den Voreinstellungen etwas nicht klappt, z. B. der Allegro-Befehl "Zurücksetzen der Optionen" nicht funktioniert. Die Xcp.opt-Datei enthält auch Verweise auf einige Allegro-Routinen, die je nach Installation verfügbar sind oder nicht, für SSG-FI aber nicht benötigt werden.

In der Xcp.opt-Datei werden auch die SSG-FI-Routinen "Export der Infodateien", "Export der Verteilerdokumente", "Export als Text", "Numerieren" definiert. Während die ersten beiden für die Präsentation der Datenbank nötig sind und in Abschnitt 4 besprochen werden, dienen die anderen der allgemeinen Allegro-Arbeit.

"Export als Text" fragt nach einem Namen und speichert einen vollständigen Auszug der Datenbank als Textdatei (im MS-DOS-Zeichensatz) unter diesem Namen. Für dieses Programm werden die Batchdatei Text.bat und die Exportdatei I-text.gpr benutzt. Dabei werden zuerst die URL und die Dateinummer, dann der Name und der Rest des Datensatzes ausgegeben. Die einzelnen Einträge werden durch Tabulatoren und die Datensätze durch Absatzmarken von einander getrennt. Dieses Format kann durch Bearbeitung der Datei I-text.gpr verändert werden.

"Numerieren" führt in mehreren Schritten eine Neunumerierung der Datenbank durch. Diese Funktion dient dazu, die Dateinummern für die Verweise bei den HTML-Dateien eindeutig und fortlaufend zu machen, sie funktioniert nur richtig, wenn die Datenbank nicht gleichzeitig von jemand benutzt wird, da sonst zu verändernde und zu löschende Dateien gesperrt sind. Außerdem ist es sinnvoll, die Datenbank vor der Numerierung zu entlüften. Benutzt werden dazu die Batchdatei Nummer.bat und die Exportdatei I-nr.gpr; durch Anpassung der Exportdatei I-nr.gpr kann die Datenbank auch auf andere Art manipuliert werden. Der Prozeß läuft wie folgt ab: Zunächst wird die Datenbank exportiert und dabei neu numeriert, die alte Dateinummer wird gelöscht und in Kategorie 99 gespeichert, die aktuelle Satznummer wird zur neuen Dateinummer. Danach wird die alte Datenbank in XYZ_1.g2d umbenannt, alle Register gelöscht und der Export neu als Datenbank indiziert. Da bei diesem Vorgang die bestehenden Identifikationsnummern verändert werden, wird vor Ablauf des Programms gefragt, ob die Nummern wirklich gelöscht werden sollen. Außerdem sind als zusätzliche Sicherungen die Speicherung der alten Nummer in #99 und die Sicherung der alten Datenbank als XYZ_1.g2g eingebaut.

Von Bedeutung sind noch einige Dateien, die allgemein von Allegro genutzt werden können:

die Buchstabenersatztabelle I.GPT
(für Indizierung mit XYZ.GPI vorgesehen, aber nicht genutzt) ersetzt alle Zeichen durch ASCII-Zeichen mit den Nummer 1-127, und zwar in der Haupttabelle (p) durch Großbuchstaben und in der Alternativtabelle (q) durch Kleinbuchstaben. Wenn dies für die Indexdatei eingesetzt wird, kann der Index einheitlich groß bzw. klein geschrieben werden, dann ist die Registersuche nicht mehr "Case sensitive";
die Stopworttabelle SWL1.GPT
(für XYZ.GPI vorgesehen, aber nicht genutzt) enthält eine Liste von Stopwörtern in verschiedenen Sprachen, die bei der Indizierung ausgelassen werden sollen. Da derzeit keine Einzelwörter indiziert werden, ist sie überflüssig, sie sollte aber aktiviert werden, wenn z.B. die Beschreibung (Kategorie 20) in einem Register indiziert wird;
die Windows/DOS-Ersatztabelle WINDOS.GPT
ist für den Import von Texten vorgesehen, die unter Windows geschrieben wurden, und ersetzt den Windows-Zeichensatz soweit als möglich durch den MS-DOS-Zeichensatz;
S1.ASP, S2.ASP
sind alternative Suchtabellen, die auf dem MS-DOS-Zeichensatz beruhen. Das Programm SRCH für die Volltextsuche benutzt die Datei S1.ASP, um Groß- in Kleinbuchstaben umzusetzen und Umlaute aufzulösen. Wenn für die Suche eine andere Einstellung gewünscht wird, kann die Datei durch eine andere ersetzt werden, die Groß/Kleinschreibung unverändert läßt oder vielleicht auch gar nichts ersetzt; benutzt wird immer die Datei mit Namen S1.ASP.

Mit diesen Dateien wird die lokale Allegro-Datenbank für den SSG-FI-Bereich aufgebaut, die von Internet und Präsentation völlig unabhängig ist. Wenn die Daten im Internet präsentiert werden sollen, müssen die Exportparameter-Dateien benutzt werden, mit denen die Daten aus Allegro als Textdateien exportiert werden, die auf einem Server zu HTML-Dateien gemacht werden (siehe Abschnitt 4). Wichtig dafür ist zunächst die Struktur der Daten auf dem HTML-Server.

3. Datenpräsentation: der SSG-FI-Server

Die Struktur des SSG-FI-Systems ist hierarchisch gegliedert und möglichst flach gehalten. Zunächst ist das gewünschte Fach auf der Homepage des SSG-FI-Projektes auszuwählen. Hier stehen eventuell auch allgemeine Systeminformationen zur Verfügung, die aber zur eigentlichen Benutzung nicht wichtig sind. Dies ist die globale Auswahl:

Globale Auswahl

Jeder Einzelbereich ist intern auf die gleiche Weise gegliedert, so daß sich in der lokalen Auswahl immer die drei Möglichkeiten des Einstiegs über die Sachstruktur des Faches, die formale Beschreibung der Informationsquelle und die (freie) Suche bieten:

Lokale Auswahl

Da gleichzeitig die Quellentypen Internet, CD-ROM und Buch unterschieden werden, ergibt sich eine mehrdimensionale Datenstruktur:

Datenstruktur Drei Zugriffe:
  • - allgemeine Suche
  • - formale Klassifikation
  • - thematische Klassifikation
Drei Schichten:
  • - Internet (online)
  • - CD-ROM (offline)
  • - Bücher (printed)

Der so dargestellten Datenstruktur entsprechen die Dateistrukturen auf dem Server, die von der Datenbank (halb-) automatisch aufgefüllt werden. Ich stelle Ordner fett und Dateien normal dar. Die folgende Tabelle gibt einen Überblick über die Dateistruktur auf dem Server:

Für die Dateinamen gelten die folgenden Konventionen:

  1. Der Server, auf dem die HTML-Dokumente liegen, kann normalerweise ein HTML-Dokument automatisch aufrufen, wenn einOrdnerstatt einerDatei angefordert wird. Dieses Dokument heißt auf dem Göttinger Server index.html, und dieser Name wird auf den verschiedenen Ebenen für den Zentralverteiler benutzt. Somit liefert die HTML-Anfrage "www.sub.goettingen.de/ssgfi/math/" automatisch das Dokument "www.sub.goettingen.de/ssgfi/math/index.html" und damit den Verteiler des Mathematikbereiches des SSG-FI. Bei anderer Servereinstellung sollte dieses Dokument umbenannt werden.
  2. Der SSG-FI-Bereich wird zunächst auf Englisch aufgebaut, soll aber zu einem späteren Zeitpunkt auch auf Deutsch angeboten werden. Die Endung "_en.html" weist auf ein Dokument in englischer Sprache hin (en ist der ISO-639-Code für Englisch), das übersetzt werden muß und in übersetzter Form dann die Endung "_de.html" bekommen würde.
  3. Die Verteiler-Dokumente, die durch den Formal Guide bzw. den Subject Guide erreicht werden, liegen im Ordner "formal" bzw. "subject". Ihre Namen werden klein geschrieben und bestehen aus dem Kurznamen der Datenbank xyz, dem Code für die formale bzw. thematische Klassifikation, gegebenenfalls dem Ländercode (nach ISO 639), dem Code für den Ressourcentyp (on, off, pr) und der Endung "en.html". Die einzelnen Namensteile werden durch "_" voneinander getrennt, so daß sich z.B. xyz_fk27_on_en.html oder xyz_sf1_at_on_en.html ergibt.
  4. Die eigentlichen Informationsdateien liegen im Ordner "infodata" und tragen als Namen nur die Nummer (sechsstellig) des Datensatzes in der Datenbank mit der Endung html, z.B. 000239.html.

Die in "formal", "subject" und "infodata" enthaltenen Dokumente werden durch die Datenbank automatisch mit den angegebenen Namen erzeugt und sind als Hypertextdokumente miteinander verbunden.

Die Dokumente im Ordner "grafiken" werden bei der Darstellung der Dokumente benutzt und müssen im Dateiverzeichnis auf der gleichen Ebene wie der Ordner "xyz" liegen, ebenso der Ordner "search" mit den Suchformularen.

Die Dokumente im Ordner "xyz" werden durch die Datenbank nicht verändert und müssen per Handarbeit an die gegebenen Bedingungen angepaßt werden. Sie haben die folgende Bedeutung:

index.html Das Einstiegsdokument des xyz-Bereiches, hat diesen Namen, damit es automatisch aufgerufen wird, wenn jemand den Ordner "xyz" öffnen will (s.o.).
frame_formal_en.html Html-Rahmendokument, das formalkey_en.html und navigator_en.html aufruft und beim Einstieg über den Formal Guide aufgerufen wird.
frame_subject_en.html Html-Rahmendokument, das subjectkey_en.html und navigator_en.html aufruft und beim Einstieg über den Subject Guide aufgerufen wird.
frame_search_en.html Html-Rahmendokument, das das einfache Suchformular search_xyz.html und navigator_en.html aufruft und beim Einstieg über die Suche aufgerufen wird.
navigator_en.html Navigationshilfe für Internetbrowser, die Rahmen (Frames) unterstützen, enthält Verbindungen zu den Hauptdokumenten des SSG-FI-Site. Muß an die lokalen Namen angepaßt werden.
formalkey_en.html Die Liste mit den Verbindungen zu den Verteilern nach Formalschlüsseln ("xyz_so1_on_en.html" etc.). Gilt einheitlich für alle SSG-FI-Bereiche.
subjectkey_en.html Die Liste mit den Verbindungen zu den Verteilern nach Themenschlüsseln ("xyz_fk01_on_en.html" etc.), ist für den jeweiligen SSG-FI-Bereich spezifisch.
xyz_fk00_on_en.html,
xyz_sf1_on_en.html
Zwei spezielle Verteiler-Dokumente, die für einen Themenschlüssel (z.B. fk00) und einen Formalschlüssel (sf1) eingeführt wurden, da die entsprechenden Dokumente zu groß geworden sind. Diese Kategorien werden nun nach Ländern geordnet angeboten, dazu gehören Verteiler-Dokumente wie xyz_fk00_au_on_en.html und xyz_sf1_at_on_en.html mit einem Ländercode im Namen.

Die Dateien ab navigator_en.html enthalten Verweise auf die Hauptdokumente des SSG-FI-Site, auf übergeordnete Dateien (SSG-FI Home, SUB Home) und verwandte Sites (Webis) und müssen an die lokalen Wünsche und Gegebenheiten angepaßt werden (auch wenn der Namen "index.html" der Home Page verändert wird).

Während die Anpassung der meisten Dokumente an ein neues Thema durch das Suchen und Ersetzen in Textdokumenten (Ersetze überall "xyz" durch das gewünschte Datenbankkürzel) möglich ist, muß für das neue Themengebiet auch ein neuer Themenschlüssel erarbeitet und die bestehende Liste subjectkey_en.html entsprechend angepaßt werden. Das ist neben dem eigentlichen Erfassen der Dokumente die aufwendigste Tätigkeit bei dem Aufbau eines Internet-Fachinformationsführers nach SSG-FI-Muster.

Die Dateien in "formal", "subject" und "infodata" werden aus zwei Dateien erstellt, die aus der Allegro Datenbank exportiert werden und typischerweise Linklist.txt und Infodata.txt heißen. Diese Dateien enthalten die vollständigen HTML-Dateien, müssen aber noch an geeigneten Stellen "auseinandergeschnitten" werden. Diese "Schnittstellen" sind durch ">>>>filename" markiert, dahinter folgt der Name, den die Datei mit dem nachfolgenden Inhalt bekommt. Die Arbeit des Auseinanderschneidens kann durch ein einfaches Script auf dem jeweiligen Server erledigt werden (erst dort, weil oft Probleme wegen langer Dateinamen auftreten). In Göttingen wird auf dem LINUX-Server ein awk-Script "splitfile" dazu benutzt: Linklist.txt, Infodata.txt und splitfilewerden in ein Verzeichnis "install" im Ordner "xyz" kopiert, dieses Verzeichnis wird (mit cd …?/SSGFI/xyz/intall) zum Arbeitsverzeichnis gemacht und durch die Eingabe "splitfile Linklist.txt" z.B. die Ordner "formal" und "subject" sowie deren Inhalt erzeugt. (Wenn die Ordner und Dateien schon bestehen, werden die alten Dateien nicht ersetzt, sondern die neuen an sie angehängt, darum sollten die neuen Ordner in einem Extraordner erzeugt werden oder die alten Dateien zuerst gelöscht werden.)

4. Der Export der Daten in das Internet

4.1 Die Export-Routinen

Für die Präsentation im Internet müssen die Daten aus der Allegro-Datenbank exportiert werden. Dazu dienen die Export-Skripte, die in den Exportparameter-Dateien enthalten sind. Sie werden am einfachsten vom Allegro-Cockpit aus als SSG-FI-Routinen aufgerufen:

  1. SSG-FI-Routinen
    1. Export der Infodateien (Exportiert die Datenbank im HTML-Format)
    2. Export der Verteilerdokumente (Exportiert die Formal- und Themenverteiler im HTML-Format)
    3. Export als Text (Exportiert die Datenbank als Textdatei)
    4. Numerieren (Erstellt die Numerierung der Datenbank neu)

Die Programme 3 und 4 wurden in Abschnitt 2 kurz besprochen, hier werden die Programme 1 und 2 dargestellt. Für diese Programme werden benötigt:

Wenn diese Dateien im Datenverzeichnis liegen, wird mit dem Aufruf von Programm 1 bzw. 2 die Textdatei Infodata.txt bzw. Linklist.txt erzeugt. Nur wenn mehr als eine Datenbank im Datenverzeichnis liegt, muß nach dem Aufruf des Programmes noch die Datenbank ausgewählt werden, die exportiert werden soll. Das Programm ruft die entsprechende Batchdatei und diese die Exportparameter-Dateien auf. Dabei wird intern das Programm- und Datenverzeichnis benutzt, so daß keine Anpassung notwendig ist. Die Exportprogramme selbst stehen in den Exportparameter-Dateien und benötigen höchstens eine geringfügige Anpassung an das jeweilige SSG-FI-System, die eigentlichen veränderlichen Größen stehen in der Zwischenteiltabelle Z-Allg.Gpt.

4.2 Die Exportparameter-Dateien

Der Export der Daten wird durch sogenannte Exportparameter-Dateien durchgeführt, in denen festgelegt ist, welche Daten exportiert werden und welche Zusatzinformationen noch in das Exportdokument eingefügt werden sollen. Für das SSG-FI-System werden dafür die Dateien S-Link.Gpr, P-Link.Gpr und P-Data.Gpr benutzt. Die Dateien selbst sind mit Kommentaren versehen, die Detailinformationen über die jeweiligen Programmschritte geben. Hier sollen die Dateien nur global beschrieben werden.

4.2.1 S-Link.Gpr

Diese Datei sammelt die Informationen für die Verteilerdokumente des Formal und Subject Guide, dazu werden die Informationen pro Datensatz in drei Feldern angeordnet.

Das erste Feld ist das Sortierfeld. Es beginnt mit "u1" und enthält den Formal­ (Source Type) oder Themenschlüssel (Subject Key), eventuell das Land (für spezielle Formal- oder Themenschlüssel), dann den Infoquellentyp (on, off, pr) und den Namen (Titel) der Informationsquelle. Dabei wird der Name in Kleinschrift umgesetzt und etwaige Nichtsortierwörter (Der, Das, The …) am Anfang werden beseitigt. Durch Sortieren anhand dieses Feldes werden die Informationen zusammengestellt.

Das zweite Feld beginnt mit "u2" und enthält den Namen der Verteilerdatei (xyz_fk73_on_en.html, xyz_sc_on_en.html…) in der SSG-FI-Standardform; das dritte Feld liefert die zusätzlichen Informationen: Dateinummer, Titel, Infoquellentyp, Land, Schlüssel und URL.

Der Titel des Dokumentes wird in diesem Prozeß von MS-DOS-Schrift in HTML-Code umgewandelt, damit Umlaute und andere Sonderzeichen im Internet richtig angezeigt werden; dazu wird die Tabelle P-Html.Gpt benutzt. Außerdem werden einige Zwischenteile (für den Dateinamen) aus der Tabelle Z-Allg.Gpt verwandt. Das Resultat dieses Exportes wird als uuu.glg im Datenordner gespeichert.

Dieses Skript erfordert keine Anpassung für andere Informationsführer, besitzt aber zwei Einstellungen, die geändert werden können: Zum einen können ausgewählte Schlüssel nach Ländern getrennt aufgelistet werden, das wird im MathGuide für den Bereich allgemeine Mathematik einerseits und für die mathematischen Fachbereiche andererseits genutzt.

Zum anderen kann der Themenschlüssel reduziert werden (im MathGuide werden nur die ersten zwei Zeichen benutzt). Wenn der Themenschlüssel eine hierarchische Struktur aufweist, kann es sinnvoll sein, die Hierarchie ab einer bestimmten Tiefe abzuschneiden, das bedeutet dann, daß im "Subject Guide" verschiedene Unterthemen zu einem Bereich zusammengefaßt werden. Dazu dient bei der Mathematik die Reduktion auf die ersten zwei Zeichen. Es könnten auch die ersten drei oder vier Zeichen sein oder der Schnitt vor einem Zeichen (z.B. "-" ) gesetzt werden. In jedem Fall wird die verbleibende Zeichenfolge zur Identifikation des Themas benutzt und muß so in Register 6 aufzufinden sein.

4.2.2 P-Link.Gpr

Die Datei uuu.glg, die mit S-Link.Gpr erzeugt wird, wird als nächstes sortiert, die sortierte Datei heißt dann sss.glg, und uuu.glg wird gelöscht. Aus der sortierten Datei sss.glg erstellt P-Link.Gpr die HTML-Dokumente für die Verteiler nach Formal- und Themenschlüssel. Dazu werden zu jedem Dateinamen (Feld 2 in sss.glg) die zugehörigen Dokumente aufgelistet. Die Liste wird mit einer Überschrift versehen, die sich aus dem Namen des SSG-FI-Bereiches, dem Formal- bzw. Themenschlüssel, dem Infoquellentyp und gegebenenfalls dem Land ergibt. Die Einträge in der Tabelle sind die in HTML-Zeichen (genauer: Latin-1) umgesetzten Titel der Dokumente (mit der entsprechenden Internetquelle verbunden) und eine Taste, die zur zugehörigen Infodatei führt. Das Programm benutzt (intensiv) die Zwischenteiltabelle Z-Allg.Gpt, die Umsetzungstabellen für die Formal- und Themenschlüssel in Register 6 und eventuell die Länderdekodierung in Register 7 der Datenbank.

Dieses Script muß an die Einstellung von S-Link.Gpr angepaßt werden: wenn ausgewählte Schlüssel nach Ländern getrennt aufgelistet werden, müssen die entsprechenden Zeilen aktiv sein, sonst sollten sie deaktiviert werden.

4.2.3 P-Data.Gpr

Die Einträge der Allegro-Datenbank werden als HTML-Infodateien exportiert. Dabei werden die Daten einerseits als (unsichtbare) Metadaten und andererseits in einer (sichtbaren) Tabelle dargestellt. Diese Darstellung ist in der Exportparameter-Datei P-Data.Gpr festgelegt. In dieser Datei wird auch die Gestaltung der Infodateien festgelegt: der Seitenaufbau und die verwendeten Icons. Wenn einen andere Darstellung gewünscht wird, kann (mit nötiger Vorsicht) hier eingegriffen werden.

Das Programm benutzt die Zwischenteiltabelle Z-Allg.Gpt, die Umsetzungstabelle für den Formalschlüssel in Register 6 und die Länder- und Sprachdekodierung in Register 7 der Datenbank. Eine Anpassung für andere Informationsführer ist nicht notwendig, nur die Sekundär- und Tertiärklassifikationsbezeichnungen (DDC und BK) könnten geändert oder deaktiviert werden.

4.3 Die HTML-Ersatztabelle P-Html.Gpt

Die HTML-Ersatztabelle P-Html.Gpt dient zwei verschiedenen Zwecken und besteht aus zwei Teilen. Der erste Zweck ist die Herstellung von HTML-Dateien, insbesondere die Umsetzung von MS-DOS Schrift in HTML-Schrift. Dazu werden einige Zwischenteile angegeben, die zur Zeichenformatierung in HTML genutzt werden können, z.B. für Fett und Kursiv, hoch- und tiefgestellte Schrift etc., und eine Umsetzungstabelle vom MS-DOS-Zeichensatz in HTML (also z.B. von ü in "ü"). Die Zeilen dieser Tabelle haben alle die folgende Struktur: "p", Leerzeichen, MS-DOS-Zeichen, Leerzeichen, HTML-Ersatz in Anführungszeichen. Wenn eine andere Umsetzung gewünscht wird, kann diese Tabelle bearbeitet werden. Benutzt wird sie bei den Exportskripten S-Link.Gpr und P-Data.Gpr in den Zeilen, die mit "#" anfangen: der so aufgerufene Ausdruck (z.B. #10, der Titel eines Dokumentes) wird anhand dieser Tabelle umgesetzt.

Der zweite Teile der Datei P-Html.Gpt dient der Umsetzung von Schrift in einen reduzierten Zeichensatz, der im wesentlichen aus Kleinbuchstaben besteht. Dazu dient eine zweite Tabelle, deren Zeilen die Struktur "q", Leerzeichen, MS-DOS-Zeichen, Leerzeichen, Ersatzzeichen in Anführungszeichen, haben. Diese Tabelle wird bei dem Exportskript S-Link.Gpr in den Zeilen benutzt, die mit "!" anfangen: der so aufgerufene Ausdruck (z.B. !10, der Titel eines Dokumentes) wird anhand dieser Tabelle umgesetzt. Das wird einerseits für die Sortierung von Datensätzen benutzt (damit nach dem ASCII-Wert eines Wortes sortiert werden kann) und andererseits für die Festlegung von Dateinamen, die im SSG-FI-System durchgängig mit Kleinbuchstaben geschrieben werden.

Bei beiden Tabellen bedeutet eine "1" in der dritten Spalte (ohne Anführungszeichen) daß das Zeichen in der mittleren Spalte ersatzlos entfällt. Solche Zeichen tauchen also im Export nirgends auf und könnten durch andere Zeichen belegt werden - darauf beruht im wesentlichen der Einsatz des OSTWEST.FON in Allegro. Das Problem ist die Umsetzung weiterer Zeichen in HTML-Code: Hier gibt es zwar weitere Zeichensätze (z.B. Latin-2 für die Darstellung osteuropäischer Sprachen), aber keinen flexiblen Formalismus, der das Umschalten des Zeichensatzes innerhalb eines Dokumentes zuläßt. Dazu muß vielmehr dem ganzen HTML-Dokument im Header ein spezielles Meta-Tag mitgegeben werden, der "charset" Parameter in einem "Content-Type"-Feld:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">.

Wenn dieser Mechanismus konsequent genutzt werden soll (z.B. für ein Sondersammelgebiet das sich mit entsprechenden Ländern befaßt), so müssen spezielle Verfahren entwickelt werden, die ein Infodokument in einem anderen als dem Standardzeichensatz Latin-1 erstellen (einfach) und die die Titel dieser Dokumente zusammen mit anderen Titeln in Standardschrift in den Verteilerlisten darstellen (kompliziert). Falls Bedarf besteht, sind die Projektmitarbeiter des SSG-FI Göttingen zur Unterstützung bei dieser Entwicklung bereit.

4.4 Die Tabelle der Zwischenteile Z-Allg.Gpt

In der Tabelle Z-Allg.Gpt sind die Zwischenteile enthalten, die beim Export benutzt werden. Dies sind zum einen Teile des HTML-Code, die hier zur Abkürzung zusammengefaßt sind, und zum anderen variable Namen, die vom jeweiligen Sondersammelgebiet abhängen. Am Anfang der Datei steht eine Liste der Zwischenteile, die angepaßt werden müssen, wenn ein neuer Bereich aufgebaut wird. Das bezieht sich auf

Außerdem kann in dieser Tabelle die Hintergrundfarbe bzw. gegebenenfalls ein Hintergrundbild angegeben werden.

Falls eine andere Gestaltung der Dateien gewünscht wird, können in dieser Tabelle auch weitere Einträge geändert werden, z.B. die Namen der aufgerufenen Icons (Bilder), die als Tasten für die Navigation benutzt werden.

4.5 Zusammenfassung: Eine Checkliste

Hier werden die notwendigen Anpassungen der Allegro-Exportskripte noch einmal tabellarisch zusammengefaßt:

Dateizu ändern
Z-Allg.Gpt alle Bezüge auf die Datenbank xyz
alle Bezüge auf den Informationsführer XYZGuide
alle Bezüge auf die Primärklassifikation KAT/KATverbal
evtl. die Hintergrundfarbe
S-Link.Gpr #ufk i4,s i5,f i6,1 … deaktivieren, wenn kein Land bei sf1 ( 2 mal)
!ufk i4,0 i5,0 … deaktivieren, wenn kein Land bei 00 ( 2 mal)
Wenn Subject Key reduziert: e2 hinzufügen bei #u1 b3 e2 =fk
P-Link.Gpr #ufk i4,s i5,f i6,1… deaktivieren, wenn kein Land bei sf1
!ufk i4,0 i5,0… deaktivieren, wenn kein Land bei 00
P-Data.Gpr evtl. Klassifikation 2 und 3 (DDC, BK) ändern oder deaktivieren

5. Anhang

Der Anhang enthält eine Reihe von Arbeitspapieren des SSG-FI-Projektes und soll bei Unklarheiten eine Möglichkeit zum Nachschlagen bieten. Da einige der zugrunde liegenden Quellen auf Englisch abgefaßt sind, sind einige der Dokumente zweisprachig. Da auch der SSG-FI-Site auf Englisch ist, diese Beschreibung aber auf Deutsch, ist diese Zweisprachigkeit sowieso nicht zu vermeiden.
Für die online-Version dieses Artikels wurden die Anhänge in eigene Dokumente umgesetzt. Sie liegen auf diesem Server vor.

  1. Die Kategorien des SSG-FI-Systems
  2. Dublin Core Metadaten
    1. Die Syntax von Dublin Core in HTML
    2. Die Semantik von Dublin Core
  3. Formal Key
  4. Ländercodes nach ISO 3166
  5. Sprachcodes nach ISO 639-1

Anmerkungen:
  1. Das nach Dublin (Ohio/USA) benannte Metadatenmodell wird ausführlich beschrieben auf dem Metadatenserver an der SUB Göttingen (URL: www2.SUB.Uni-Goettingen.de).
  2. Im SSG-FI-Projekt stellte sich heraus, daß das DOS-System mit langen Pfadnamen Schwierigkeiten hat, da sie als Parameter mit übergeben werden und die Länge der Parameter begrenzt ist. Wir haben daher unter Windows mit der Funktion „Netzlaufwerk verbinden“ den Programmpfad als Laufwerk „F:“ eingerichtet.

Valid HTML 4.0! © Thomas Fischer @ SUB Göttingen, May 13, 1998