Bringen Sie Ihrem PC Russisch bei

Fremde Sprachen sind schön, wenn man sie nicht versteht.
(Kurt Tucholsky, 1890–1935)

Dieser Artikel entstand 2000. Durch die neuesten Betriebssystem- und Browserversionen ist er eigentlich nicht mehr relevant, aber vielleicht interessiert er doch noch den einen oder anderen.

Als ich angefangen habe, unter Windows und im Internet Russisch zu verwenden, hat mich immer sehr gestört, daß die entsprechenden Handlungsanweisungen zwar sagten, was ich machen sollte, nicht aber, warum ich es machen sollte. Ich kam mir wie ein gestrandeter Außerirdischer vor, den man zwar auf das nächste Hotel verweist, aber nicht darüber aufklärt, auf welchem Planeten er sich befindet. Daher möchte ich hier versuchen, dieses Warum kurz und möglichst verständlich (für Informatiker sicher zu sehr vereinfacht) zu erklären.

Der Inhalt dieser Seite bezieht sich nur auf Windows; mit anderen Betriebssystemen kenne ich mich zu wenig aus.

Russischer PC?

So ganz stimmt der Titel dieser Seite natürlich nicht: Im Normalfall können Sie aus Ihrem PC keinen russischen PC machen und werden dies wahrscheinlich auch gar nicht wollen. Denn den PC vollständig zu russifizieren hieße, die sogenannte code page des Betriebssystems zu ändern, Windows also anzuweisen, daß es nicht mehr lateinische, sondern kyrillische Buchstaben verwenden soll. Es verstünde dann nur noch Russisch und könnte mit deutschen Buchstaben nichts mehr anfangen. Außerdem kann diese manuelle Änderung der Systemsprache gewaltig schiefgehen und, außer bei Windows NT und XP, auch nicht mehr rückgängig gemacht werden. Wenn Sie also neben der deutschen auch eine russische Windows-Version haben möchten, damit rein russische Programme fehlerlos laufen und sinnvoll verwendet werden können, empfiehlt es sich, diese Windows-Version käuflich zu erwerben und auf einer zweiten Festplatte oder einer eigenen Festplattenpartition zu installieren.

Es soll hier also darum gehen, wie Sie in Textverarbeitungsprogrammen und Editoren russische Texte lesen und schreiben und in Browsern russische Seiten richtig anzeigen können.

Des Pudels Kern ist die Codierung, der Zeichensatz.

Was bedeutet „Zeichensatz“?

Sie schreiben und lesen zwar Buchstaben und Zeichen, aber der Rechner kennt nur Codes, also eine Aneinanderreihung von Byte-Werten. Wenn Sie einen Text lesen, liest das System diesen als eine Folge von Byte-Werten und wandelt ihn dann entsprechend der code page (CP) des verwendeten Zeichensatzes in lesbare Zeichen um – Buchstaben, Leerstellen, mathematische Symbole usw. Der Zeichensatz ist letztlich also eine Tabelle, die auflistet, welche Zeichen es in dem Zeichensatz gibt und welche Byte-Werte diesen Zeichen zugeordnet sind.

Daß jeder Zeichensatz nur über bestimmte Zeichen verfügt, liegt daran, daß der Computer eben nur die beiden Einheiten Bit und Byte und die Zustände 0 und 1 kennt. Bei den älteren ASCII-Zeichensätzen besteht ein Byte aus 7 Bit, so daß sie mit den beiden Zuständen 0 und 1 genau 128 Zeichen darstellen können. Bei den neueren ANSI-Zeichensätzen besteht das Byte aus 8 Bit, sie können also 256 Zeichen darstellen. Bei beiden Typen sind die ersten 32 Plätze für Steuerzeichen reserviert. Es ist also offensichtlich, daß man mit dieser Zeichenmenge nur die Buchstaben und Sonderzeichen einer einzigen Sprache oder Sprachfamilie darstellen kann, ein Zeichensatz aber auf keinen Fall für alle Sprachen ausreicht.

Was sind „Schriftarten“?

Erschwert wird die Lage durch die Schriftarten. Schriftarten sind Beschreibungsmodelle, die festlegen, wie die Byte-Werte eines Zeichensatzes auf dem Bildschirm und vom Drucker dargestellt werden sollen. Sie können sich das ungefähr so vorstellen, als legten Sie zwei Folien übereinander. Die erste Folie (der Zeichensatz) nennt die grundsätzlich verfügbaren Zeichenwerte, und darüber legen Sie eine zweite Folie (die Schriftart), die zeigt, welche dieser Zeichenwerte tatsächlich verwendet und wie sie dargestellt werden. Wahrscheinlich ist es Ihnen schon einmal passiert, daß Sie von irgendwoher eine Schriftart auf Ihren Rechner geladen haben, nur um dann festzustellen, daß Sie damit nichts anfangen können, weil diese Schriftart nicht alle benötigten Buchstaben enthält. In jedem System gibt es eine sogenannte Systemschriftart, die alle Zeichen desjenigen Zeichensatzes enthält, den das System verwendet. Bei Windows ist das zum Beispiel die Schriftart System und wenn Sie eine deutsche Windows-Version verwenden, enthält die Schriftart System alle im Deutschen verwendeten Zeichen. Bei allen anderen Schriftarten bestimmt der Verfasser der Schriftart selbst, welche Darstellung er einem Zeichenwert zuweisen möchte. Wenn also zum Beispiel ein Amerikaner nur für seine eigenen Zwecke eine Windows-Schriftart (TrueType) entwirft, dann wird diese sicher keine deutschen Umlaute enthalten. Er läßt die dafür im Zeichensatz definierten Positionen einfach leer. Und andere Schriftarten, zum Beispiel Botanic oder Wingdings, stellen überhaupt keine Buchstaben dar, sondern Symbole.

Die Umsetzung eines Zeichens erfolgt also in drei Stufen:

  • Byte-Wert: gibt an, was der Computer speichert.
    • Zeichensatz: ordnet den Byte-Wert einem Zeichen zu.
      • Schriftart: beschreibt, wie das Zeichen dargestellt wird.

Die zwei Schriftarten des Internet

Im Internet kursieren zwei Arten von Dokumenten: Hypertext-Dokumente und NurText-Dokumente. Vereinfacht ausgedrückt sind Hypertext-Dokumente Dokumente mit Formatierungen wie zum Beispiel Farben, Bildern, Schriftgewicht, Schriftgrad usw. NurText-Dokumente sind hingegen Dokumente ohne irgendwelche Formatierungen.

Entsprechend gibt es auch zwei Arten von Schriften: Mit variabler/proportionaler Breite für Hypertext (zum Beispiel Arial, Times New Roman) und mit fester Breite für NurText (zum Beispiel Courier). Möchte man auf einem nicht-russischen PC also russische Schriften für alle Gelegenheiten installieren, so muß man auch diese beiden Versionen berücksichtigen.

Russische Zeichensätze

Die slavischen Sprachen verwenden traditionell die KOI-Zeichensätze, die schon lange vor den Internet-Zeiten als einheitliche Codierung für Netzwerke genutzt wurden. Dummerweise haben nun aber die verschiedenen Betriebssysteme zusätzlich dazu jeweils eigene (lokale) Zeichensätze entwickelt, so daß es für Russisch mehrere alternative Zeichensätze gibt:

Diese Zeichensätze sind nicht miteinander vereinbar, da sie den einzelnen Zeichen unterschiedliche Codes zuordnen. Solange Sie nur auf Ihrem Rechner arbeiten, auf dem Windows installiert ist, stellt dies kein Problem dar: Sie verwenden einfach die Windows-Codierung und die dafür definierten Schriftarten. Kompliziert wird es hingegen im Internet.

Manche Autoren russischer Websites stellen ihre Inhalte in allen Zeichensätzen dar und lassen den Anwender eine Version auswählen. Aber 'mal ehrlich – wer hat schon Lust, jede Seite in fünf Versionen zu schreiben? Also stehen die meisten Websites nur in einer Codierung zur Verfügung, und das ist in der Regel entweder KOI8-R (KOI-Version 8 für Russisch) oder Windows-1251 – die Codierung, die von allen Microsoft-Produkten verwendet wird, ist für Windows-Nutzer eben am naheliegendsten. Eine neuere Möglichkeit ist Unicode, aber dazu unten mehr.
Neuere Browser versuchen dieses Problem dadurch zu lösen, daß sie KOI, die traditionelle Netzwerk-Codierung, als Grundlage verwenden und automatisch von bzw. in die lokalen Zeichensätze übersetzen. KOI und die erforderlichen Schriftarten sind daher in diesen Browsern vorinstalliert.

Kyrillische Schriften unter Windows installieren

Um unter Windows mit Russisch arbeiten zu können, müssen Sie zuerst einmal die Windows-Sprachunterstützung installieren. Dafür sind zwei Schritte notwendig (In den unterschiedlichen Windows-Versionen sehen die Pfade zu den hier beschriebenen Elementen jeweils etwas unterschiedlich aus. Sollten Sie sie nicht selbst finden, suchen Sie sie über die Windows-Hilfe.):

  1. Gehen Sie ins Windows-Menü Start/Einstellungen/Systemsteuerung/Software/Windows-Setup. Dort wählen Sie das Feld „Sprachunterstützung“ aus, wobei Sie unter „Details“ die gewünschten Sprachgruppen auswählen können. Die Unterstützung wird dann von der Windows-CD geladen.
  2. In Start/Einstellungen/Systemsteuerung/Tastatur/Sprache wählen Sie nun die Sprachen aus, die auf der Tastatur verfügbar sein sollen. Sie können auch eine Tastenkombination wählen, mit der Sie zu der entsprechenden Sprache wechseln. Wenn Sie das Feld „Sprachanzeige aktivieren (Taskleiste)“ ankreuzen, wird links unten in der Taskleiste neben der Zeitangabe in einem kleinen Feld die jeweils aktive Sprache angezeigt. Wenn Sie dieses Feld anklicken, können Sie zu einer anderen Sprache wechseln.

Damit sind die Windows-1251-Zeichensätze installiert und einsatzbereit.

Abhängig von dem jeweiligen Textverarbeitungsprogramm (Word, WordPro usw.) genügt es eventuell nicht, die verwendete Sprache in der Taskleiste zu wechseln, sondern Sie müssen die zugehörige Schriftart noch extra auswählen. Es ist aber ganz einfach, selbst eine Makro (Programmanweisung) zu schreiben, das dafür sorgt, daß mit der Sprache auch gleich die Schriftart gewechselt wird. Die Online-Hilfe der meisten Textverarbeitungsprogramme enthält eine Schritt-für-Schritt-Anweisung zum Aufzeichnen von Makros.

Kyrillisch im Internet

Schriftarten installieren

Wie gesagt, sollte es eigentlich nur bei älteren Browsern, also Versionen vor Netscape 4 und Internet Explorer 3, nötig sein, die grundlegenden KOI-Schriftarten selbst zu installieren. Aber vielleicht möchten Sie ja auch zusätzlich zu den im Browser oder Windows vorhandenen Schriftarten noch weitere installieren. In beiden Fällen gehen Sie folgendermaßen vor:

  1. Suchen Sie sich im Internet (oder auf CDs oder wo immer Sie etwas Interessantes finden) die gewünschten Schriftarten aus, laden Sie sie auf Ihren PC und entpacken Sie sie in irgendein Verzeichnis – es spielt keine Rolle, wo Sie die Schriften speichern, solange Sie sie nur wiederfinden.
  2. Im Windows-Menü Start/Einstellungen/Systemsteuerung/Schriftarten wählen Sie das Menü Datei/Neue Schriftart installieren aus. Nun öffnet sich ein Dialogfenster, in dem Sie zu dem Verzeichnis gehen, in dem Sie die Schriftart abgelegt haben. Wählen Sie die gewünschte(n) Schriftart(en) aus, drücken Sie auf OK – fertig. Bei manchen Schriftarten müssen Sie den Rechner neu starten, aber darauf weist Sie das System dann ohnehin hin.

Browser anpassen

Nun müssen Sie noch den Browser anpassen, damit er mit den Schriftarten auch etwas anfangen kann.

Netscape:
Im Menü Optionen/Allgemeine Einstellungen/Schriftarten oder Bearbeiten/Einstellungen/Gesamtbild/Schriftart (das ist bei den einzelnen Versionen unterschiedlich) wählen Sie für die Codierung „Kyrillisch“ jeweils eine proportionale/variable und eine nichtproprotionale/feste Schriftart aus.

Noch einmal sei es gesagt: Bei neueren Browsern sollte dieser Schritt nicht erforderlich sein, bei älteren Browsern sollte man KOI-Schriftarten wie zum Beispiel ER Bukinist KOI8 und ER Kurier KOI8 angeben.

Internet Explorer:
Im Menü Ansicht/Optionen/Allgemein oder Ansicht/Internetoptionen/Allgemein klicken Sie „Schriftarten“ an, wählen das Sprachskript „Kyrillisch“ aus und geben jeweils eine Schrift für Webseiten und eine für NurText an.

Damit können Sie nun kyrillische Seiten anzeigen und kyrillische Mails schreiben.

Problembehebung

Manuelle Registrierung von Schriftarten

Installiert man eine Schriftart, so wird diese in die Registrierungsdatenbank von Windows (Registry) eingetragen. Manchmal überschreiben oder löschen Programme die vorhandenen Einträge jedoch, wenn sie ihre eigenen Schriftversionen installieren. So kann es etwa passieren, daß man nach der Installation einer neuen Anwendung plötzlich nicht mehr auf osteuropäische oder kyrillische Zeichensätze zugreifen kann. Kein Grund zur Sorge! Auch ohne Computerkenntnisse können Sie dieses Problem in fünf Minuten beheben, indem Sie die notwendigen Einträge manuell wiederherstellen. Dies machen Sie in der Datei win.ini, die sich normalerweise in c:\windows befindet. Öffnen Sie die Datei im Editor und suchen Sie den Abschnitt [FontSubstitutes]. Die Eintragungen in diesem Abschnitt haben das Format (Schriftname) (Kürzel des Zeichensatzes),000=(Schriftname),(ID-Nummer des Zeichensatzes). Für alle gewünschten Schriften fügen Sie nun Einträge nach diesem Muster ein:

[FontSubstitutes]
  Arial Cyr,204=Arial,204
  Arial CE,238=Arial,238
  Arial Greek,161=Arial,161
  Arial Tur,162=Arial,162
  Arial Baltic,186=Arial,186

  Arial Narrow Cyr,204=Arial Narrow,204
  Arial Narrow Baltic,186=Arial Narrow,186
  Arial Narrow CE,238=Arial Narrow,238
  Arial Narrow Greek,161=Arial Narrow,161
  Arial Narrow Tur,162=Arial Narrow,162

  Garamond Cyr,204=Garamond,204
  Garamond Baltic,186=Garamond,186
  Garamond Greek,161=Garamond,161
  Garamond Tur,162=Garamond,162
  Garamond CE,238=Garamond,238

  usw.

Das heißt: Für jede Schriftart, die den kyrillischen Zeichensatz verwenden soll, geben Sie die ID dieses Zeichensatzes an – 204. Wenn Sie für west- oder südslawische Sprachen den zentraleuropäischen Zeichensatz (CE) benötigen, geben Sie „238“ an, und so weiter. Das funktioniert natürlich nur bei Schriften, die die entsprechenden Zeichensätze auch wirklich enthalten. Sonst können Sie angeben, was Sie wollen – was die Schriftart nicht kennt, kann sie auch nicht verwenden. Wenn Sie fertig sind, speichern Sie die Datei und starten Windows neu.

Sie wundern sich, daß in Ihrer neuen Word-Version die Schriftarten Cyr, CE usw. nicht mehr verfügbar sind?

Das liegt daran, daß die neueren Word-Versionen für die häufig verwendeten Schriftarten, von denen es verschiedene Versionen für verschiedene Sprachfamilien gibt, Unicode-Schriftarten verwenden. Das heißt, die Zeichen der verschiedenen Schriftfamilien sind durchaus vorhanden, sie sind allerdings in eine einzige Schriftart integriert. Um zum Beispiel von Deutsch zu Kroatisch zu wechseln, brauchen Sie nur noch die kroatische Tastatur (über das Symbol in der Taskleiste), aber nicht mehr die Schriftart CE auszuwählen.

Sie möchten wissen, welche Zeichensätze eine Schriftart enthält?

Es kann schon recht verwirrend sein, daß, wie gerade beschrieben, in den Textverarbeitungsprogammen und dem Fonts-Ordner von Windows nicht mehr unbedingt ersichtlich ist, für welche Sprachfamilien tatsächlich Schriftarten installiert sind. Eine Möglichkeit, das herauszufinden, besteht darin, einfach den Editor Wordpad (falls er nicht installiert ist, können Sie ihn kostenlos aus dem Internet laden) zu öffnen und die Liste der verfügbaren Schriften anzusehen. Im Gegensatz zum Beispiel zu Word werden hier nach wie vor alle verfügbaren Zeichensätze einer Schriftart angezeigt.

Eine andere Möglichkeit ist Microsofts Hilfsprogramm Font Properties Extension (gibt's kostenlos im Internet). Wenn Sie dieses Hilfsprogramm installiert haben, brauchen Sie im Ordner Windows/Fonts nur eine Schriftart mit der rechten Maustaste anzuklicken, und erhalten dann alle verfügbaren Informationen zu dieser Schrift, zum Beispiel auch, welche Zeichenbereiche sie umfaßt.

Probleme bei der Anzeige von Websites

Damit man eine russische Seite lesen kann, muß man im Browser dieselbe Codierung eingestellt haben, in der auch die Seite geschrieben ist. Diese Einstellung finden Sie unter Ansicht/Zeichensatz (oder Ansicht/Codierung). Meistens wählt der Browser automatisch die richtige Einstellung aus, manchmal muß man sie selbst suchen. Gelegentlich funktioniert es trotzdem nicht. Versuchen es zunächst einmal damit, die Seite neu zu laden. Ältere Browser, ganz besonders Netscape, haben oft einfach Probleme, neuere Zeichensätze zu erkennen, und brauchen einige Anläufe. Hilft das nicht weiter, dann lassen Sie sich bei Netscape am besten erst einmal über Ansicht/Seiteninformation die Grundinformationen zu der Seite anzeigen, die auch den verwendeten Zeichensatz enthalten (sofern Netscape ihn erkennt). Beim IE gibt es diese Möglichkeit nicht, dort müssen Sie sich den Quelltext ansehen und nach dem Eintrag „charset“ suchen. Finden Sie die benötigten Informationen und stellen Sie den eigenen Browser entsprechend ein. Funktioniert es immer noch nicht, dann gibt es zwei Möglichkeiten:

  1. Alle verfügbaren Codierungen und Browser durchprobieren.
  2. Den Autor verwünschen und zu einer ordentlich geschriebenen Seite wechseln.

Meistens ist die zweite Variante vorzuziehen – sie erspart Zeit und Ärger. Wenn ein Browser eine Seite nicht entziffern kann, kann das mehrere Gründe haben:

Unicode

Zum Teil sind russische Seiten auch in Unicode (UTF-8) geschrieben. Unicode ist ein neues System, das nach und nach alle weltweit vorhandenen Zeichen erfassen soll (2001 sind es über 90.000 Zeichen). Dazu ist neben dem Zeichenwert auch die Angabe von Eigenschaften nötig, also zum Beispiel ob von rechts nach links oder von oben nach unten geschrieben wird. Möglich wird dies dadurch, daß das Unicode-System Zeichen durch eine Vier-Byte-Zahl wiedergibt, insgesamt also 232 Bit-Werte umfassen kann.

Das Problem ist auch hier wieder, daß der Zeichensatz selbst nichts darüber aussagt, wie ein Zeichen dargestellt werden soll. Diese Aufgabe müssen die Schriftarten übernehmen. Die meisten herkömmlichen Schriftarten sind jedoch an einen bestimmten Zeichensatz gebunden – weshalb man eben für jede Sprachfamilie eigene Schriftarten installieren muß. Bisher gibt es noch nicht allzu viele Unicode-Schriftarten, und diejenigen, die es gibt, umfassen bei weitem nicht alle in Unicode definierten Zeichen. Auch weiterhin werden Schriftarten meist auf bestimmte Zwecke ausgerichtet, so daß auch Unicode-Schriftarten meist nur Zeichen einer bestimmten Klasse enthalten: phonetische, kyrillische, musikalische, altgermanische, mathematische usw. Hinzu kommt, daß viele Systeme und Anwendungen die Vier-Byte-Codierung noch nicht unterstützen, sondern nur die ältere Unicode-Version mit Zwei-Byte-Codierung.

Wer Unicode-Seiten schreibt, muß also mit damit rechnen, daß

  1. ältere Browser bei der Darstellung erhebliche Probleme haben:
    • Netspace 4.x unterstützt Unicode theoretisch zwar, der Zeichensatz muß aber meist manuell gewählt werden, und die Darstellung ist höchst unzuverlässig.
    • Netspace 6 unterstützt Unicode zuverlässig, wenn auch in geringerem Umfang als das Microsoft-Pendant.
    • Opera unterstützt Unicode ab Version 6, wenn auch in geringerem Umfang als das Microsoft-Pendant.
    • Der Internet Explorer unterstützt Unicode ab Version 5 zuverlässig.
  2. der Betrachter der Seiten keine Unicode-Schriftarten installiert hat.

Solange die Seiten nur in einer Sprache geschrieben sind und keine außergewöhnlichen Zeichen verwenden, ist das kein Problem und Sie merken noch nicht einmal, daß Unicode verwendet wird. Aber der Nutzen von Unicode besteht ja gerade darin, daß es der einzige Zeichensatz ist, mit dem man mehrsprachige Seiten schreiben kann (wobei hier mit „Sprache“ auch die Sprache der Musik, der Mathematik usw. gemeint ist). In jedem HTML-Dokument, also auf jeder im Internet angezeigten Seite, kann jeweils nur ein einziger Zeichensatz verwendet werden, der am Anfang des Dokumentes angegeben wird. Seiten, wie ich sie hier zum Beispiel anbiete, die sowohl deutschen als auch russischen Text enthalten, sind einfach nur mit Unicode möglich. Daher wird sich Unicode auf Dauer auf jeden Fall durchsetzen.

 Hier finden Sie nun die gängigsten Unicode-Schriftarten:

Arial Unicode MS – die bislang umfassendste Unicode-Schriftart (exe-Datei, die beim Öffnen automatisch installiert wird)

Mit den folgenden Schriftarten können Sie auf jeden Fall das lateinische Alphabet mit allen osteuropäischen Sonderzeichen (diakritischen Zeichen), das griechische und das kyrillische Alphabet darstellen (exe-Dateien):

Comic Sans MS
Courier New
Georgia
Times New Roman
Verdana

Und für den Notfall noch die gebräuchlichsten KOI8-R-Schriftarten (Installation wie oben beschrieben):

ER Bukinist KOI 8
ER Kurier KOI 8

Wer Russisches nicht nur lesen, sondern auch schreiben möchte, geht natürlich genauso vor. Damit russische E-Mails in der richtigen Codierung abgeschickt werden, muß man sie im entsprechenden Zeichensatz formatieren. Die meisten gängigen Mail-Programme (Outlook Express usw.) haben einen entsprechenden Menüpunkt „Format“ oder „Codierung“.

Wenn Sie russische HTML-Seiten veröffentlichen möchten, geben Sie im Header anstelle des für deutsche Seiten üblichen Zeichensatzes iso-8859-1 den Satz windows-1251 an, und wenn Sie Unicode-Seiten bereitstellen möchten, geben Sie den Zeichensatz UTF-8 an.