        **********************************************
                           igerman98
                       *****************
Ein deutsches Wrterbuch zur Rechtschreibkontrolle nach den neuen
    Rechtschreibregeln mit den Programmen Ispell oder Aspell
        **********************************************



Bei einer automatischen Rechtschreibkontrolle sollen Schreibfehler in
einem Text von einem Prfprogramm gefunden werden. Die korrekte
Schreibweise wird dazu in einem Wrterbuch hinterlegt. 

Bei der Zusammenstellung des Wrterbuchs sind jedoch die drei
folgenden Kriterien zu bercksichtigen.

1. Voraussetzung fr zuverlssige Ergebnisse ist, dass das
   Wrterbuch selbst mglichst keine Fehler enthlt. 

2. Das Wrterbuch muss einen breiten Wortschatz abdecken. Andernfalls wird
   das Prfprogramm viele korrekte Wrter eines Textes als falsch
   abweisen, die nicht in dem Wrterbuch enthalten sind. Dieses Verhalten
   ist lstig und versperrt den Blick auf die wahren Fehler.

3. Es ist notwendig, dass ein Wrterbuch nicht zu viele Wrter
   enthlt. Zum einen kann ein selten verwendetes Wort gerade so
   geschrieben werden wie ein falsch geschriebenes Wort in dem zu
   prfenden Text, welches dann nicht als fehlerhaft erkannt wird. Zum
   anderen belastet ein sehr groes Wrterbuch den Arbeitsspeicher eines
   Computers evtl. so sehr, dass die Prfung unertrglich lange dauert.



**** Eigenschaften ****

Dieses Wrterbuch liegt nicht als eine groe Datei vor, sondern die
Wrter sind nach verschiedenen Kriterien in einzelne Dateien
aufgeteilt. Dadurch wird es mglich, ein relativ kleines Wrterbuch
zusammenzustellen, das den individuellen Anforderungen leichter
gengt. Nicht zuletzt ist das Gesamtwerk so besser zu warten.

Auerdem sind Schreibweisen, die alternativ zu `alten' Schreibweisen
existieren in separaten Wrterbuchdateien. So ist es mglich,
`progressive' Schreibweisen wie `Delfin' zu erzwingen, indem man die
lteren Schreibweisen (`Delphin') deaktiviert. Wem `Delfine' oder
`Jogurts' nicht gefallen kann natrlich auch die progressiveren
Schreibweisen deaktivieren und fortan seine Delphine mit Joghurt
fttern. (vgl. INSTALL - Datei)



**** Inhalt der Teilwrterbcher ****

Es folgt eine Beschreibung der einzelnen Dateien und der Kriterien,
nach denen die Aufteilung der Worte vorgenommen wurde.


abkuerzpunkt    Abkrzungen, die einen Punkt am Ende erfordern (etc., usw.)
abkuerzungen    gebruchliche Abkrzungen
abkuerz2        weitere Abkrzungen
adjektive       Adjektive
alphabeta       einige griechische Buchstaben
anglizismen     mehr oder weniger notwendige Anglizismen
austriazismen   in sterreich gebruchliche Worte
helvetismen     in der Schweiz gebruchliche Worte
compeng         Computer-Englisch, insbesondere deutsch-englische Mischwrter
elektronik      Fachbegriffe und Abkrzungen aus dem Bereich Elektronik
geografie2      weitere geografische Begriffe
geografie       gebruchliche geografische Begriffe
infoabk         gebruchliche Abkrzungen aus dem EDV Bereich
informatik      Fachbegriffe aus dem Bereich der Datenverarbeitung
klein           Zahlworte, Frworte, ...
latein          lateinische Redewendungen (et cetera)
marken          Namen von Firmen und Produkten
mathematik      mathematische Begriffe
medizin         medizinische Fachbegriffe (noch sehr leer!)
namen           Nachnamen bekannter Personen, Gtter, Sagengestalten, ...
namen2          weitere Namen
orgabk          Abkrzungen als Bezeichnung von Organisationen
roemisch        einige rmische Zahlen
seltenes        wirklich seltene Worte, umgangssprachliche Wrter
technik         technische Begriffe
verben          Verbformen, keine Befehlsformen
vornamen        gebruchliche Vornamen
vornamen2       weitere Vornamen
worte           Substantive und hnliches
worte2          weitere, weniger gebruchliche Substantive
zusammen        zusammengesetzte Begriffe (sehr gemischt)



**** Verbesserungsvorschlge ****

Ich mchte das Wrterbuch weiter pflegen, um regelmig neue, verbesserte
Versionen zu verffentlichen. Dafr sendet mir bitte

- Hinweise auf fehlerhafte Worte oder Beugungsformen, 
- Vorschlge zur Aufteilung in weitere Fachwrterbcher, z. B. Medizin
- Ergnzungen um fehlende gebruchliche Worte.

Sendet Eure Vorschlge bitte an die unten angegebene E-Mail Adresse. Hilfreich
ist auch, mir einfach die .ispell_german Datei zu schicken (natrlich erst,
wenn schon einige Wrter drin sind), damit ich wichtige Worte aus
verschiedenen Beutzerwrterbchern in dieses Wrterbuch bernehmen kann.

Die aktuelle Version ist immer hier zu finden:
            http://www.suse.de/~bjacke/igerman98/dict/



**** Vorarbeiten ****

Dieses Wrterbuch basiert ursprnglich auf dem ispell Wrterbuch von Heinz
Knutzen, das unter
ftp.informatik.uni-kiel.de:/pub/kiel/dicts/hk2-deutsch.tar.gz
zu finden ist. Heinz Knutzens Wrterbuch basiert wiederum auf Wrterbchern
von Martin Schulz, die man z. B. unter
ftp.th-darmstadt.de:/pub/dicts/ispell/dictionaries/deutsch.tar.gz findet.



**** Ispell ****

Das Programm ispell ist verfgbar in /ftp.cs.ucla.edu:pub/ispell-3.1.
Dieses Wrterbuch wurde mit der Version ispell-3.1.20 verwendet. 

Um Ispell auf Texte mit deutschen Umlauten anwenden zu knnen, ist es
je nach Kodierung mit der Option -Ttex oder -Tlatin1
aufzurufen. Weitere Kodierungen sind in der Datei `german.aff'
erlutert. Falls hauptschlich deutsche Texte geprft werden, so
sollte man die Environment-Variable `DICTIONARY' auf den Wert
`german' setzen. Dann braucht die Option `-d german' beim Aufruf von
ispell nicht mehr angegeben zu werden.



**** Aspell ****

Aspell geht bei seiner Arbeit dank seiner phonetischen Vergleiche deutlich
intelligenter als Ispell vor und lst Ispell hoffentlich bald ab. Zu finden
ist Aspell unter http://aspell.sourceforge.net . Obwohl Aspell noch im
Alphastadium steckt kann ich nur jedem empfehlen von Ispell auf Aspell
umzusteigen!



**** Verschiedenes ****

Ich habe meine Wrberbuch-Datei absichtlich `german' genannt, damit man sie
parallel zu dem `deutsch' Wrterbuch von Heinz Knutzen benutzen, und
so sowohl die alten als auch die neuen Rechtschreibregeln verwenden kann.
In Linux Debian Distributionen ist jedoch auch schon das alte Wrterbuch mit
`german' bezeichnet, weshalb bei Debian Distributionen dieses Wrterbuch
`ngerman' genannt wurde (analog zum ngerman.sty TeX Paket).

Via 'make isowordlist' ist es brigens nun mglich eine riesige Datei zu
erstellen, in der alle Wrter und die abgeleiteten Wortformen enthalten
sind. Diese Datei namens `isowordlist' enthlt dann ca. 300.000 Wrter und
eignet sich sehr gut z. B. zum Testen, ob die Benutzer eines Rechners
,sichere' Passwrter benutzen ;-)

Wer nicht glaubt, dass ein einfacher Taschenrechner auch eine Schreibmaschine
sein kann, sollte mal folgendes probieren:
   grep -i ^[eghilos]*$ isowordlist | tr [eghilos] [3641705] \
   | tr [EGHILOS] [3641705] | less

Wer ber neue Versionen des Wrterbuchs informiert werden will, kann brigens
einfach eine Mail an mich schicken und diesen Wunsch uern.



Bjrn Jacke <bjoern.jacke@gmx.de>

PGP fingerprints: (encrypted mail is welcome)
  RSA-Key:  BC 64 6A AC E5 55 BC 4A  BA D9 BD 75 50 F1 E0 5D
  DSS-Key: 7A26 F4A0 DA1C 22B5 906A  C7B8 768A 34B3 E848 7A39

http://www.suse.de/~bjacke/igerman98/

