Wikidict.cc Bilingual Online Dictionary
Hiermit möchte Ich ein älteres Projekt von mir vorstellen, das bilinguales Online-Wörterbuch wikidict.cc. Das ganze wurde von mir und @morbidick innerhalb von wenigen Tagen hauptsächlich in Javascript runtergeschrieben.
Mein Anliegen war dabei, Übersetzungen die in verschiedene Sprachversionen von Wiktionary eingepflegt wurden, schnell zugänglich und nachschlagbar zu machen. Wiktionary ist kurz gesagt ein Wörterbuch auf Wikibasis, d.h. Seiten zu Wörter können von jedem Benutzer angelegt und bearbeitet werden. Darin enthalten sind dann sowas wie Wortbedeutungen, Etymologie, Deklination etc. Nicht sonderlich häufig findet man auch Wortübersetzungen in verschiedene Sprachen. Das praktische ist, auf diese Übersetzungen kann man super mittels einer API zugreifen und die Datensätze auch leicht in eigenen Projekten verwenden.
Okay klar, man kann auch einfach auf Dict.cc oder Leo.org zurückgreifen. Zum Teil sind diese Projekte ja auch von einer fleisigen Community getragen. Das Problem hierbei ist, dass die Datensätze stark eingeschränkt sind bzw. garnicht weiterverwendet werden können. Eigentlich schade, wenn man selbst dort Übersetzungen eingetragen hat, aber die Daten dann garnicht in anderen Projekten oder ähnliches weiterverwenden kann …
Bezüglich der einfachen Verwendung der Wiktionary API, die Wikidict.cc nutzt, stellt das Projekt keine große Errungenschaft da. Aber es macht immerhin deutlich, dass es noch an Übersetzungen im Wiktionary mangelt und dass die API zum Teil auch sehr unausgereift ist.
Ich habe mich länger mit dem Thema Wörterbücher auseinandergesetzt und den dazugehörigen Resourcen die es dafür im Netz gibt. Das ganze Thema scheint zwar recht wichtig zu sein für die Sprachwissenschaften, aber der Forschungsstand ist diesbezüglich recht unübersichtlich. Es gibt viele zum Teil undokumentierte und properitäre Dateiformate für Wörterbücher, sehr unterschiedliche Parser und Exporter für Wiktionary-Datenbanken und leider sehr wenig freie, aktuelle und strukturierte Datensätze.
Ich denke, dass Ich mich in Zukunft eher auf die API-Entwicklung fokusieren werde. Denn für die Wiktionary-API wäre schon einiges gewonnen, wenn man Inhalte der Einträge spezifischer abfragen und extrahieren kann.
Hier mal eine kleine Zusammenfassung, welche Probleme es bei der API noch so gibt:
- Bei manchen Sprachen lassen sich die Übersetzungen nicht abfragen. Das liegt daran, dass jede Wiktionary-Gemeinde ihre eigenen Konventionen pflegt in der Strukturierung der Datensätze
- Soweit Ich sehe, können keine weiteren Worteigenschaften abgefragt werden. Also Wortbedeutungen, Aussprache oder z.B. der Genus lassen sich noch nicht abfragen