MRW
Politik Marc Wäckerlin Gemeinderat Winterthur
Twitter
Blog
http://zh.piratenpartei.ch

Chinesisch, Deutsch, Linux und Noxon

Einleitung

Als Server, um mittels UPnP unter «Linux» Musik zu verteilen, eignet sich der «Twonkyvision» Musikserver.

«Noxon», «Twonkyvision» und UTF-8

Alle meine CDs sind als MP3 Dateien gespeichert, werden über UPnP von Twonkyvision ins Netz gestellt und von einem Noxon audio Gerät abgespielt. Das geht wunderbar, aber UTF-8 wird nicht korrekt dargestellt. Alle deutschen Umlaute und chinesischen Zeichen sind nicht unleserlich.

Zum Glück gibt es auf der unicode.org Seite die Datei Unihan.txt, welche die Unicode Umsetzung aller chinesischen Zeichen inklusive ihrer latinisierter 拼音1) Aussprache auflistet. Mein Skript create-mapping.sh lädt nun diese Datei und extrahiert die 拼音 Umsetzung (ohne Betonung). Das Resultat davon verwendet utf8-to-ascii.pl, welches alle chinesischen Zeichen, deutschen Umlaute, französisch-, italienisch- und spanischen Akzente in einfaches 7bit ASCII wandelt.

Dieses Skript verwende ich in create-mp3-ascii-dir.sh. Dieses Skript ist nur ein Beispiel und läuft nur auf meinem System es erwartet, dass es ein Unterverzeichnis namens mp3 gibt, und legt dann temporär ein Verzeichnis mp3.tmp an. Die nach ASCII benannten Dateien sind danach in in einem Verzeichnis mp3.ascii angelegt, mit Verweisen auf mp3.

Weitere Ideen

Man könnte in utf8-to-ascii.pl auch die 中文拼音-Töne noch berücksichtigen, wie das in cedict2kvtml.pl der Fall ist. Damit könnte man einen chinesischen Sprachsynthesizer bauen, der alle Zeichen korrekt mit Betonung vorliest! — Oder eine halbautomatische Übersetzung: Jedes einzelne Zeichen in seine englische Bedeutung übersetzen, mittels Unihan.txt.

1) 拼音: Pinyin, latinisierte Umschrift chinesischer Zeichen