Was ist ein Konverter bzw.
ein Filter?
Der Begriff
Die Begriffe Konverter bzw. Filter werden in der Praxis meist
synonym verwendet. Streng genommen, ist ein Konverter eher
ein Stück Software, welche den Export einer Datei in
ein anderes Format ermöglicht, wogegen der Filter ein
Stück Software darstellt, um eine Datei, welche ein fremdes
Format aufweist zu importieren. Auch in diesem Skript, werden
die beiden Begriffe allerdings synonym verwendet.
Damit ist bereits festgehalten, dass die Konvertierung in
beide Richtungen verlaufen kann. Gewisse Filter können
nur importieren, andere wiederum (dann eher Konverter genannt)
können nur exportieren und auch die Kombination von Beidem
ist durchaus gängig.
Für die Praxis heisst dies, dass folgende Konstellation
auftreten können:
· Ein Filter für das gewünschte Format ist
nicht verfügbar. Die Datei kann unter MS Word weder importiert
noch exportiert werden.
· Es gibt einen Import- aber keinen Export-Filter
· Es gibt einen Export aber keinen Import-Filter
· Es gibt beides, einen Import- und einen Export-Filter
· Es gibt einen Import-/Export-Filter in Einem
Text- und Grafikfilter
Auf einer ganz anderen Ebene unterscheidet man zwischen Text-
und Grafikfilter (bzw. Konverter). Dieses Skript geht in erster
Linie auf Textkonverter und nicht auf Grafikfilter ein.
Soviel sei aber zu Grafikfiltern gesagt: die zahlreichen Filter
für Grafiken sind ausschliesslich für den Import
bestimmt, ermöglichen Ihnen also Grafiken verschiedenster
Formate in Ihrem Dokument einzubinden. MS Word kann abgesehen
von einer wichtigen Ausnahme (im Zusammenhang mit dem HTML-Export-Filter)
keine Grafikdateien erstellen.
Methoden zur Darstellung von formatiertem
Text
Nochmals auf einer anderen Ebene kann man drei Methoden unterscheiden,
wie formatierter Text elektronisch dargestellt werden kann.
Im Einzelnen sind das folgende Architekturen:
· Tagging: Auch unter markup language bekannt. Dabei
werden Textsequenzen, welche eine gewisse Formatierung erhalten
sollen, vom Autor mit einer der Formatierung dienenden Kopf-
und Schwanzinformation versehen. Die Texte werden also eigentlich
nicht formatiert, sondern codiert. HTML ist ein typischer
Vertreter dieser Kategorie. In den 80er Jahren, ist diese
sehr zuverlässige Art, Text zu formatieren leider etwas
in Vergessenheit geraten. Trotz Bedenken aus Fachkreisen hat
sich die Mehrheit der Benutzer auf WYSIWYG-Anwendungen (What
You See Is What You Get) gestürzt. Mit der Ausbreitung
des Internets, wo offene und stabile Strukturen besonders
gefragt sind, hat diese Methode aber eine Renaissance erlebt.
Diese Art von Textdarstellung ist transparent und recht einfach
erlernbar. Die Codierung ist im Problemfall analysierbar.
Dateien, welche so erstellt werden, sind vor Defekten weitgehend
immun. Dateikorruption ist so gut wie ausgeschlossen.
· Formate: Bei dieser Art Text zu formatieren, sind
komplexe Strukturen und Gefässe vorgesehen, welche sowohl
den Text als auch die Formatierung strukturiert aufnehmen
können. Diese Architektur wird vor allem bei WYSIWYG-Anwendungen
eingesetzt. MS Word und WordPerfect® sind dafür typische
Vertreter. Meist sind diese Formate nicht herstellerunabhängig,
sondern properitär. Diese Art von Darstellung ist nicht
transparent und nicht erlernbar. Eine Analyse im Problemfall
müsste mitunter auf binärer Ebene geschehen und
dies ist in der Praxis so gut wie unmöglich oder zumindest
jenseits jeder Wirtschaftlichkeit. Dateien, welche so erstellt
werden, sind anfällig für Defekte. Dateikorruption
ist in der Praxis leider eine häufige Erscheinung.
· PostScript ähnliche Dateien: Diese Art von Dateien
liegen schon fast so vor, wie ein Drucker den Datenstrom erwartet,
um seine Arbeit zu tun. Ein sehr populärer Vertreter
in dieser Kategorie ist PDF (Portable Document Format) von
Adobe. Dokumente, welche dieser Architektur folgen sind plattformunabhängig
und layoutgetreu (d. h. sie lassen sich unter jedem Betriebssystem
öffnen und sehen auf jedem Rechner und im Ausdruck unabhängig
vom Gerät haargenau gleich aus). Dateien dieser Klasse
bieten auch einen gewissen Schutz für Authentizität
können sie doch nachträglich nicht mehr verändert
werden und nur sehr schwer in ein anderes Format überführt
werden, welches eine Veränderung dann ermöglichen
würde. Diese Dateien stellen ein Endprodukt dar, welches
nicht direkt in «Viewern», wie etwa dem Adobe
Acrobat erstellt wird, sondern z.B. aus MS Word oder HTML
erzeugt wird. Da an diesen Dateien nicht direkt gearbeitet
wird, sind sie vor Dateikorruption sehr sicher.
Potential und Grenzen beim Konvertieren
von formatiertem Text
Es stellt sich nun die Frage, wie Dateien mit formatiertem
Text, welche intern auf einem anderen Prinzip beruhen ineinander
überführt, also konvertiert werden können.
Im Zusammenhang mit dieser Frage lassen sich folgende Grundsätze
festhalten.
· Die Übername von kodierten Dateien (also z.B.
HTML) nach einer Datei, welche formatorientiert ist, gelingt
meistens gut und detailgetreu.
· Das Umgekehrte, nämlich formatierten Text in
kodierten Text zu überführen, ist hoch problematisch.
Meistens enthält das Resultat viel Müll, dessen
Volumen die eigentliche Substanz bei weitem übertrifft.
Damit geht aber viel verloren, was markup languages im positiven
Sinne auszeichnen. Die Transparenz, Analysierbarkeit und das
Offene (also nicht Proprietäre) geht zu einem grossen
Teil vor die Hunde. Der HTML-Export-Filter von MS Word ist
dafür ein abschreckendes Beispiel.
· Die Übernahme sowohl von kodiertem Text, wie
auch von Textdateien, welche auf einem Format beruhen, in
ein PostScript-ähnliches Format ist selbstverständlich
gewährleistet, anders würde diese Architektur ja
keinen Sinn machen. Bedenken Sie aber, dass dazu zusätzliche
Software benötigt wird (z. B. Adobe Acrobat Writer) und
diese Software ist nicht billig.
· Der umgekehrte Weg, nämlich PostScript-ähnliche
Dateien, auf ihr ursprüngliches Format (oder Kodierung)
zurückzuführen ist in der Regel versperrt. Das hat
einerseits technische Gründe (die Umkehrung ist nicht
eindeutig), anderseits ist es von den Strategen auch so gewollt.
Es muss ja wohl einen Weg geben, um auch auf elektronischem
Wege etwas zu publizieren, von dem sowohl der Autor wie auch
der Leser Gewähr hat, dass diese Publikation authentisch
bleibt und nicht von irgendwelchen Personen unautorisiert
und ohne Mitwissen der Betroffenen, verändert, verfälscht,
missbraucht oder entwendet werden kann. Das kann auch als
einen Service an den Leser gesehen werden, braucht doch auch
er in vielen Fällen die Gewissheit, dass ihm ein authentisches
Dokument vorliegt. Alles andere würde verunsichern. Schliesslich
sei angeführt, dass geistiges Eigentum immer noch geschützt
ist. Bei Zuwiderhandlung sieht unser demokratisch gestaltetes
Gesetzt, empfindliche Strafen vor.
Datei explizit unter einem bestimmten
Format öffnen
Mittels Word-Dialog
1. Ausgehend vom Word-Hauptmenü rufen Sie den Dialog
Extras - Optionen... auf.
2. Wechsel Sie in das Register Allgemein.
3. Aktivieren Sie die Option Konvertierung beim Öffnen
bestätigen.
4. Schliessen Sie den Dialog mit Ok ab. MS Word wird sich
später an diese Einstellung erinnern.
5. Öffnen Sie nun die fragliche Datei über den Dialog
Datei - Öffnen....
6. MS Word fragt bei Ihnen jetzt nach, in welchem Format die
Datei zu öffnen ist. Wählen Sie von der Liste das
gewünschte Format.
Anmerkungen
· Wenn die besagte Option ausgeschaltet ist (was dem
Standard entspricht), versucht MS Word auf Grund der Dateierweiterung
eigenständig zu eruieren, welches Format am besten auf
die Datei passen könnte.
· Die Anzahl der Möglichkeiten, welche Ihnen MS
Word anbietet hängt auch davon ab, welche Textkonverter
Sie auf dem Rechner installiert haben. Dabei ergeben sich
folgende möglichen Konstellationen:
-Filter welche direkt in MS Word eingebaut sind (z.B. RTF)
-Zusätzliche Filter, welche bei einer standardmässigen
Installation von MS Office installiert werden
-Zusätzliche Filter welche über den Office-Setup
(Einstellungen - Systemsteuerung - Software Microsoft Office...)
nachinstalliert werden können
-Zusätzlich (aktuelle) Filter, welche Sie über das
Internet von Microsoft herunter laden können und im so
genannten Konverterpack zusammengefasst sind.
Mittels VBA
Um eine Datei mit VBA unter einem bestimmten Format zu öffnen,
können Sie in vielen Fällen auf Word-integrierte
Konstanten zurückgreifen, welche sich im Objektkatalog
von MS Word finden lassen. Sie können aber nicht davon
ausgehen, dass dies für jedes Format zutrifft.
Bedenken Sie, dass die Installation eines zusätzlichen
Konverters nicht bewirkt, dass diese Konstanten dementsprechend
in MS Word ergänzt würden. In diesem Falle sind
Sie auf eine dynamischere Vorgehensweise angewiesen. Dabei
muss die Liste der verfügbaren Konverter ausgelesen werden.
Verbreitete Text- und Grafikformate für welche Microsoft
keine Filter bzw. Konverter bereit stellt
Grafikfilter
· Nicht unterstützt sind CorelDraw Grafiken höher
als Version 6.0. Der Filter, welcher Microsoft noch zur Verfügung
stellt, ist also - für PC Begriffe - uralt. Der Grund,
weshalb Microsoft diesen Filter nicht hochzieht ist der, dass
der kanadische Softwarehersteller Corel 1996 alle Rechte für
WordPerfect erworben hat. WordPerfect stellt eine Konkurrenz
zu MS Word dar. Microsoft hat dementsprechend reagiert. Sie
können mit der Zwischenablage arbeiten, um diese Grafiken
trotzdem zu transferieren. Die Qualität leidet allerdings
darunter klar sichtbar. Der bessere Weg ist sicher, diese
Grafikdateien unter CorelDraw in einem Word-kompatiblen Format
abzuspeichern und sie dann in MS Word zu übernehmen.
CorelDraw Grafikdateien laufen übrigens unter der Dateierweiterung
*.cdr.
Textkonverter
· Microsoft stellt weder Import- noch Exportfilter
für Dokumente zu Verfügung, welche unter StarWriter
- besser bekannt als StarOffice - erstellt wurden. Dieser
Textprozessor bzw. dieses Office-Paket wird heute von der
Firma Sun Microsystems vertrieben, Rechte welche die Firma
von Star Division Corp erworben hat. Der Grund, wieso Microsoft
keinen Filter zur Verfügung stellt, ist Konkurrenzdenken.
Liegen Ihnen solche Dokumente vor, dann haben Sie grundsätzlich
drei Optionen. Sie können diese Datei mit StarWriter
unter einem Format abspeichern, welches MS Word interpretieren
kann. Benutzer von StarWriter rühmen den MS Word Exportfilter,
welcher in StarWriter integriert ist. Alternativ können
Sie die Datei auch in StarWriter im RTF-Format abspeichern,
ein Format, welches MS Word problemlos und ohne Zusatz interpretieren
kann. Als weitere Option, können Sie einen Konverter
von einem Drittanbieter erwerben. StarWriter Dateien laufen
übrigens unter der Dateierweiterung *.sdw.
· Seit der Textprozessor, welcher ursprünglich
unter Ami WordPro vermarktet wurde zuerst an Lotus und dann
an IBM übergegangen ist, werden die Filter für diesen
Textprozessor von Microsoft nicht mehr hochgezogen. Die letzte
Version, für welche es von Microsoft noch einen Filter
gibt, heisst Ami Pro 3.0. Der Filter ist also für PC-Begriffe
uralt. Für Sämtliche Lotus WordPro Versionen, gibt
es keinen Filter von Microsoft. Grund für das Fehlen
eines Konverters ist Konkurrenzdenken. Um solche Dateien in
MS Word verfügbar zu machen, speichern Sie das Dokument
in Lotus WordPro im RTF-Format oder im WordPro 3.0 Format
ab. MS Word kann RTF direkt interpretieren, für das Ami
Pro 3.0 Format ist im Konverterpack von Microsoft (den Link
dazu finden Sie in diesem Skript) einen Filter vorgesehen.
Sollten Sie keinen Zugang zu Lotus WordPro haben, dann können
Sie sich einen Filter von einem Drittanbieter erwerben. Schauen
Sie sich dazu den am Schluss dieses Skriptes eingeblendeten
Link von Microsoft bezüglich Lotus WordPro an. Microsoft
nennt in diesem Artikel auch Firmen, welche solche Filter
vertreiben. Die letzte Alternative, welche sich Ihnen bietet,
ist die Lotus WordPro Datei unter MS Word zu öffnen.
Stellen Sie dann aber den Dateityp auf Text aus beliebiger
Textdatei wiederherstellen. Sie müssen dann selber beurteilen,
ob dieses Ergebnis für Sie brauchbar ist. Lous WordPro
Dateien laufen übrigens unter der Dateierweiterung *.lwp.
Der HTML-Filter für MS Word
Die Reaktion von Microsoft auf die Verbreitung von HTML
Nicht nur auf die Herausforderung von Netscape im Bezug auf
einen Web-Browser, sondern auch was ein HTML-Filter für
MS Office-Dateien betrifft, reagierte Microsoft unter Zeitdruck
und ziemlich in Panik. Microsoft hat schliesslich über
viele Jahre auf ein WYSIWYG-Konzept (von vielen Benutzern
ziemlich gierig aufgenommen) gesetzt und stand jetzt unvermittelt
im Regen.
Import versus Export von HTML-kodiertem
Text
Auch im Zusammenhang mit HTML ist die Unterscheidung von Import-
und Exportfilter wichtig.
Dass der Benutzer ein in HTML kodierten Text möglichst
detailgetreu nach MS Word importieren kann, ist selbstverständlich
zu begrüssen. Dies gelingt bereits mit Word 97 und ab
Word2000 ist das Resultat des Imports in der Praxis auch erstaunlich
gut. Ob MS Word über einen Exportfilter für HTML
verfügen soll, und damit Microsoft indirekt bestimmt,
wie man komplexe Textdokumente in HTML-Codierung umsetzt,
ist dagegen doch sehr fragwürdig.
Dateiformate versus Kodierungen
Es wurde in diesem Skript bereits erwähnt, dass textorientierte
Dateien ganz unterschiedlich in elektronischer Form niedergelegt
werden können. MS Word, als so genannten WYSIWYG-Anwendung,
verwendet ein hoch komplexes Format, welches Gefässe
mit völlig properitären (herstellerabhängigen)
Schnittstellen vorsieht. Diese komplexen Formate sind im hohen
Masse anfällig für Dateikorruption (Defekte). Eine
allfällige Reparatur ist bei diesen Formaten nicht zwingend,
sondern nur in Einzelfällen möglich.
Der globale Austausch von Daten im Internet verlangt einfache
und transparente Strukturen. HTML ist kein Format, sondern
eine Art Sprache (Codierung), welche bestimmt, wie Text am
Bildschirm (oder beim Druck) dargestellt wird. HTML und Vergleichbares
erfüllen die Robustheit und die Transparenz, welche im
Internet gefordert ist. Es ist meines Erachtens weder ratsam
noch erwünscht, dass nun Microsoft, spätestens mit
MS Office2000 daherkommt und den an sich äusserst schlanken
HTML-Code mit doch sehr eigenen Vorstellungen wieder im hohen
Masse aufbläht und intransparent macht.
Wieso Sie Word-Dateien nicht nach
HTML exportieren sollten
Nicht das Schlimmste aber ein weiterer Nachteil: die HTML-Dateien
(oder besser gesagt das Pseudo-HTML von Microsoft), welches
MS Word erstellt, lässt die Dateigrösse bereits
wieder auf das Mehrfache des Nötigen anwachsen, was sich
selbstverständlich in spürbar längeren Ladezeiten
von solchen Dateien niederschlägt.
Dass Microsoft ein Interesse (auch pekuniärer Natur)
hat, auch das Internet-Umfeld zu dominieren bzw. zu monopolisieren,
ist einsichtig und erkennbar. Ob das mittel- und langfristig
im Sinne der Kunden ist, möchte ich doch sehr bezweifeln.
Kommt hinzu, dass echtes HTML erlernbar und ausgezeichnet
dokumentiert ist. Der Pseudo-HTML-Code, welcher MS Word produziert
ist dagegen schlecht dokumentiert und kaum verständlich.
Bei einem Grossteil dieses Codes geht es übrigens darum,
die Formatvorlagen, welche in einem MS Word-Dokument vorhanden
sind, zu beschreiben, damit Word-Dokumente und HTML-codierte
Dokumente nahtlose ineinander übergehen und auch über
das Web austauschbar werden. Bedenkt man nun, dass nicht einmal
Word-Dokumente, welche komplex formatierte nummerierte Listen
enthalten innerhalb des Word-Formats portierbar sind, dann
sind die Ambitionen von Microsoft als grosskotzig zu bezeichnen
und eigentlich nicht prioritär. Microsoft soll erst mal
eine Word-Anwendung ausliefern, welche wirklich funktioniert!
Echtes HTML stützt sich nicht auf Formatvorlagendefinitionen,
welche intransparent irgendwo in der Dokumentvorlage (oder
sogar im Dokument) abgelegt sind und zwingend über einen
ganzen Rattenschwanz von Dialogen administriert werden müssen,
sondern kennt eine Erweiterung für das Definieren von
Absatz-, Zeichen- und Listenformatvorlagen. Diese Erweiterung
nennt sich CSS (Cascading Style Sheets) und passt viel besser
in das Umfeld von HTML, als Office-spezifische MarkUp-Tags.
Zusätzlicher Word-Exportfilter,
welcher einen schlankeren HTML-Code zurücklässt
Wenn Sie trotz allen Bedenken aus MS Word HTML-Code erzeugen
möchten und dabei vermeiden wollen, dass beim Erstellen
des Codes Office-spezifische MarkUp-Tags (XML-Tags) in grossen
Mengen produziert werden, dann sollten Sie sich auf einen
zusätzlichen Filter von Microsoft stützen, welcher
Webseiten erstellt, die von XML-Tags mehrheitlich geläutert
sind. Damit ist Microsoft also wieder einen halben Schritt
zurückgewichen. Bei XML (Extensible Markup Language)
handelt es sich übrigens um eine Art Sprache, welche
es ermöglicht, benutzerdefinierte Tags (und sogar ganze
benutzerdefinierte Dokumenttypen) zu beschreiben (festzulegen),
Tags, welche dann ihrerseits Format- und andere Anweisungen
für das Schriftstück darstellen. Hier wird also
nicht direkt gekocht, sondern es werden in einem zusätzlichen
(verkapselten) «Header» zuerst Kochanweisungen
entworfen, welche dann weiter unten auf die eigentliche Substanz
der Datei appliziert werden.
Um gefilterte Webseiten aus MS Word zu erzeugen, können
Sie konkret wie folgt vorgehen:
Office2000
Sie können den dazu nötigen Filter unter der folgenden
Adresse herunterladen. Dort steht auch, wie dieser Filter
zu installieren und zu verwenden ist. Bitte beachten Sie,
dass dieser Filter ausschliesslich für MS Office2000
geschaffen wurde. In neueren Office-Versionen ist ein vergleichbarer
Filter bereits eingebaut.
· HTML-Filter 2.1 für Office 2000
Anmerkungen
· Erwarten Sie keine Wunder von diesem Konverter! Mengenmässig
wird der HTML-Code durch diesen Filter nach meinen Beobachtungen
um ca. 20-40 % schlanker.
· Wie Sie den HTML 2.1 Filter ex VBA (Makro) anziehen
können, erfahren Sie im folgenden Skript von Microsoft:
HOWTO: Programmatically Use the HTML Filter DLL to Save Word
Documents as Plain HTML.
Office 2002 (XP) und Office 2003
Um in neueren Word-Versionen von einem vergleichbaren Filter
zu profitieren, aktivieren Sie bitte zuerst unter Extras -
Optionen... - Allgemein - Weboptionen... diejenigen Features,
welche Sie beim HTML-Export wirklich benötigen und stellen
dann beim Exportieren im Dialog Datei - Speichern unter...
den Dateityp Webseite gefiltert (*.htm/*.html) ein. Bei meinen
Tests reduzierte sich durch den Einsatz dieses Filters die
Dateigrösse um ca. die Hälfte (im Vergleich zur
unfiltrierten HTML-Datei, welche ebenfalls aus MS Word erzeugt
wurde).
Wie der HTML-Filter den Export von Grafiken aus einem Word-Dokument
ermöglicht
Ein sehr positiver Nebeneffekt, des HTML-Exportfilters ist,
dass Sie ein Werkzeug erhalten, welches es ermöglicht,
auf rasche und bequeme Art und Weise alle in einem Dokument
eingebetteten Bilder, in einem Rutsch in eigenständige
Grafikdateien zu exportieren. Gehen Sie dabei wie folgt vor:
1. Öffnen Sie eine Word-Datei, welche eingebettete Bilder
enthält, in MS Word
2. Rufen Sie ausgehend vom Word-Hauptmenü den Befehl
Datei - Speichern unter... auf.
3. Stellen Sie im Auswahlfeld mit der Bezeichnung Dateityp:
den Wert Webseite ein und bestätigen Sie Ihre Wahl. Merken
Sie sich dabei den Ordner, in welchem die Datei gespeichert
wird.
4. Arbeiten Sie sich im Windows-Explorer zu diesem Ordner
vor. Angenommen Ihre Datei heisst Sommerferien.doc, dann werden
Sie dort einen Unterordner mit der Bezeichnung Sommerferien-Dateien
erkennen. In diesem Unterverzeichnis werden Sie Ihre Grafikdateien
vorfinden.
Anmerkungen
· Nur eingebettete (eingefügte) nicht aber verlinkte
Grafiken können so exportiert werden. Verlinkte Grafiken
liegen eh bereits als eigenständige Dateien vor.
· In den meisten Word-Installationen kann das oben
beschriebene Vorgehen abgekürzt werden. Gucken Sie nach,
ob Sie im Menü Datei den Eintrag Als Webseite speichern...
vorfinden.
· Sie können nicht beeinflussen, unter welchem
Dateinamen die Grafiken exportiert werden. MS Word vergibt
die Zeichenfolge image und zählt dann hoch (image001,
image002, image003, etc.). Selbstverständlich können
diese Dateien anschliessend im Windows-Explorer umbenannt
werden. Das Aktivieren der Bildvorschau im Windows-Explorer,
kann Ihnen bei der Zuordnung der Bilder behilflich sein.
· Das Grafikformat (png, jpg oder gif), welches beim
Export entsteht, kann nur sehr bedingt vorgegeben werden.
Immerhin, in neueren Word-Versionen existiert die Option Extras
- Optionen... - Allgemein - Weboptionen... - Browser - PNG
als Grafikformat zulassen. Um die Bilder in ein anders Dateiformat
zu konvertieren, können Sie den Microsoft Photo Editor
verwenden, welcher in MS Office enthalten ist, allenfalls
aber noch nachinstalliert werden muss.
· Oft werden für dasselbe Bild gleich zwei Grafikdateien
mit unterschiedlicher Dateigrösse angelegt. In diesem
Fall unterscheiden sich die Bilder im Dateiformat und/oder
in Bezug auf ihre Auflösung.
· Sollten Sie mit der Bildgrösse oder der Auflösung
der Bilder nicht zufrieden sein, dann können Sie in vielen
Fällen über Extras - Optionen... - Allgemein - Weboptionen...
- Bild eine Feinabstimmung vornehmen.
· Sollten sich einzelne Grafiken in Ihrem Dokument
aus mehreren Komponenten (AutoFormen, Textfelder, Grafiken
mit Textumfluss) zusammensetzen, dann müssen Sie diese
Gebilde unbedingt vor dem Export gruppieren. Bei Missachtung,
entsteht kein integrales, sondern ein fragmentiertes Ergebnis. |