SautinSoft is an Internet-oriented software development company
 
Unsere Produkte
Letzte Erneuerung
Nachrichten
Impressum
 

Was ist ein Konverter bzw. ein Filter?

Der Begriff
Die Begriffe Konverter bzw. Filter werden in der Praxis meist synonym verwendet. Streng genommen, ist ein Konverter eher ein Stück Software, welche den Export einer Datei in ein anderes Format ermöglicht, wogegen der Filter ein Stück Software darstellt, um eine Datei, welche ein fremdes Format aufweist zu importieren. Auch in diesem Skript, werden die beiden Begriffe allerdings synonym verwendet.
Damit ist bereits festgehalten, dass die Konvertierung in beide Richtungen verlaufen kann. Gewisse Filter können nur importieren, andere wiederum (dann eher Konverter genannt) können nur exportieren und auch die Kombination von Beidem ist durchaus gängig.
Für die Praxis heisst dies, dass folgende Konstellation auftreten können:
· Ein Filter für das gewünschte Format ist nicht verfügbar. Die Datei kann unter MS Word weder importiert noch exportiert werden.
· Es gibt einen Import- aber keinen Export-Filter
· Es gibt einen Export aber keinen Import-Filter
· Es gibt beides, einen Import- und einen Export-Filter
· Es gibt einen Import-/Export-Filter in Einem

Text- und Grafikfilter
Auf einer ganz anderen Ebene unterscheidet man zwischen Text- und Grafikfilter (bzw. Konverter). Dieses Skript geht in erster Linie auf Textkonverter und nicht auf Grafikfilter ein.
Soviel sei aber zu Grafikfiltern gesagt: die zahlreichen Filter für Grafiken sind ausschliesslich für den Import bestimmt, ermöglichen Ihnen also Grafiken verschiedenster Formate in Ihrem Dokument einzubinden. MS Word kann abgesehen von einer wichtigen Ausnahme (im Zusammenhang mit dem HTML-Export-Filter) keine Grafikdateien erstellen.

Methoden zur Darstellung von formatiertem Text
Nochmals auf einer anderen Ebene kann man drei Methoden unterscheiden, wie formatierter Text elektronisch dargestellt werden kann. Im Einzelnen sind das folgende Architekturen:
· Tagging: Auch unter markup language bekannt. Dabei werden Textsequenzen, welche eine gewisse Formatierung erhalten sollen, vom Autor mit einer der Formatierung dienenden Kopf- und Schwanzinformation versehen. Die Texte werden also eigentlich nicht formatiert, sondern codiert. HTML ist ein typischer Vertreter dieser Kategorie. In den 80er Jahren, ist diese sehr zuverlässige Art, Text zu formatieren leider etwas in Vergessenheit geraten. Trotz Bedenken aus Fachkreisen hat sich die Mehrheit der Benutzer auf WYSIWYG-Anwendungen (What You See Is What You Get) gestürzt. Mit der Ausbreitung des Internets, wo offene und stabile Strukturen besonders gefragt sind, hat diese Methode aber eine Renaissance erlebt. Diese Art von Textdarstellung ist transparent und recht einfach erlernbar. Die Codierung ist im Problemfall analysierbar. Dateien, welche so erstellt werden, sind vor Defekten weitgehend immun. Dateikorruption ist so gut wie ausgeschlossen.
· Formate: Bei dieser Art Text zu formatieren, sind komplexe Strukturen und Gefässe vorgesehen, welche sowohl den Text als auch die Formatierung strukturiert aufnehmen können. Diese Architektur wird vor allem bei WYSIWYG-Anwendungen eingesetzt. MS Word und WordPerfect® sind dafür typische Vertreter. Meist sind diese Formate nicht herstellerunabhängig, sondern properitär. Diese Art von Darstellung ist nicht transparent und nicht erlernbar. Eine Analyse im Problemfall müsste mitunter auf binärer Ebene geschehen und dies ist in der Praxis so gut wie unmöglich oder zumindest jenseits jeder Wirtschaftlichkeit. Dateien, welche so erstellt werden, sind anfällig für Defekte. Dateikorruption ist in der Praxis leider eine häufige Erscheinung.
· PostScript ähnliche Dateien: Diese Art von Dateien liegen schon fast so vor, wie ein Drucker den Datenstrom erwartet, um seine Arbeit zu tun. Ein sehr populärer Vertreter in dieser Kategorie ist PDF (Portable Document Format) von Adobe. Dokumente, welche dieser Architektur folgen sind plattformunabhängig und layoutgetreu (d. h. sie lassen sich unter jedem Betriebssystem öffnen und sehen auf jedem Rechner und im Ausdruck unabhängig vom Gerät haargenau gleich aus). Dateien dieser Klasse bieten auch einen gewissen Schutz für Authentizität können sie doch nachträglich nicht mehr verändert werden und nur sehr schwer in ein anderes Format überführt werden, welches eine Veränderung dann ermöglichen würde. Diese Dateien stellen ein Endprodukt dar, welches nicht direkt in «Viewern», wie etwa dem Adobe Acrobat erstellt wird, sondern z.B. aus MS Word oder HTML erzeugt wird. Da an diesen Dateien nicht direkt gearbeitet wird, sind sie vor Dateikorruption sehr sicher.

Potential und Grenzen beim Konvertieren von formatiertem Text
Es stellt sich nun die Frage, wie Dateien mit formatiertem Text, welche intern auf einem anderen Prinzip beruhen ineinander überführt, also konvertiert werden können. Im Zusammenhang mit dieser Frage lassen sich folgende Grundsätze festhalten.
· Die Übername von kodierten Dateien (also z.B. HTML) nach einer Datei, welche formatorientiert ist, gelingt meistens gut und detailgetreu.
· Das Umgekehrte, nämlich formatierten Text in kodierten Text zu überführen, ist hoch problematisch. Meistens enthält das Resultat viel Müll, dessen Volumen die eigentliche Substanz bei weitem übertrifft. Damit geht aber viel verloren, was markup languages im positiven Sinne auszeichnen. Die Transparenz, Analysierbarkeit und das Offene (also nicht Proprietäre) geht zu einem grossen Teil vor die Hunde. Der HTML-Export-Filter von MS Word ist dafür ein abschreckendes Beispiel.
· Die Übernahme sowohl von kodiertem Text, wie auch von Textdateien, welche auf einem Format beruhen, in ein PostScript-ähnliches Format ist selbstverständlich gewährleistet, anders würde diese Architektur ja keinen Sinn machen. Bedenken Sie aber, dass dazu zusätzliche Software benötigt wird (z. B. Adobe Acrobat Writer) und diese Software ist nicht billig.
· Der umgekehrte Weg, nämlich PostScript-ähnliche Dateien, auf ihr ursprüngliches Format (oder Kodierung) zurückzuführen ist in der Regel versperrt. Das hat einerseits technische Gründe (die Umkehrung ist nicht eindeutig), anderseits ist es von den Strategen auch so gewollt. Es muss ja wohl einen Weg geben, um auch auf elektronischem Wege etwas zu publizieren, von dem sowohl der Autor wie auch der Leser Gewähr hat, dass diese Publikation authentisch bleibt und nicht von irgendwelchen Personen unautorisiert und ohne Mitwissen der Betroffenen, verändert, verfälscht, missbraucht oder entwendet werden kann. Das kann auch als einen Service an den Leser gesehen werden, braucht doch auch er in vielen Fällen die Gewissheit, dass ihm ein authentisches Dokument vorliegt. Alles andere würde verunsichern. Schliesslich sei angeführt, dass geistiges Eigentum immer noch geschützt ist. Bei Zuwiderhandlung sieht unser demokratisch gestaltetes Gesetzt, empfindliche Strafen vor.

Datei explizit unter einem bestimmten Format öffnen
Mittels Word-Dialog
1. Ausgehend vom Word-Hauptmenü rufen Sie den Dialog Extras - Optionen... auf.
2. Wechsel Sie in das Register Allgemein.
3. Aktivieren Sie die Option Konvertierung beim Öffnen bestätigen.
4. Schliessen Sie den Dialog mit Ok ab. MS Word wird sich später an diese Einstellung erinnern.
5. Öffnen Sie nun die fragliche Datei über den Dialog Datei - Öffnen....
6. MS Word fragt bei Ihnen jetzt nach, in welchem Format die Datei zu öffnen ist. Wählen Sie von der Liste das gewünschte Format.

Anmerkungen
· Wenn die besagte Option ausgeschaltet ist (was dem Standard entspricht), versucht MS Word auf Grund der Dateierweiterung eigenständig zu eruieren, welches Format am besten auf die Datei passen könnte.
· Die Anzahl der Möglichkeiten, welche Ihnen MS Word anbietet hängt auch davon ab, welche Textkonverter Sie auf dem Rechner installiert haben. Dabei ergeben sich folgende möglichen Konstellationen:
-Filter welche direkt in MS Word eingebaut sind (z.B. RTF)
-Zusätzliche Filter, welche bei einer standardmässigen Installation von MS Office installiert werden
-Zusätzliche Filter welche über den Office-Setup (Einstellungen - Systemsteuerung - Software Microsoft Office...) nachinstalliert werden können
-Zusätzlich (aktuelle) Filter, welche Sie über das Internet von Microsoft herunter laden können und im so genannten Konverterpack zusammengefasst sind.
Mittels VBA
Um eine Datei mit VBA unter einem bestimmten Format zu öffnen, können Sie in vielen Fällen auf Word-integrierte Konstanten zurückgreifen, welche sich im Objektkatalog von MS Word finden lassen. Sie können aber nicht davon ausgehen, dass dies für jedes Format zutrifft.
Bedenken Sie, dass die Installation eines zusätzlichen Konverters nicht bewirkt, dass diese Konstanten dementsprechend in MS Word ergänzt würden. In diesem Falle sind Sie auf eine dynamischere Vorgehensweise angewiesen. Dabei muss die Liste der verfügbaren Konverter ausgelesen werden.
Verbreitete Text- und Grafikformate für welche Microsoft keine Filter bzw. Konverter bereit stellt

Grafikfilter

· Nicht unterstützt sind CorelDraw Grafiken höher als Version 6.0. Der Filter, welcher Microsoft noch zur Verfügung stellt, ist also - für PC Begriffe - uralt. Der Grund, weshalb Microsoft diesen Filter nicht hochzieht ist der, dass der kanadische Softwarehersteller Corel 1996 alle Rechte für WordPerfect erworben hat. WordPerfect stellt eine Konkurrenz zu MS Word dar. Microsoft hat dementsprechend reagiert. Sie können mit der Zwischenablage arbeiten, um diese Grafiken trotzdem zu transferieren. Die Qualität leidet allerdings darunter klar sichtbar. Der bessere Weg ist sicher, diese Grafikdateien unter CorelDraw in einem Word-kompatiblen Format abzuspeichern und sie dann in MS Word zu übernehmen. CorelDraw Grafikdateien laufen übrigens unter der Dateierweiterung *.cdr.

Textkonverter
· Microsoft stellt weder Import- noch Exportfilter für Dokumente zu Verfügung, welche unter StarWriter - besser bekannt als StarOffice - erstellt wurden. Dieser Textprozessor bzw. dieses Office-Paket wird heute von der Firma Sun Microsystems vertrieben, Rechte welche die Firma von Star Division Corp erworben hat. Der Grund, wieso Microsoft keinen Filter zur Verfügung stellt, ist Konkurrenzdenken. Liegen Ihnen solche Dokumente vor, dann haben Sie grundsätzlich drei Optionen. Sie können diese Datei mit StarWriter unter einem Format abspeichern, welches MS Word interpretieren kann. Benutzer von StarWriter rühmen den MS Word Exportfilter, welcher in StarWriter integriert ist. Alternativ können Sie die Datei auch in StarWriter im RTF-Format abspeichern, ein Format, welches MS Word problemlos und ohne Zusatz interpretieren kann. Als weitere Option, können Sie einen Konverter von einem Drittanbieter erwerben. StarWriter Dateien laufen übrigens unter der Dateierweiterung *.sdw.
· Seit der Textprozessor, welcher ursprünglich unter Ami WordPro vermarktet wurde zuerst an Lotus und dann an IBM übergegangen ist, werden die Filter für diesen Textprozessor von Microsoft nicht mehr hochgezogen. Die letzte Version, für welche es von Microsoft noch einen Filter gibt, heisst Ami Pro 3.0. Der Filter ist also für PC-Begriffe uralt. Für Sämtliche Lotus WordPro Versionen, gibt es keinen Filter von Microsoft. Grund für das Fehlen eines Konverters ist Konkurrenzdenken. Um solche Dateien in MS Word verfügbar zu machen, speichern Sie das Dokument in Lotus WordPro im RTF-Format oder im WordPro 3.0 Format ab. MS Word kann RTF direkt interpretieren, für das Ami Pro 3.0 Format ist im Konverterpack von Microsoft (den Link dazu finden Sie in diesem Skript) einen Filter vorgesehen. Sollten Sie keinen Zugang zu Lotus WordPro haben, dann können Sie sich einen Filter von einem Drittanbieter erwerben. Schauen Sie sich dazu den am Schluss dieses Skriptes eingeblendeten Link von Microsoft bezüglich Lotus WordPro an. Microsoft nennt in diesem Artikel auch Firmen, welche solche Filter vertreiben. Die letzte Alternative, welche sich Ihnen bietet, ist die Lotus WordPro Datei unter MS Word zu öffnen. Stellen Sie dann aber den Dateityp auf Text aus beliebiger Textdatei wiederherstellen. Sie müssen dann selber beurteilen, ob dieses Ergebnis für Sie brauchbar ist. Lous WordPro Dateien laufen übrigens unter der Dateierweiterung *.lwp.

Der HTML-Filter für MS Word
Die Reaktion von Microsoft auf die Verbreitung von HTML
Nicht nur auf die Herausforderung von Netscape im Bezug auf einen Web-Browser, sondern auch was ein HTML-Filter für MS Office-Dateien betrifft, reagierte Microsoft unter Zeitdruck und ziemlich in Panik. Microsoft hat schliesslich über viele Jahre auf ein WYSIWYG-Konzept (von vielen Benutzern ziemlich gierig aufgenommen) gesetzt und stand jetzt unvermittelt im Regen.

Import versus Export von HTML-kodiertem Text
Auch im Zusammenhang mit HTML ist die Unterscheidung von Import- und Exportfilter wichtig.
Dass der Benutzer ein in HTML kodierten Text möglichst detailgetreu nach MS Word importieren kann, ist selbstverständlich zu begrüssen. Dies gelingt bereits mit Word 97 und ab Word2000 ist das Resultat des Imports in der Praxis auch erstaunlich gut. Ob MS Word über einen Exportfilter für HTML verfügen soll, und damit Microsoft indirekt bestimmt, wie man komplexe Textdokumente in HTML-Codierung umsetzt, ist dagegen doch sehr fragwürdig.

Dateiformate versus Kodierungen
Es wurde in diesem Skript bereits erwähnt, dass textorientierte Dateien ganz unterschiedlich in elektronischer Form niedergelegt werden können. MS Word, als so genannten WYSIWYG-Anwendung, verwendet ein hoch komplexes Format, welches Gefässe mit völlig properitären (herstellerabhängigen) Schnittstellen vorsieht. Diese komplexen Formate sind im hohen Masse anfällig für Dateikorruption (Defekte). Eine allfällige Reparatur ist bei diesen Formaten nicht zwingend, sondern nur in Einzelfällen möglich.
Der globale Austausch von Daten im Internet verlangt einfache und transparente Strukturen. HTML ist kein Format, sondern eine Art Sprache (Codierung), welche bestimmt, wie Text am Bildschirm (oder beim Druck) dargestellt wird. HTML und Vergleichbares erfüllen die Robustheit und die Transparenz, welche im Internet gefordert ist. Es ist meines Erachtens weder ratsam noch erwünscht, dass nun Microsoft, spätestens mit MS Office2000 daherkommt und den an sich äusserst schlanken HTML-Code mit doch sehr eigenen Vorstellungen wieder im hohen Masse aufbläht und intransparent macht.

Wieso Sie Word-Dateien nicht nach HTML exportieren sollten
Nicht das Schlimmste aber ein weiterer Nachteil: die HTML-Dateien (oder besser gesagt das Pseudo-HTML von Microsoft), welches MS Word erstellt, lässt die Dateigrösse bereits wieder auf das Mehrfache des Nötigen anwachsen, was sich selbstverständlich in spürbar längeren Ladezeiten von solchen Dateien niederschlägt.
Dass Microsoft ein Interesse (auch pekuniärer Natur) hat, auch das Internet-Umfeld zu dominieren bzw. zu monopolisieren, ist einsichtig und erkennbar. Ob das mittel- und langfristig im Sinne der Kunden ist, möchte ich doch sehr bezweifeln.
Kommt hinzu, dass echtes HTML erlernbar und ausgezeichnet dokumentiert ist. Der Pseudo-HTML-Code, welcher MS Word produziert ist dagegen schlecht dokumentiert und kaum verständlich. Bei einem Grossteil dieses Codes geht es übrigens darum, die Formatvorlagen, welche in einem MS Word-Dokument vorhanden sind, zu beschreiben, damit Word-Dokumente und HTML-codierte Dokumente nahtlose ineinander übergehen und auch über das Web austauschbar werden. Bedenkt man nun, dass nicht einmal Word-Dokumente, welche komplex formatierte nummerierte Listen enthalten innerhalb des Word-Formats portierbar sind, dann sind die Ambitionen von Microsoft als grosskotzig zu bezeichnen und eigentlich nicht prioritär. Microsoft soll erst mal eine Word-Anwendung ausliefern, welche wirklich funktioniert!
Echtes HTML stützt sich nicht auf Formatvorlagendefinitionen, welche intransparent irgendwo in der Dokumentvorlage (oder sogar im Dokument) abgelegt sind und zwingend über einen ganzen Rattenschwanz von Dialogen administriert werden müssen, sondern kennt eine Erweiterung für das Definieren von Absatz-, Zeichen- und Listenformatvorlagen. Diese Erweiterung nennt sich CSS (Cascading Style Sheets) und passt viel besser in das Umfeld von HTML, als Office-spezifische MarkUp-Tags.

Zusätzlicher Word-Exportfilter, welcher einen schlankeren HTML-Code zurücklässt
Wenn Sie trotz allen Bedenken aus MS Word HTML-Code erzeugen möchten und dabei vermeiden wollen, dass beim Erstellen des Codes Office-spezifische MarkUp-Tags (XML-Tags) in grossen Mengen produziert werden, dann sollten Sie sich auf einen zusätzlichen Filter von Microsoft stützen, welcher Webseiten erstellt, die von XML-Tags mehrheitlich geläutert sind. Damit ist Microsoft also wieder einen halben Schritt zurückgewichen. Bei XML (Extensible Markup Language) handelt es sich übrigens um eine Art Sprache, welche es ermöglicht, benutzerdefinierte Tags (und sogar ganze benutzerdefinierte Dokumenttypen) zu beschreiben (festzulegen), Tags, welche dann ihrerseits Format- und andere Anweisungen für das Schriftstück darstellen. Hier wird also nicht direkt gekocht, sondern es werden in einem zusätzlichen (verkapselten) «Header» zuerst Kochanweisungen entworfen, welche dann weiter unten auf die eigentliche Substanz der Datei appliziert werden.
Um gefilterte Webseiten aus MS Word zu erzeugen, können Sie konkret wie folgt vorgehen:

Office2000

Sie können den dazu nötigen Filter unter der folgenden Adresse herunterladen. Dort steht auch, wie dieser Filter zu installieren und zu verwenden ist. Bitte beachten Sie, dass dieser Filter ausschliesslich für MS Office2000 geschaffen wurde. In neueren Office-Versionen ist ein vergleichbarer Filter bereits eingebaut.
· HTML-Filter 2.1 für Office 2000

Anmerkungen
· Erwarten Sie keine Wunder von diesem Konverter! Mengenmässig wird der HTML-Code durch diesen Filter nach meinen Beobachtungen um ca. 20-40 % schlanker.
· Wie Sie den HTML 2.1 Filter ex VBA (Makro) anziehen können, erfahren Sie im folgenden Skript von Microsoft: HOWTO: Programmatically Use the HTML Filter DLL to Save Word Documents as Plain HTML.

Office 2002 (XP) und Office 2003
Um in neueren Word-Versionen von einem vergleichbaren Filter zu profitieren, aktivieren Sie bitte zuerst unter Extras - Optionen... - Allgemein - Weboptionen... diejenigen Features, welche Sie beim HTML-Export wirklich benötigen und stellen dann beim Exportieren im Dialog Datei - Speichern unter... den Dateityp Webseite gefiltert (*.htm/*.html) ein. Bei meinen Tests reduzierte sich durch den Einsatz dieses Filters die Dateigrösse um ca. die Hälfte (im Vergleich zur unfiltrierten HTML-Datei, welche ebenfalls aus MS Word erzeugt wurde).
Wie der HTML-Filter den Export von Grafiken aus einem Word-Dokument ermöglicht
Ein sehr positiver Nebeneffekt, des HTML-Exportfilters ist, dass Sie ein Werkzeug erhalten, welches es ermöglicht, auf rasche und bequeme Art und Weise alle in einem Dokument eingebetteten Bilder, in einem Rutsch in eigenständige Grafikdateien zu exportieren. Gehen Sie dabei wie folgt vor:
1. Öffnen Sie eine Word-Datei, welche eingebettete Bilder enthält, in MS Word
2. Rufen Sie ausgehend vom Word-Hauptmenü den Befehl Datei - Speichern unter... auf.
3. Stellen Sie im Auswahlfeld mit der Bezeichnung Dateityp: den Wert Webseite ein und bestätigen Sie Ihre Wahl. Merken Sie sich dabei den Ordner, in welchem die Datei gespeichert wird.
4. Arbeiten Sie sich im Windows-Explorer zu diesem Ordner vor. Angenommen Ihre Datei heisst Sommerferien.doc, dann werden Sie dort einen Unterordner mit der Bezeichnung Sommerferien-Dateien erkennen. In diesem Unterverzeichnis werden Sie Ihre Grafikdateien vorfinden.
Anmerkungen
· Nur eingebettete (eingefügte) nicht aber verlinkte Grafiken können so exportiert werden. Verlinkte Grafiken liegen eh bereits als eigenständige Dateien vor.
· In den meisten Word-Installationen kann das oben beschriebene Vorgehen abgekürzt werden. Gucken Sie nach, ob Sie im Menü Datei den Eintrag Als Webseite speichern... vorfinden.
· Sie können nicht beeinflussen, unter welchem Dateinamen die Grafiken exportiert werden. MS Word vergibt die Zeichenfolge image und zählt dann hoch (image001, image002, image003, etc.). Selbstverständlich können diese Dateien anschliessend im Windows-Explorer umbenannt werden. Das Aktivieren der Bildvorschau im Windows-Explorer, kann Ihnen bei der Zuordnung der Bilder behilflich sein.
· Das Grafikformat (png, jpg oder gif), welches beim Export entsteht, kann nur sehr bedingt vorgegeben werden. Immerhin, in neueren Word-Versionen existiert die Option Extras - Optionen... - Allgemein - Weboptionen... - Browser - PNG als Grafikformat zulassen. Um die Bilder in ein anders Dateiformat zu konvertieren, können Sie den Microsoft Photo Editor verwenden, welcher in MS Office enthalten ist, allenfalls aber noch nachinstalliert werden muss.
· Oft werden für dasselbe Bild gleich zwei Grafikdateien mit unterschiedlicher Dateigrösse angelegt. In diesem Fall unterscheiden sich die Bilder im Dateiformat und/oder in Bezug auf ihre Auflösung.
· Sollten Sie mit der Bildgrösse oder der Auflösung der Bilder nicht zufrieden sein, dann können Sie in vielen Fällen über Extras - Optionen... - Allgemein - Weboptionen... - Bild eine Feinabstimmung vornehmen.
· Sollten sich einzelne Grafiken in Ihrem Dokument aus mehreren Komponenten (AutoFormen, Textfelder, Grafiken mit Textumfluss) zusammensetzen, dann müssen Sie diese Gebilde unbedingt vor dem Export gruppieren. Bei Missachtung, entsteht kein integrales, sondern ein fragmentiertes Ergebnis.

 

Home | Contact | Privacy | Sitemap
Copyright © 2002 - 2007, SautinSoft. All rights reserved.