Vada na kráse MS Wordu 9. 12. 1997

Dneska se mi čirou náhodou dostalo dalšího důkazu, že moje nedělní kritická zmínka na adresu Microsoftu na konci předchozího příspěvku je stále velice aktuální. Když s někým spolupracuji, tak jsem nucen používat Microsoft Word (for Windows 95, Version 7.0a, běžící pod operačním systémem Windows NT 4.0 Workstation), který je u nás v práci oficiálním standardem pro tvorbu a výměnu dokumentů. Vymazal jsem poslední dvě třetiny celkem krátkého souboru (text s několika málo rovnicemi), který jsem zrovna editoval a uložil zkrácenou verzi pod novým jménem. Podivil jsem se, že zatímco původní delší verze zaujímala na disku 372 kB (což je na to jak to bylo krátké taky pěkně hodně), nová o dvě třetiny kratší verze zabírala najednou celých 429 kB (zcela přesně 439296 bajtů)! Tak jsem ji překopíroval na moji UNIX mašinu a odstranil z ní všechno MS formátování svým w2a (Word to ASCII) konvertorem. A z hrůzou jsem jistil, že ten dlouhý soubor obsahuje toto:

A já si myslel, že Word for Windows 95 už tyto problémy odstranil, že se text v *.doc již nikdy neduplikuje, že to byl jen problém Windows 3.1. To alespoň doposud tvrdím k návodu k používání výše zmíněného w2a.

Dal jsem si práci a zjistil, že v tom obrovském dokumentu 439296 bajtů dlouhém bylo jen 4440 bajtů užitečného textu plus asi 2500 bajtů informace o formátování mých několika rovnic. Kdybych to psal v Latexu, potřeboval bych na ty rovnice pouhých 220 bajtů. K tomu bych ten celý malý dokument musel obalit asi 600 až 1000 bajty Latexových příkazů, což by dohromady dalo asi 5500 bajtů. MS Word mi to ale uložil v dokumentu, který je 80 krát delší! (Je to prostě jasný příklad mé červnové stížnosti na neefektivní využívání diskového prostoru Microsoftem. Žertovné vysvětlení významu "zkratky" Windows, které najdete tady, tvrdící, že Windows znamená "Will Install Needless Data On Whole System" neboli "Nainstaluje nepotřebná data po celém systému" má v sobě více než zrnko pravdy).

Nakonec jsem uzavřel MS Word, znovu ho nastartoval, načetl onen dlouhý soubor, uložil ho pod jiným jménem. Výsledek byl o mnoho lepší, nový soubor zabíral pouhých 51712 bajtů, což je ale pořád ještě 9,4 krát více než kolik je potřebné minimum. Po použití w2a jsem zjistil, že nový soubor stále ještě obsahuje veškerý text dvakrát docela napřeskáčku, už tam ale alespoň nebyl žádný džank a důvěrné informace, které s textem neměly naprosto nic společného. I když by se duplikace textu odstranila, byl by výsledný soubor stále ještě dlouhý asi 47200 bajtů, což je stále 8,5 krát více než je potřeba. Ten původní 370 kilobajtový dokumentů se mi podobným postupem ani po několika pokusech zredukovat nepodařilo. Takže chování MS Wordu i verze 7 je stále ještě dosti náhodné.