[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
 
[an error occurred while processing this directive] [an error occurred while processing this directive]
Skåne Sjælland Linux User Group - http://www.sslug.dk Home   Subscribe   Mail Archive   Forum   Calendar   Search
MhonArc Date: [Date Prev] [Date Index] [Date Next]   Thread: [Date Prev] [Thread Index] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



Keld Jørn Simonsen <sslug@sslug> writes:

>> Det må jeg indrømme jeg aldrig har hørt om, og jeg kan ikke lige finde
>> noget med Google. Kan du uddybe? Så vidt jeg er orienteret, er UTF-8
>> bare en måde at kode tegnene fra ISO-10646 på.
>
> Jeg tror han mener normalisering.

Ja, det fandt jeg også efterhånden ud af da jeg læste lidt mere om
sagen i en FAQ på nettet. Men det ville jo også være et problem hvis
man benyttede UCS-4 som kodning.

> Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere
> måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å
> og som to tegn: a med bolle. Normaliseringen sørger så for at en hel
> tekst (fil) enten koder alle å-erne på den ene eller den anden måde.
> Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at
> det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne
> kodes på forskellig måde.

Skulle sekvensen 'a + bolle over foregående tegn' så være ugyldig
til fordel for 'å' eller hvordan?

>> Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge
>> fast i ISO-8859-* modarbejder du den idé.
>
> Jeg tror man skal kunne tillade flere tegnsæt samtidigt.
> Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1
> iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger
> og endianner, bare for at tage danske forhold. Vi skal altså kunne
> snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores
> egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8
> filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne
> kunne behandle fremover, også de næste 10-20-30 år.

Det er naturligvis klart at man bliver nødt til at kunne behandle data
i andre tegnsæt. Men det dejligste er nu hvis alle bruger det samme så
man ikke behøver at spekulere på det. Det kan ikke lade sig gøre med
ISO-8859-*.

-- 
Ole Laursen
http://www.cs.aau.dk/~olau/


 
Home   Subscribe   Mail Archive   Index   Calendar   Search

 
 
Questions about the web-pages to <www_admin>. Last modified 2005-08-10, 20:55 CEST [an error occurred while processing this directive]
This page is maintained by [an error occurred while processing this directive]MHonArc [an error occurred while processing this directive] # [an error occurred while processing this directive] *