[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
 
[an error occurred while processing this directive] [an error occurred while processing this directive]
Skåne Sjælland Linux User Group - http://www.sslug.dk Home   Subscribe   Mail Archive   Forum   Calendar   Search
MhonArc Date: [Date Prev] [Date Index] [Date Next]   Thread: [Date Prev] [Thread Index] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Sat, Jul 02, 2005 at 06:28:47PM +0200, Ole Laursen wrote:
> Keld Jørn Simonsen <sslug@sslug> writes:
> 
> > Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere
> > måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å
> > og som to tegn: a med bolle. Normaliseringen sørger så for at en hel
> > tekst (fil) enten koder alle å-erne på den ene eller den anden måde.
> > Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at
> > det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne
> > kodes på forskellig måde.
> 
> Skulle sekvensen 'a + bolle over foregående tegn' så være ugyldig
> til fordel for 'å' eller hvordan?

Ja, i en normaliserngsform vil enkelttegnet 'å' være ulovlig (fx i NFD), og i en
anden normaliseringsform er 'a+bolle' ulovlig (fx i NFC).

> >> Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge
> >> fast i ISO-8859-* modarbejder du den idé.
> >
> > Jeg tror man skal kunne tillade flere tegnsæt samtidigt.
> > Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1
> > iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger
> > og endianner, bare for at tage danske forhold. Vi skal altså kunne
> > snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores
> > egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8
> > filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne
> > kunne behandle fremover, også de næste 10-20-30 år.
> 
> Det er naturligvis klart at man bliver nødt til at kunne behandle data
> i andre tegnsæt. Men det dejligste er nu hvis alle bruger det samme så
> man ikke behøver at spekulere på det. Det kan ikke lade sig gøre med
> ISO-8859-*.

Det er derfor man anbefaler at bruge ucs-4 som intern proces-kode på
alle maskiner, i bl.a. C og C++-standarderne (wchar_t).

Hilsen
keld


 
Home   Subscribe   Mail Archive   Index   Calendar   Search

 
 
Questions about the web-pages to <www_admin>. Last modified 2005-08-10, 20:55 CEST [an error occurred while processing this directive]
This page is maintained by [an error occurred while processing this directive]MHonArc [an error occurred while processing this directive] # [an error occurred while processing this directive] *