[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
[an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]![]() |
![]() |
![]() |
|||||||||||||||||||||||||
|
|||||||||||||||||||||||||||
![]() |
![]() |
![]() |
On Sat, Jul 02, 2005 at 06:28:47PM +0200, Ole Laursen wrote: > Keld Jørn Simonsen <sslug@sslug> writes: > > > Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere > > måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å > > og som to tegn: a med bolle. Normaliseringen sørger så for at en hel > > tekst (fil) enten koder alle å-erne på den ene eller den anden måde. > > Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at > > det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne > > kodes på forskellig måde. > > Skulle sekvensen 'a + bolle over foregående tegn' så være ugyldig > til fordel for 'å' eller hvordan? Ja, i en normaliserngsform vil enkelttegnet 'å' være ulovlig (fx i NFD), og i en anden normaliseringsform er 'a+bolle' ulovlig (fx i NFC). > >> Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge > >> fast i ISO-8859-* modarbejder du den idé. > > > > Jeg tror man skal kunne tillade flere tegnsæt samtidigt. > > Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1 > > iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger > > og endianner, bare for at tage danske forhold. Vi skal altså kunne > > snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores > > egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8 > > filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne > > kunne behandle fremover, også de næste 10-20-30 år. > > Det er naturligvis klart at man bliver nødt til at kunne behandle data > i andre tegnsæt. Men det dejligste er nu hvis alle bruger det samme så > man ikke behøver at spekulere på det. Det kan ikke lade sig gøre med > ISO-8859-*. Det er derfor man anbefaler at bruge ucs-4 som intern proces-kode på alle maskiner, i bl.a. C og C++-standarderne (wchar_t). Hilsen keld
![]() |
![]() |
![]() |
||||||||||||
|
||||||||||||||
![]() | ||||||||||||||
|
||||||||||||||
![]() |
![]() |
![]() |