[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
 
[an error occurred while processing this directive] [an error occurred while processing this directive]
Skåne Sjælland Linux User Group - http://www.sslug.dk Home   Subscribe   Mail Archive   Forum   Calendar   Search
MhonArc Date: [Date Prev] [Date Index] [Date Next]   Thread: [Date Prev] [Thread Index] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Fri, Jul 01, 2005 at 01:26:43PM +0200, Ole Laursen wrote:
> Jacob Sparre Andersen <sslug@sslug> writes:
> 
> > Er det nok at justere definitionen af »char« i GCC til at være på 32
> > bit og oversætte kernen for at køre med en 32 bit fast-længde
> > tegnkodning? Eller er det ikke?
> 
> Selv hvis POSIX skulle tillade det, kan man simpelthen ikke - der er
> ufatteligt mange programmer der er bygget op om at char er en byte.
> Det kan simpelthen ikke lade sig gøre.
> 
> Hvis du virkelig tror det er realistisk, kan jeg bedre forstå dine
> udtalelser.

Både C og POSIX (og C++) er tegnsætsuafhængige standarder.
De skal kunne fungere både med ascii, iso-8859-15, japansk, 
utf-8 og utf-16 og ucs4 som tegnsæt. Dette er en 'god ting' TM.

Jeg tror også det vil blive meget svært at få
standardiseringsorganisationerne til at ændre det, der er for mange
implementationer der er afhængig af understøttelsen af bestemte tegnsæt.

Og ændre gcc og linux til at have 32 bit som grundenhed for tegn er nok
noget der vil tage meget lang tid. Det har taget 10-12 år at komme frem
til det niveau af implementering af 10646 som vi har i dag, og som langt
fra er perfekt.

Jeg tror ikke der vil være goodwill omkring en POSIX standard med 32
bit som almen tegnbredde. Og hvilken 32-bit version skulle det være? Der
er mindst 2 versioner, little-endian og big-endian.

Derimod er der goodwill omkring at benytte 32 bit internt i
programmeringssprogene til al tegnbehandling. Og C++ er faktisk modent
til at få forslag om udbygning af denne suppoert.

Hilsen
keld


 
Home   Subscribe   Mail Archive   Index   Calendar   Search

 
 
Questions about the web-pages to <www_admin>. Last modified 2005-08-10, 20:55 CEST [an error occurred while processing this directive]
This page is maintained by [an error occurred while processing this directive]MHonArc [an error occurred while processing this directive] # [an error occurred while processing this directive] *