Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Encodage de caractères avec Perl
Un tutoriel de Moritz LENZ

Le , par djibril

0PARTAGES

5  0 
Bonsoir,

Voici un nouveau tutoriel issu d'une traduction : Encodage de caractères avec Perl. L'auteur du tutoriel est Moritz LENZ.

Bonne lecture et n'hésitez pas à laisser vos commentaires.

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de dmganges
Membre chevronné https://www.developpez.com
Le 05/11/2014 à 18:10
MERCI djibril
Cet article fixe bien les choses pour moi.

Je me permet d'ajouter un lien qui m'a beaucoup servi, celui de tous les alphabets en Unicode

Je note aussi :
Citation Envoyé par IV. Unicode
En dehors des lettres et autres « caractères de base », il y a aussi des accents aigus ou graves, des décorations (exemple :¨ ou ~) qui peuvent être ajoutés aux caractères de base.

Si le caractère de base est suivi par un ou plusieurs de ces caractères de marquage, ce composé forme un caractère logique nommé « graphème ».

Il est à noter que beaucoup de graphèmes précomposés existent pour les caractères qui sont définis dans d'autres jeux de caractères, et ceux-ci sont souvent mieux supportés par les logiciels courants que les caractères de base combinés aux caractères de marquage.
Dans certaines langues, en arabe, en khmer, par exemple, il n'a pas été possible de créer des graphèmes précomposés pour chaque « caractères de base », cela en aurait généré un trop grand nombre.
Les "accents aigus ou graves, des décorations", appelés également diacritiques, sont donc des caractères à échappement nul, autrement dit, ils viennent compléter le caractère de base, dessus/dessous en arabe, voire encadrer le caractère de base en khmer par exemple :

ៀ
pour 17c0.
Dans les tables unicodes en lien, le caractère de base est parfois représenté, comme pour 17c0, par un petit cercle en pointillé, mais pas toujours...
A dire vrai, ces caractères composés sont très mal gérés par la plupart des logiciels car un graphème est codé par plusieurs caractères unicodes, 2 en général, alors qu'on doit voir un seul caractère à l'affichage.
0  0 
Avatar de djibril
Responsable Perl et Outils https://www.developpez.com
Le 17/07/2015 à 11:52
Bonjour,

Le premier code du chapitre VI vient d'être mis à jour car il y avait un bogue.
Merci pour le lecteur ayant fait ce retour.
0  0