Developpez.com - Rubrique Perl

Le Club des Développeurs et IT Pro

Encodage de caractères avec Perl

Un tutoriel de Moritz LENZ

Le 2014-11-04 22:09:55, par djibril, Responsable Perl et Outils
Bonsoir,

Voici un nouveau tutoriel issu d'une traduction : Encodage de caractères avec Perl. L'auteur du tutoriel est Moritz LENZ.

Bonne lecture et n'hésitez pas à laisser vos commentaires.
  Discussion forum
2 commentaires
  • dmganges
    Membre chevronné
    MERCI djibril
    Cet article fixe bien les choses pour moi.

    Je me permet d'ajouter un lien qui m'a beaucoup servi, celui de tous les alphabets en Unicode

    Je note aussi :
    Envoyé par IV. Unicode
    En dehors des lettres et autres « caractères de base », il y a aussi des accents aigus ou graves, des décorations (exemple :¨ ou ~) qui peuvent être ajoutés aux caractères de base.

    Si le caractère de base est suivi par un ou plusieurs de ces caractères de marquage, ce composé forme un caractère logique nommé « graphème ».

    Il est à noter que beaucoup de graphèmes précomposés existent pour les caractères qui sont définis dans d'autres jeux de caractères, et ceux-ci sont souvent mieux supportés par les logiciels courants que les caractères de base combinés aux caractères de marquage.
    Dans certaines langues, en arabe, en khmer, par exemple, il n'a pas été possible de créer des graphèmes précomposés pour chaque « caractères de base », cela en aurait généré un trop grand nombre.
    Les "accents aigus ou graves, des décorations", appelés également diacritiques, sont donc des caractères à échappement nul, autrement dit, ils viennent compléter le caractère de base, dessus/dessous en arabe, voire encadrer le caractère de base en khmer par exemple :

    ៀ
    pour 17c0.
    Dans les tables unicodes en lien, le caractère de base est parfois représenté, comme pour 17c0, par un petit cercle en pointillé, mais pas toujours...
    A dire vrai, ces caractères composés sont très mal gérés par la plupart des logiciels car un graphème est codé par plusieurs caractères unicodes, 2 en général, alors qu'on doit voir un seul caractère à l'affichage.
  • djibril
    Responsable Perl et Outils
    Bonjour,

    Le premier code du chapitre VI vient d'être mis à jour car il y avait un bogue.
    Merci pour le lecteur ayant fait ce retour.