Numérique et Sciences Informatiques > Représentation des Données : Types et Encodage > Types de Données de Base > Caractères (encodage ASCII, UTF-8)
Représentation des caractères : ASCII et UTF-8
Découvrez comment les caractères sont représentés en informatique grâce aux encodages ASCII et UTF-8. Comprenez les bases, les limitations et les avantages de chaque méthode.
Introduction à la représentation des caractères
En informatique, tout est représenté par des nombres binaires (0 et 1). Les caractères (lettres, chiffres, symboles, etc.) ne font pas exception. Un encodage de caractères est un système qui associe chaque caractère à un nombre unique. Ce nombre permet ensuite de représenter le caractère en binaire. Deux encodages importants sont ASCII et UTF-8. Comprendre ces encodages est essentiel pour manipuler correctement du texte dans un programme.
L'encodage ASCII
L'ASCII (American Standard Code for Information Interchange) est un encodage de caractères qui utilise 7 bits pour représenter chaque caractère. Cela signifie qu'il peut représenter 27 = 128 caractères différents. L'ASCII comprend les lettres majuscules et minuscules de l'alphabet anglais (A-Z, a-z), les chiffres (0-9), les signes de ponctuation et quelques caractères de contrôle (comme le retour chariot ou la tabulation).
Fonctionnement de l'ASCII :
Chaque caractère se voit attribuer un nombre entre 0 et 127. Par exemple, la lettre 'A' a le code ASCII 65, la lettre 'a' a le code ASCII 97 et le chiffre '0' a le code ASCII 48.
Limitations de l'ASCII :
L'ASCII est limité car il ne peut pas représenter les caractères accentués (é, à, ç), les symboles monétaires ($, €, £) ou les caractères utilisés dans d'autres langues (chinois, arabe, russe, etc.). C'est pourquoi des encodages plus riches ont été développés.
L'encodage UTF-8
UTF-8 (Unicode Transformation Format - 8-bit) est un encodage de caractères beaucoup plus puissant et flexible que l'ASCII. Il fait partie de la norme Unicode, qui vise à représenter tous les caractères de toutes les langues du monde.
Caractéristiques principales de l'UTF-8 :
Avantages de l'UTF-8 :
Encodage et Décryptage
L'encodage transforme un caractère en sa représentation numérique selon l'encodage utilisé (ASCII, UTF-8). Le décryptage fait l'opération inverse, transformant le code numérique en caractère affichable. Une erreur d'encodage se produit quand on essaie de décoder un texte avec un encodage différent de celui utilisé à l'encodage. Exemple : Afficher un fichier UTF-8 comme étant de l'ASCII.
Table de correspondance ASCII
Décimal
Hexadécimal
Caractère
Description
65
41
A
Lettre majuscule A
97
61
a
Lettre minuscule a
48
30
0
Chiffre zéro
32
20
Espace
Ce qu'il faut retenir
FAQ
-
Pourquoi l'ASCII est-il encore important aujourd'hui ?
Bien que l'UTF-8 soit plus complet, l'ASCII reste important car il est la base de nombreux encodages, y compris l'UTF-8. De plus, il est simple et efficace pour les textes contenant uniquement des caractères anglais. -
Qu'est-ce qu'une erreur d'encodage et comment l'éviter ?
Une erreur d'encodage se produit lorsque le logiciel tente de décoder un texte avec un encodage différent de celui utilisé pour l'encoder. Pour l'éviter, il faut s'assurer que l'encodage utilisé pour lire un fichier correspond à l'encodage utilisé pour l'enregistrer. Par exemple, si un fichier a été enregistré en UTF-8, il faut l'ouvrir en spécifiant l'encodage UTF-8. -
Comment puis-je connaître l'encodage d'un fichier texte ?
Il existe plusieurs façons de déterminer l'encodage d'un fichier texte. Certains éditeurs de texte affichent l'encodage dans la barre d'état. Vous pouvez également utiliser des outils en ligne de commande ou des bibliothèques de programmation pour détecter l'encodage.