NSI : Theme 6 : Representation d'un texte en machine
Encodage ?
Lors des premières transmissions d'information (télégraphe optique de Chappe en 1794 , télégraphe éléctrique de Cooke et Wheatstone en 1938, ...)il a été nécéssaire de définir un code pour representer les differents symboles utilisé dans le anguage courant ( lettre,chiffre,ponctuation, ...). Ce code peut être visuel(drapeau,tour Chappe ), codé à l'aide de plusieur impulsions ( code Morse), ... C'est ce que l'on appelle l'encodage.
Un ordinateur utilisant un système binaire pour stoker , transmettre et utiliser les données , il a fallu choisir un moyen de representer les differentes lettre et symbole à l'aide de 0 et de 1. Un des premiers systeme d'encode binaire ( sur 5 bits) et du au français Emile Baudot en 1874.
Quel representation choisir ?
Au début de l'automatisation des recensements ( en 1890) machines fonctionnat à l'aide de cartes perforées ) chaque machines/constructeur possédait son propre système d'encodage. Certain étaient liés à la structure matèrielle du lecteur de cartes perforées par exemple ( lecteur purement méchaniquement) et qu'il y avait incompatibilité entre les 2 plus grands constructeur de l'époque (Bull et IBM).
C'est prolifération d'encodage possèdeplusieur inconvénients :
-
Changement d'appareils compliqué
-
Transfert de données compliqué
-
Obligée de redévelloper des programmes à chaque machine
Le besoin pour un encoage standardisé se fait ressentir.
- A.S.C.I.I. : En 1963, après un travail du Département de Défense des État UNis d'Amerique , une première norme apparait , c'est la naissance de l'encodage A.S.C.I.I American Standard Code for Informatique Interchange. Elle définit un standard pour code les caratères en binaire.
Nombre de bits utilisés | 7 soit 2⁷ symboles differents donc 128 symboles differents |
Symbole codable en ASCII | Toutes les lettres ( majuscule, minuscule, et tout les letre sans accent) ansi que les chiffre et la ponctuation |
Avantages | Universel , prend peu de place , sa compatibilité avec d'autre appareils |
Inconvéniens | Non adapté pour toutes les langues ansi qu'un grand nombre de caratère limité |
- ISO 8859-15 : La norme ISO-15 ( aussi appelée Latin-9) est un nomre européenne qui apparait en 1998. Elle concerne les pays suivant : France ,Allemage , Espagne , Italie , Portugale , Finlande , Sude ,Norvège , Danemark et Cananda .
Nombre de bits utilisés | 8 soit 2⁸ symboles differents donc 256 symboles differents |
Symbole codable en ASCII | A.S.C.I.I + les charatères speciaux |
Avantages | Contabilité avec les pays UE et compatible avec A.S.C.I.I. |
Inconvéniens | Marche qu'avec l'afabet latin et pas de smiley :( |
- UTF-8 : L'encodage UTF-8 ( Unicode Transformation Format) apparaît avec la norme ISO/CEI 10646 de 1993 . Il est depuis devenue entièrement compatible avec la norme Unicode ( qui a pour but depuis 1991 d'offirir un encodage commun au monde entier , pour cela la norme Unicode nécessite 2²¹ nombres).
Nombre de bits utilisés | Entre 1 et 4 octet mais uniquement 2²¹ donc 2 milliard symboles differents |
Symbole codable en ASCII | A peu près tout les symboles |
Avantages | Universel , prend en charge toutes les langes , compatible avec A.S.C.I.I |
Inconvéniens | Peu prenddre de la place celon les charatère |
C'est maintenant l'encodage ke plus répandu sur internet ( utilisé par environs 95% des site internet en 2019)