Aller au contenu principal
Espace publicitaire
Fermer

Rechercher un article ou une interview

Date

De l'Abécédaire à l'Unicode

Henri Hudrisier
1 janvier 1990

la codification informatique universelle des écritures du monde comme révolution de nos visions alphabético-centristes du monde

«Un système d'écriture composée de vingt à quarante lettres peut à la rigueur être remplacé par un autre. Il en serait de même pour la langue si elle renfermait un nombre limité d'éléments ; mais les signes linguistiques sont innombrables. »

F. Saussure, Cours de linguistique générale, Paris, réédition Payot 1996, p. 107.





L'abécédaire est souvent le premier livre d'écriture qui est offert à l'enfant. Mais qu'est-ce que l'alphabet ? Quel est son degré d'universalité ? Qu'est ce qui peut équivaloir à notre abécédaire latin pour un petit arabe, un petit japonais, un petit chinois, un petit indien.

Pour le petit arabe et en cela il partage un point commun avec le petit japonais, la langue (ou plutôt l'écriture) va même se plier jusqu'à lui pour lui faciliter l'apprentissage. Les grammairiens qui vivaient à la cour de Bagdad entre le septième et le huitième siècle ont prévu cette facilité qui consiste à noter toutes les voyelles qui d'habitude ne se notent pas en arabe pour faciliter l'apprentissage de la lecture à travers le Coran.

Le petit japonais va bénéficier de la même sollicitude.



Contrairement au petit chinois qui est confronté dès le début de son apprentissage au catalogue de caractères le plus important du monde (jusqu'à 60 000 pour des dictionnaires relativement exhaustifs) le petit japonais bénéficie d'une langue dont la notation est relativement flexible liant en synergie un double syllabaire phonétiquement équivalent mais sous deux formes distinctes (iragana et katakana) et un ensemble d'idéogrammes chinois (10 à 12 000). Dérogeant aux règles de la notation canonique que nous décrirons plus tard l'écriture japonaise se plie elle aussi pour faciliter à l'enfant la lecture (et même à celui qui n'a pas choisi d'être un lettré). Il devra d'abord apprendre les 51 sons de la langue et les associer aux deux formes des 2 syllabaires avec quoi il va pouvoir noter phonétiquement toute la langue japonaise. Ce n'est qu'ensuite, progressivement, qu'il va graduellement affronter les idéogrammes (les kenjis) selon un programme culturelle-ment codifié (900 idéogrammes minimum à la fin du primaire et 1800 minimum à la fin du secondaire). Les BD ou même certaines publicités vont elles aussi jouer ce rôle « d'aménagement abécédaire » en notant la phonétique des caractères supposés mal connus en petits caractères phonétiques « sous titrés » au dessus des kenjis.


Voilà pour les facilités. Mais d'autres communautés linguistiques peuvent être conditionées dès l'enfance par la prégnance culturelle d'une écriture. Comment ne pas s'étonner que des serbes et des croates qui parlent pratiquement la même langue doivent l'écrire ici en alphabet latin et de l'autre coté en cyrilique.

Il en va de même dans certaines régions du continent indien ou la même langue va se noter ici en ordou (des caractères arabes) et là en écriture indi. Dès l'enfance ces communautés sont ainsi culturellement confrontées (dès le stade de l'abécédaire) à la construction d'un mur mental, d'une frontière que ne surpassera jamais aucun mirador.

Cette remarque n'est pas polémique. Ces communautés sont submergées par leur inconscient collectif sur plusieurs générations, confortées par des différences religieuses et relayé par le nationalisme. Ces enfants ne sont pas responsables de l'abécédaire maternel qui leur est ainsi imposé dès le plus jeune âge.

Que dire encore de certaines minorités des marges de l'ex-URSS qui pendant le vingtième siècle ont parfois changée 3
ou 4 fois d'écriture. Leur langue se notait en écriture arabe, certains linguistes russes leur ont proposé l'écriture latine « pour se moderniser ». D'autres linguistes « plus soviétiques » leur imposèrent le cyrilique et la fin de la suprématie de l'Armée rouge ramena les mollahs et l'écriture arabe. Pour certaines communautés linguistiques cela leur redonne une continuité scripturale et linguistique avec l'Iran ou le Pakistan où on utilise l'écriture arabe, mais certains sont tur-cophones et les turcs écrivent depuis Ataturk en écriture latine.

Les berbères ont été et sont encore pareillement malmenés pour ce qui est de leur écriture. Ils disposent tradi-tionellement d'un alphabet le tiffinag plusieurs fois millénaire. Mais les colonisateurs (d'abord les arabes ensuite les français) ont trouvé plus facile (pour eux) de leur imposer d'écrire en écriture arabe ou même, mais ce fut une transcription plus théorique que véritablement usitée, en caractères latins. Le renouveau du tiffinag en Kabilie ou chez les touregs n'est pas toujours du goût du pouvoir algérien ni des fondamentalistes musulmans.

L'évidence de l'ordre alphabétique d'un abécédaire



L'utilité de l'ordre alphabétique est une notion qui est discrètement mais fermement inculquée à l'enfant dès ses premiers abécédaire. En regroupant sous une même lettre la girafe, le gnou, la grand-mère et le girophare on conduit graduellement l'enfant vers le dictionnaire, l'encyclopédie, l'annuaire et les bases de données.

Cependant même si les fichiers informatiques, les encyclopédies, les dictionnaires, de nombreux catalogues semblent suivre « naturellement » l'ordre alphabétique la complexité des situations réelles fait que la diversité est de règle. L'écriture latine connaît plusieurs ordres alphabétiques dans différentes langues disposant de lettres ou de signes diacritiques spécifiques, les Scandinaves par exemple, renvoient le « E dans l'A » ( \ ) à la fin de l'alphabet, les espagnols regroupaient à la fin de la lettre N toutes les occurrences du N avec tilde ( ), mais ils ont changé de convention et banalisent maintenant tous les N avec ou sans tilde. Ils agissent encore de même pour les « doubles L »

L'ordre des lettres qui existe dans certaines écritures peut avoir plusieurs facettes fonctionelles (ordre d'apprentissage, ordre phonétique, classement par similarité de forme, ordre des lettres numérales), tous ces ordres sont utilisés concurremment en arabe.
Les japonais sont confrontés à trois ordres au moins qui ne recouvrent pas le même matériel d'écriture.

Pour les syllabaires, les kana (Mot raccourci pour désigner le double syllabique iragana et katakana.), un ordre phonétique logiquement vocalisé mais aussi un ordre poétique celui de l'ordre d'apparition de tous les sons contenus dans un seul poème. Mais comme les chinois, les japonais utilisent la classification par clefs puis par nombre de traits ajoutés à la clef.

Dans notre écriture alphabétique latine, l'ordre alphabétique connaît des variations de détail selon les finalités de ses usages : ainsi, une bibliothèque n'utilise pas traditionnelle-ment le même ordre que lexicographes, où les éditeurs d'un annuaire.

Les dernières années de l'alphanumérique


Les NTIC (Nouvelles technologies de l'information et de la communication), notamment Internet, nous contraignent à devoir maîtriser industriellement un multilinguisme, mais surtout un multiscripturalisme planétaire.

L'ingénierie universelle de l'écriture est non seulement possible, mais elle est en train de devenir obligatoire par l'émergence d'une norme universelle de codification des caractères sur quatre octets ISO/IEC-10646 et du standard industriel qui lui correspond et qui se limite encore pragmatiquement à 2 octets : Unicode.



Ce nouvel environnement de la codification des écritures va à terme remplacer l'ASCII : le codage des caractères sur un octet (nous savons qu'il s'agit là d'un abus de langage confirmé par l'usage. Le véritable ASQï et la norme ISO/ÎEC646 qui lui succède sont codés sur 7 bits. Précisément le vrai ASCII ne permet pas de conserver les accents de l'écriture latine ce qui le cantonne à l'anglais ou au latin !), que l'on considère à bon droit comme la base de la culture informatique. En fait, il a déjà remplacé l'ASCII et depuis 1993 la plupart des ordinateurs et tous les nouveaux logiciels systèmes sont fondés sur Unicode, même si nous ne le voyons pas et même si nous ne disposons pas encore des outils périphériques (claviers virtuels multilingues par exemple) qui nous permettraient de mettre en valeur ce potentiel multiécri-ture totalement révolutionaire.

En fait, les questions les plus cruxiales aujourd'hui concernant le développement de ces techniques ne sont plus les questions industrielles lourdes, mais les questions d'appropriation culturelle tant chez les informaticiens non directement spécialistes que chez l'honnête homme confronté à une nouvelle altérité du monde que nous ne savons pas dominer.



La conquête du monde à la fin du moyen-âge avait nécessité la maîtrise d'inventions indispensables : la boussole et le gouvernail ; elle avait aussi du attendre l'imprimerie qui nous avait permis de confronter de façon cumulative toute les cartes du monde connu.

Aujourd'hui nous sommes ainsi confrontés à une obligatoire nouvelle vision de l'alphabet ou plutôt du catalogue mondial de tous les caractères d'écriture.



Revenons à l'informatique : il y a une vingtaine d'années, l'informatique se contentait d'être presque exclusivement aménagée par rapport à la langue anglaise et à l'écriture latine non accentuée. Elle fut assez vite adaptée aux écritures alphabétiques des grandes langues européennes occidentales. Cette exclusivité à cessé d'être. Les grandes langues appar-tenant à d'autres alphabets sont devenues informatiquement disponibles sur des variantes du code ASCII (cyrillique, grec, arabe, hébreu, etc.) et les langues partiellement et entièrement idéographiques (chinois, coréen, japonais) ont amorcé un processus obligatoirement plus lourd de codification des caractères ; 2 octets au lieu d'un (16 bits au lieu de 8). C'est cette évolution qui a déclenché la mise en oeuvre d'une codification universelle sur 4 octets (il s'agit de puissance de 2, et il est logique de considérer une évolution technologique allant de 8 à 16, puis à 32 bits (1, 2, 4 octets ou groupe de 8 bits)) (32 bits).

Ce phénomène est très important en terme d'évolution informatique de l'écriture. Toute typographie suppose l'usage d'une casse (le casier en bois du typographe) permettant de ranger tous les caractères (lettres majuscules et minuscules, accentuées, chiffres, ponctuation...) d'une police de caractères. Ainsi la casse parisienne comprend 104 cases. Le premier système de codification informatique des caractères permet de gérer les caractères sur 7 bits (128 positions théoriques, mais en réalité 64 codes réels) : c'est le code ASCII qui ne dispose pas de lettre accentuée. Puis apparaissent des codifications sur 8 bits (1 octet) qui disposent de 256 positions théoriques, en réalité 96 cases réelles pour les caractères proprement dit : ce sont les normes ISO8859~n qui permettent de gérer alternativement mais jamais simultanément les autres grandes langues alphabétiques (écriture cyrillique, grecque, arabe, hébraïque, indiennes..,).



Ce jeu alterné des codes d'écriture présente de nombreux inconvénients : cela interdit la réalisation de fichiers de bibliothèque multi-écriture et surtout cela entrave la circulation d'informations multilingues sur Internet. Par exemple un document en langue française transitant par certains serveurs anglophones perdra ses accents et cédilles, quant aux documents en écriture non latine, ils perdent toute visibilité dès qu'ils quittent leur aire linguistique.

La première phase de cette norme universelle, le BMP (Plan Multilingue de Base, Basic Multilingual Plane) codée sur 2 octets (16 bits) est le résultat déjà en partie opérationnel issu du travail du consortium Unicode. Ce codage qui offre 65536 codes théoriques possibles, pourrait résoudre tous les problèmes posés par la majorité des langues modernes déjà informatisées. Mais cette solution reste insuffisante pour coder de façon univoque les caractères de toutes les écritures du monde notamment les écritures anciennes ou les codes non linguistiques (musique, chorégraphie, langue des signes, glyphes mathématiques, codes ésotériques, pictogrammes ...) Par ailleurs la mise en place d'une informatique et de réseaux à 16 bits suppose des aménagements fondamentaux par rapport aux 8 bits (réécriture de logiciels systèmes, de protocole de télécommunication, évolution technologique des machines) qui plaide pour que la norme qui succède à l'ASCII soit directement prévue sur 32 bits (4 octets soit 4294967296 -4 milliards - codes théoriques dans la norme ISO 10646) même si sa mise en œuvre informatique doit être progressive.



Il faut noter que la totalité des systèmes de glyphes, de schématique et de signalétique déjà développés par des civilisations humaines ne doit pas dépasser quelques millions, (du code de la route aux schémas codés pour l'électronique...).

Le très grand nombre de cases supplémentaires pourrait servir à coder directement des toponymes, des patronymes, des taxons scientifiques, des copyrights, des listes d'autorité, des codes multimédias.


Il s'agit là d'un enjeu informatique, culturel et cognitif fascinant, certes en partie lié à l'abécédaire, mais qui dépasse largement le problème de l'éducation à l'écriture.

Vers une nouvelle culture planétaire de l'écriture


Cependant passer d'une centaine de cases de caractères à plusieurs dizaines de mille, puis à plusieurs centaines de mille (pour ne parler que des glyphes d'écritures), suppose des savoir-faire qui ne sont pas exclusivement techniques. Les langues ont développé des systèmes d'écriture intimement liés à la culture qui présentent des caractéristiques dont la typographie alphabétique occidentale donne une bien faible idée de la diversité réelle.
Elles peuvent être alphabétiques, syllabiques, idéo-graphiques, idéographique et syllabique (japonais) ou idéo-graphique et alpha-syllabique par composition (coréen). Elles peuvent s'inscrire dans toutes les directions du plan d'écriture : haut en bas, gauche à droite, droite à gauche, être cru-civerbées et surtout elles peuvent présenter tous les hybrides de déroulement possibles. S'inscrire de gauche à droite, puis de droite à gauche alternativement (boustrophédon - du grec bous, boeuf, et strephen, tourner. Une écriture qui s'inscrit comme les sillons d'un labourage.), ou simultanément dans la même ligne (en arabe par exemple pour la notation des nombres). Les écritures peuvent présenter de nombreuses ligatures ou au contraire des scissions de lettre en deux parties venant encadrer une ou plusieurs lettres. Dans certaines écritures, comme en arabe les lettres peuvent changer de forme suivant leur position dans le mot (isolée, initiale, médiane ou finale). Certaines lettres peuvent s'empiler (digrammes ou trigrammes des écritures indiennes) ce qui nécessite de gérer simultanément un déroulement horizontal et vertical ; mieux, les lettres peuvent s'agencer en matrices syllabiques (coréen).
En écriture latine, grecque ou cyrillique, il nous apparaît naturel de distinguer l'italique du souligné ou du caractère gras. Cela perd toute signification dans d'autres cultures et d'autres systèmes d'écritures.



Un seul exemple permet de comprendre l'enjeu des futures évolutions : les systèmes d'identification des oeuvres (littéraires et cinématographiques) qui sont déjà disponibles et qui se généraliseront dans 2 ou 3 ans coderont le copyright et les droits d'auteur sous une forme intégrée aux fichiers informatiques. Ce marquage ne pourra pas se réaliser en code ASCII ; En effet les Chinois, les Japonais, les Indiens, les Arabes font aussi du cinéma et de la littérature et il n'y a aucune raison pour qu'ils translitèrent leur nom ou leur copyright en caractères latins. Nous nous dirigeons donc inéluctablement vers une généralisation d'usage de ces nouvelles normes d'écriture.



Il importe donc de développer une véritable culture non seulement typo-informatique (elle est indispensable) mais encyclopédique des écritures du monde


Les langues sémites des écritures sans presque aucune voyelle



« Lis... je ne suis point de ceux qui lisent, "Lis" je ne suis point de ceux qui lisent, répliquais-je encore. Pour la troisième fois, l'ange me saisit, me pressa au point de m'enlever toute force, puis me lâcha en disant : "lis, au nom de ton Seigneur qui t'a créé..." » (EL BOKARI (25-17), in l'Authentique tradition musulmane : choix de h'adîths, Paris, éd. Fasquelle, 1964, p. 54.). Mahomet savait-il lire avant la date de sa révélation ? Cette question , se rattache, en fait aux particularités de la langue arabe (et de l'hébreu) lorsqu'il n'est pas « vocalisée ».

L'Arabe se lit plus facilement à voix basse et est, par contre, difficile à lire en public, à « proclamer ». Mahomet, qui était d'une famille de riches marchands de La Mecque, était certainement suffisamment lettré pour pouvoir lire les contrats, les livres de compte, les messages commerciaux apportés par les caravaniers. Mais sans doute veut-il, par ses deux premiers refus à l'archange Gabriel, signifier à Allah qu'il n'est pas de ceux qui peuvent proclamer.

Si la voyelle grecque avait accouché de la suprématie de l'Antiquité gréco-latine, la résistance à vocaliser la langue arabe aura été porteuse d'autres avantages.

La non accentuation de politesse (ne pas mettre les points diacritiques des voyelles : ne pas vocaliser) permet à des peuples parlant des dialectes divers de se comprendre à la lecture grâce à un Arabe consonantique standard. Cela permet à une fédération diversifiée de partager une même logique sur la longue durée historique.

Les écritures sémites consonantiques, arabe ou hébraïque, ont permis, beaucoup plus tôt qu'en Occident, la pratique de la lecture silencieuse (La lecture silencieuse, c'est à dire la compréhension du texte sans qu'il soit besoin de le dire à haute voix (ou même mezzo voce), pour que le lecteur accède à la compréhension du texte par l'écoute de sa propre voix, est une évolution historique de l'appropriation culturelle de l'écriture. On cite souvent Saint Augustin qui s'étonnait que son ami St Ambroise de Milan sache lire à voix basse. « Quand il lisait, ses yeux parcourait la page et son cœur examinait la signification , mais sa voix restait muette et sa langue immobile. » Saint Augustin, Confessions, VI, 3, (Paris, 1959), Cité in Manguel (Alberto), A history of reading, Toronto, Londres, New York, Coédition de Knopf Canada, Harper Collins (GB), Viking (USA), 19% ; édition française, Une histoire de la lecture, Arles, éd. Actes Sud, 1998, p. 60. Cet ouvrage est une excellente synthèse sur ces questions.)). Encore aujourd'hui l'hébreu et l'Arabe ouvrent à une plus grande performance de lecture et d'écriture.

La fastueuse et féconde Renaissance arabe, la tradition intellectualiste juive ne s'explique pas autrement.



Dans le continent logique de l'écriture arabe cohabitent des dialectes arabes pluriels. Ceci a pour conséquence une « moindre transparence phonétique », générant de plus grandes difficultés à apprendre la langue écrite et de plus grandes difficultés encore à les lire à haute voix. Mais, en contrepartie, ceux qui ont ainsi appris à lire et écrire disposent d'un accès facile, et ceci très tôt dans l'Histoire, à la lecture silencieuse rapide.

Vers une culture planétaire translinguistique


La culture planétaire translinguistique est une nécessité du vingt et unième siècle.

Les industriels linguistiques des grandes langues dominantes commercialisent, d'année en année, des logiciels intéressants dans des secteurs qui avaient longtemps été considérés comme des enjeux mythiques : traduction automatique, dictée en flux continu, bases de données documentaires et agents de recherche intelligents. Ces progrès viennent à point dans un monde qui confronte de plus en plus les peuples à l'absolue nécessité de s'entendre tout en préservant leur diversité culturelle et linguistique.

On verra que les enjeux d'une future culture mondiale translinguistique passent certainement par le développement de compétences transcripturales, c'est-à-dire propres au fonctionnement harmonieux et cohérent de toutes les écritures..

Des traitements de textes sont maintenant disponibles dans presque toutes les langues du monde et les locuteurs de ces différentes langues exigent à bon droit qu'on leur fournisse de l'information dans leur langue maternelle.



Cette nouvelle conscience planétaire de la circulation des langues est la chance du translinguistique ; nous pensons que le transcriptural en est le préalable.

Mai 2002