Des enquêtes statistiques répétées et convergentes ont permis de déterminer un programme fondamental minimum en fonction de deux critères : la fréquence d'emploi et le degré de difficulté des mots. L'intérêt de ces vocabulaires orthographiques de base est évident dans la mesure où ils nous proposent un référentiel de première valeur pour la programmation d'exercices orthographiques adaptés et efficaces. Nous essaierons dans un premier temps de faire un rapide tour d'horizon des principales recherches pour ensuite tenter d'en dégager les apports essentiels sur le plan de l'apprentissage de l'orthographe lexicale.

La première recherche reposant sur une base scientifique date de 1924. V.C.A. HENMON publie le "French Word Book", un dictionnaire qui fournit une liste de mots français fondamentaux en tenant compte de leur fréquence, c'est-à-dire leur nombre d'apparitions dans des textes.

A partir d'un dépouillement de 400000 mots HENMON obtient 9187 mots différents dont il en retiendra 3905 ayant une fréquence variant de 5 à 27750. L'auteur relève en outre les 69 mots essentiels qui constituent à eux seuls 50 % de tout texte d'une certaine importance.

En 1926, G. VANDER BEKE procède à une recherche plus vaste portant sur environ 1 million de mots français puisés à 88 sources différentes. Il trouve 6067 mots différents dont il tire une liste fondamentale de 2069 mots. François TERS dans son "Vocabulaire orthographique de base" insiste sur le fait que "cette base, augmentée des mots-outils d'HENMON, constitue en moyenne les 90 % d'un texte littéraire de difficulté moyenne" (V.O.B., p.5).

De 1938 à 1947, une série de travaux, entrepris sous la direction du Professeur BUYSE de l'Université de Louvain-La-Neuve, va venir compléter les recherches précédentes. L'objet de ces travaux porte principalement sur la détermination des mots d'usage à enseigner, de la répartition de cette matière aux différents niveaux de la scolarité et de l'organisation de cet enseignement. a) Le premier point (détermination expérimentale du vocabulaire écrit actif des enfants pour servir de base à l'enseignement de l'orthographe) a été réalisé par ARISTIZABAL (frère GONZALES). Son enquête effectuée durant les années 1936 et 1937 porte sur le dépouillement de 4100 rédactions spontanées d'élèves, 25 historiettes d'enfants bien doués et 1400 lettres d'adultes. Sur un total de plus de 400000 mots, il obtient 12038 mots différents qu'il classe par ordre de fréquence (depuis celle de 6723 jusqu'à l'unité). ARISTIZABAL constate alors que les 4329 termes dont la fréquence atteint ou dépasse 10 représentent (avec leurs fréquences cumulées) les 95% de tous les mots dénombrés.

En 1940, une nouvelle enquête est effectuée par DUBOIS qui, après avoir sélectionné 3680 mots qu'il juge vraiment usuels, va les faire orthographier par plus de 500 élèves des classes primaires. Le pourcentage de réussite pour chacun des mots ayant été déterminé, il les répartit suivant leur degré de difficulté orthographique en 43 groupes ou échelons regroupant des mots de difficulté équivalente. Cela signifie plus précisément que ces groupes représentent chacun une difficulté moyenne également distante de celle des deux groupes voisins. C'est pourquoi, on peut parler d'échelons et d'échelles (intervalles réguliers entre les échelons). Vers 1946, à partir des matériaux de l'enquête DUBOIS-BUYSE, J.LAMBERT effectue une recherche ayant pour but l'analyse qualitative des fautes d'orthographe d'usage. Un relevé complet de toutes les variétés de fautes commises par les élèves (avec leur fréquence) permet à l'auteur de déterminer les points critiques des mots. Il calcule également un indice de difficulté (R) obtenu par le rapport "nombre de formes/nombre de fautes". Il tente enfin un essai de classification de toutes les erreurs. De 1947 à 1949 A. PIRENNE reprend et précise toutes les recherches précédentes pour, en se référant à deux facteurs (fréquence d'emploi et échelon de diffficulté) élaborer un "Programme d'orthographe d'usage pour les écoles primaires de Belgique". L'auteur a réparti les mots en fonction des 6 années : 225 mots pour la 1ère, 476 à la 2ème, 675 à la 3ème, 725 à la 4ème, 750 à la 5ème, 819 à la 6ème, soit 3670 mots couvrant de 92 à 95% des besoins en orthographe d'usage. Le classement suit l'ordre alphabétique et PIRENNE a également repris les principaux éléments dégagés par LAMBERT : points critiques et indice de difficulté R (en plus de l'échelon DUBOIS-BUYSE).

Cependant pour que ces travaux obtiennent enfin l'audience qu'ils méritent, il faudra attendre 1964 et la publication de deux ouvrages complémentaires, oeuvre d'une équipe franco-suisse : F.TERS, D. REICHENBACH et G. MAYER. 1) L'échelle DUBOIS-BUYSE remaniée.

Dans chaque échelon les mots sont répartis du plus facile au plus difficile selon l'indice R. calculé par LAMBERT. Cette nouvelle répartition permet une élaboration plus rapide d'un test et assure par conséquent un meilleur contrôle des rendements; une liste de 32 mots-outils, exclus de l'Echelle DUBOIS-BUYSE, y est également Incluse. Les auteurs indiquent en outre que des contrôles expérimentaux ont permis de vérifier la constance des normes représentant le pourcentage d'acquisition aux niveaux scolaires successifs tant en Belgique que pour la France, la Suisse et le Canada.

2) Un vocabulaire orthographique de base (en abrégé V.O.B.)

Réunissant toutes les enquêtes débouchant dans le domaine du vocabulaire (oral et écrit) de la langue française (au total 9 recherches portant sur plus ou moins 6 millions de mots), les auteurs ont conservé 7918 mots différents d'une fréquence égale ou supérieure à 10.

-5478 mots se répartissent en 6 niveaux pour l'enseignement primaire -2440 mots sont réservés pour 2 années de l'enseignement secondaire . Ceci signifie qu'à l'âge de 15 ans l'élève devrait être en possession de plus ou moins 8000 mots. Ces mots sont regroupés en 59 centres d'études et répartis à l'intérieur de chaque thème suivant les classes successives.

Ces deux ouvrages, le premier plus spécifiquement, se fondent sur l'indice de difficulté orthographique d'usage. Ce critère se révèle essentiel surtout pour les premières années, dans une optique d'apprentissage et/ou de remédiation.

En 1970, M. JUILLAND, D. BRODIN et C. DAVIDOVITCH proposent uns liste alphabétique de 5082 mots retenus en fonction d'un coefficient d'usage après traitement de 500 000 occurrences, les 100 premiers mots couvrant 89% de tous les textes. Il s'agit du "Frequency Dictionary of French Words". Ce dictionnaire offre un intérêt évident parce qu'il fournit en plus d'une liste de base, les formes fléchies les plus fréquentes pour chacun des mots recensés. Quant au coefficient d'usage, il repose sur un rapport complexe entre la fréquence et la dispersion (5 catégories en fonction de la nature des textes dépouillés : roman, théâtre, essais, presse, textes scientifiques et techniques).

En 1971, va paraître un inventaire lexical monumental "Le trésor de la langue française", travail réalisé par le laboratoire de Nancy sous la direction de IMBS. Cette recherche, réalisée en recourant au moyens de traitement offert par l'ordinateur, concerne la langue littéraire des XIXe et XXe siècles. Par l'ampleur des dépouillements (1000 titres d'ouvrages totalisant 70137234 termes pour 71415 mots différents) et la nature et la diversité des informations recueillies (fréquence absolue ou relative, période envisagée, catégorie des textes classés, variantes fléchies...), ce dictionnaire en 7 volumes est un atout précieux en matière de vocabulaire de base.

En 1984, Nina CATACH publie "Les listes orthographiques de base du français" (en abrégé LOB). On dispose désormais, non seulement de 1600 mots de très forte fréquence (essentiellement tirés du "Frequency Dictionary of French Words"), mais aussi d'autres renseignements d'ordre pratique aux fins d'exploitations pédagogiques et/ou informatiques : formes fléchies les plus fréquentes, possibilités de liaison, types des marques graphiques finales. Les 3 listes de base (zéro, un, deux), la troisième constituant la véritable liste lexicale, sont présentées par ordre de fréquence décroissante et par ordre alphabétique normal ou inverse. Notons encore que l'ensemble des mots recensés couvre plus de 90 % des potentialités d'occurrences dans n'importe quel texte de français courant.

François TERS s'est également inspiré des travaux de JUILLAND pour déterminer 4 listes de mots en fonction de la fréquence d'apparition et de la répartition dans des textes différents. Ce corpus de mots est d'une telle efficacité que l'auteur en fait le guide de ce qui devrait être acquis et compris au cours des 5 années de l'école primaire. Cette étude statistique devrait être publiée par la "Maison des Instituteurs" à ORGEVAL.