z

info2gestion

msg

L'interface graphique

Les classeurs - fichier xml - partie 1

z011

z012

z013

z014

L'application microsoft office depuis la version office 2007 utilise par défault le format xml pour les fichiers utilisateurs (classeurs pour le tableur excel, documents pour le traitement de texte word, presentation pour powerpoint...) de la suite bureautique.

En quelques mots, le format xml est parent du format html, est un fichier qui contient des données texte structurées avec des balises pour le format xml ou hiérachisées avec le format html et qui affiche ces données.

La suite microsoft office utilise également d'autres formats notamment binaire qui ne sont pas structurés et lisibles sans outils spécifiques et dédiés.

Il est possible d'ouvrir un fichier au format binaire (par exemple .xls, .xlsb...) et d'enregistrer ce fichier au format xml.


Pour les classeurs du tableur excel, les fichiers d'extensions .xlsx, .xlsm sont des fichiers au format xml. Plus précisément ce sont des fichiers au format xml compressés.

Avec un utilitaire qui peut gérer des archives les fichiers (en .zip), il est possible d'accéder aux différents éléments utilisés par l'application pour charger le contenu et plus précisément aux données xml.

A cette étape, il est conseillé de travailler avec une copie du fichier qui contient des données. Le format xml est impératif dans le sens où chaque balise ouverte doit être fermée. Si ce n'est pas le cas ou un caractère ou un espace ne correspond pas, l'application ne pourra pas ouvrir le fichier et le message le plus probable sera lié à des données corrompues. Le format xml n'est pas permissif comme peut l'être le format html.


Après avoir fait une copie du fichier source, la modification de l'extension par exemple .xlsx en .zip va remplacer le fichier par une archive. Il sera alors possible avec un simple explorateur de fichier, d'accéder aux différents éléments du fichier.

Par exemple

Changement de l'extension de la copie d'un classeur .xlsx en .zip Changement de l'extension de la copie d'un classeur .xlsx en .zip

Le contenu du fichier de type archive zip est accessible.

Contenu de l'archive zip Contenu de l'archive zip

Pour cet exemple, il s'agit d'un classeur qui ne contient que des feuilles de calcul. Le répertoire xl de l'archive zip contient les feuilles de calcul (sheet)

Contenu du répertoire xl Contenu du répertoire xl

La copie écran ci-dessus montre les feuilles de calcul (sheet pour worksheet) et les informations de taille d'archive ou occupée en mémoire. On peut voir que la feuille de calcul index 6 (ce n'est pas obligatoirement la feuille en position 6 dans la fenêtre de la feuille de calcul) utilise 57 MO de mémoire et la feuille 4 un peu plus de 1 MO.

Cet accès par le contenu d'une archive zip permet de voir la structure des données et notamment la présence de données volumineuses et dans quelle endroit se trouvent ces données.


Pour approfondir l'analyse, il est possible d'ouvrir les fichiers au format xml dans un éditeur de texte (notepad...) et de voir en détail le contenu d'une feuille de calcul. Voir partie 2