163465

(2005) Corela 3 (2).

Structure matérielle et contenu sémantique du texte écrit

Marie-Paule Jacques

Nous montrons dans cet article l’articulation de la structure matérielle et du contenu sémantique des documents textuels. Nous défendons l’idée que la caractérisation automatique du contenu textuel bénéficierait d’une meilleure compréhension du rôle de la structure matérielle et qu’il est d’autant plus pertinent de chercher à l’inclure dans des traitements automatiques que cette structure matérielle est explicitée sous les formats qu’adoptent les textes conçus pour des supports numériques (par ex. html ou xml). Nous inscrivons notre recherche dans le cadre du Modèle d’Architecture Textuelle, qui fournit un modèle théorique pour la définition et l’analyse des objets textuels signalés par des propriétés de mise en forme matérielle. Nous nous focalisons plus particulièrement sur l’analyse des fonctions d’un de ces objets textuels, les titres de section, et sur la façon de les exploiter pour un accès automatique au contenu du document.

Publication details

DOI: 10.4000/corela.560

Full citation:

Jacques, M. (2005). Structure matérielle et contenu sémantique du texte écrit. Corela 3 (2).

This document is available at an external location. Please follow the link below. Hold the CTRL button to open the link in a new window.