Langage de balisage
Les langages de balisage représentent une classe de langages spécialisés dans l'enrichissement d'information textuelle. Ils opèrent grâce aux balises, unités sémantiques délimitant chacune un ensemble à l'intérieur d'un fichier texte.
L'inclusion de balises permet de transférer à la fois la structure du document et son contenu. Cette structure est compréhensible par un programme informatique, ce qui autorise un affichage personnalisé selon des règles pré-établies ; la typographie (en premier lieu la fonte) et d'autres éléments de présentation peuvent changer, on peut inclure des éléments non-textuels.
| Sommaire |
Langages SGML
Les langages de balisage les plus utilisés sur le Web sont des langages dérivés de SGML.
Balise HTML
Le langage à balises le plus couramment utilisé sur le World Wide Web est le HTML. En HTML, on utilise des balises pré-définies afin de préciser à l'intérieur d'un fichier texte des éléments tels les titres, les paragraphes, les acronyme, les citations.
Les éléments de blocs et les éléments en-ligne
On distingue les balises définissant un bloc des balises en-ligne par :
- le modèle de contenu
- les éléments de bloc peuvent contenir à la fois données, éléments de bloc et éléments en-ligne ; les éléments en-ligne ne peuvent contenir que des éléments en-ligne et des données. «L'idée inhérente à cette distinction structurelle, c'est que les éléments de bloc créent des structures « plus grandes » que les éléments en-ligne.»
- le formatage
- «Par défaut, les éléments de bloc sont formatés différemment des éléments en-ligne. En général, les éléments de bloc commencent sur une nouvelle ligne, et non les éléments en-ligne.»
«Les feuilles de style fournissent les moyens de spécifier la restitution d'éléments arbitraires, y compris si l'élément est rendu comme étant de type bloc ou de type en-ligne.»
L'ensemble des citations est tiré de la spécification standard HTML. [1]
Dérive de la balise HTML
HTML n'était pas conçu pour inclure des concepts de présentation avancée, mais la structure d'un document, particulièrement une publication scientifique. Suite à son succès dans bien d'autres domaines, on a néanmoins utilisé au fur et à mesure des balises ne délimitant plus un ensemble sémantique.
Par exemple, les deux balises table et font :
- « table » (balise délimitant un tableau) a servi à présenter à l'écran de manière originale un contenu non tabulaire.
- « font » définissait une police de caractères ou une couleur à utiliser pour une partie du texte.
Cependant, un mouvement réclamant un bon usage de la balise HTML et l'utilisation d'autres moyens (comme les CSS) afin de séparer clairement structure et présentation a trouvé sa place sur le Web, et l'on reconsidère de plus en plus la balise HTML comme une unité sémantique.
Exemple
- <p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit.</p>
On délimite la phrase « Lorem ipsum dolor sit amet, consectetuer adipiscing elit. » par la balise p (définissant un paragraphe) au moyen d'une balise d'ouverture (<p>) et une balise de fermeture (</p>). Cette phrase est inclue dans l'élément p, lui-même obligatoirement contenu dans l'élément <body> (cet élément définit le début du corps du fichier HTML.)
XML
Languages_xml.png
Le XML pousse très loin la description sémantique d'un fichier, permettant de délimiter avec précision, par exemple dans une recette, les <ingrédients>, le <temps-de-cuisson>, les <plats-nécessaires>, etc. Afin d'exploiter un document XML écrit de cette façon, on utilise des feuilles XSLT permettant de transformer un document XML en un autre type de document XML.
Toutefois, cette liberté dans le choix des balises permet à un fichier d'être écrit en XML sans pour autant délimiter des informations sémantiques : hors-contexte, la balise <hy> ne signifie rien, à moins de définir sa signification à l'intérieur d'un fichier de définition, appelé Doctype, associé au fichier XML.
Microsoft utilise un format XML pour ses formats de fichier Microsoft Office.
