Nwlapcug.com


Il codice per Strip intestazioni e piè di pagina dai file HTML

Il codice per Strip intestazioni e piè di pagina dai file HTML


La struttura e la sintassi dell'HTML, o HyperText Markup Langauge non solo racconta un browser Web come visualizzare il contenuto di un file, ma identifica anche dati strutturali relativi al file stesso. Questi tag sono anche preziosi se sei un programmatore cercando un programma che striscia via specifiche sezioni di un file HTML, ad esempio l'intestazione e il piè di pagina di codice.

Anatomia di HTML

HTML utilizza un semplice sistema di contrassegno su tag per identificare diverse parti di un documento HTML. Intestazione del file HTML è contrassegnato da tag "< head >", il piè di pagina dal tag < piè di pagina >. Un reader HTML interpreterà nulla tra il tag di apertura e il tag che indica la sezione s stretta, "< / intestazione" > attraverso "< / piè di pagina >," come parte della sezione indicata. Altri tag, ad esempio "< body >" corrispondono ad altri componenti del file.

Identificare le intestazioni e i piè di pagina

Quando si crea codice per strip via HTML intestazioni e piè di pagina, non può contare su sapendo esattamente quanto tempo l'intestazione o piè di pagina sarà. Mentre alcune intestazioni e piè di pagina sono composti da una singola linea, potrebbero essere molto più lungo. Di conseguenza, il codice non può semplicemente cercare la "< header > / < piè di pagina >" tag quindi il simbolo '\n' che indica la fine di una riga. Quando si legge il contenuto del file HTML in una stringa di caratteri, si dovrà identificare la posizione di indice del primo "<" del tag iniziale così come il ">" del tag terminale.

Individuare la posizione della stringa

Sia linguaggi di bassi livello come C e C++ e linguaggi di alto livello come Python e Ruby hanno metodi per aiutarti a individuare gli elementi di testo all'interno di un oggetto string specificato. Questi metodi restituiscono la posizione di indice del primo carattere del testo che cerchi. Quando si cerca il tag iniziale, questo vi darà il vostro punto di partenza per la rimozione di testo. Quando si cerca il tag terminale, ricordate che il punto desiderato è entrambi sei ("< / head >") o sette ("< / piè di pagina >") posizioni di fronte il numero ti dà il metodo.

Lo striping codice

Una volta che avete le posizioni di indice per il segmento di intestazione o piè di pagina che si desidera rimuovere, si può andare a farlo in uno dei due modi. Uno è quello di richiamare i metodi appropriati per eliminare i caratteri compresi tra le posizioni di indice prima e l'ultima per il segmento. Questo permetterà di modificare direttamente la stringa originale. È inoltre possibile creare una nuova stringa per creare due versioni del contenuto del file HTML: il file originale e una versione spogliato del codice intestazione e piè di pagina. Eseguire questa operazione assegnando il contenuto della stringa originale fino alla posizione di indice iniziale e poi tutto dopo l'ultima posizione di indice, alla nuova stringa.