Vertikál alebo vertikálny súbor je textový súbor obsahujúci s niekoľkými výnimkami na každom riadku práve jednu pozíciu, t.j. slovo, XML tag (v prípade párových vždy buď iba počiatočný alebo ukončovací), číslo, interpunkčné znamienko alebo iný oddeľovač. Vo vertikálnom súbore sa používajú XML značky, ale dokument ako taký nie je XML validný: nemá koreňový element a pri niektorých tagoch sa atributy zapisujú pre XML netypickým spôsobom. Hodnoty atribútov sa nachádzajú až na výnimky v úvodzovkách ("). Riadkovanie je riešené iba pomocou znaku \n (ASCII kód 10).
Tag/Element | Description | Attributes |
---|---|---|
<doc> |
Párová značka, ohraničuje jeden dokument (napr. webovú stránku) v rámci vertikálneho súboru. | title - titulok dokumentu, získaný napr. z HTML elementu <title>url - absolútna URL adresa pôvodného dokumentu, napr. webovej stránkyid - unikátne ID dokumentu, viz ID dokumentu |
<head> |
Párová značka, obsahuje titulok dokumentu nasledovaný metadátami (informáciami o dokumente, ktoré ale nie sú súčasťou jeho obsahu). | Nemá |
<p> |
Párová značka, ohraničuje jeden odstavec textu. | Nemá |
<s> |
Párová značka, ohraničuje jednu vetu textu. | nemá |
<g/> |
Nepárová značka, vkladá sa medzi dve pozície, ktoré v pôvodnom texte neboli oddelené žiadnym prázdnym znakom, napr. medzerou. Vloží sa napr. medzi slovo a čiarku, ak za ním v pôvodnom texte bezprostredne nasledovala. | nemá |
<link="URL"> |
Nepárová značka, definujúca odkaz. Používa pre XML neštandardný zápis argumentu. Značka sa nachádza na jednom riadku za poslednou pozíciou odkazu oddelená tabulátorom (\t). | reťazec URL sa nahradí za reálnu absolútnu URL adresu odkazu |
<length=N> |
Nepárová značka, definujúca koľko predchádzajúcich pozícií je súčasťou odkazu definovaného značkou <link> . Nachádza sa na jednom riadku za poslednou pozíciou odkazu a značkou <link> oddelená tabulátorom (\t). |
N sa nahradí za prirodzené číslo udávajúce počet predchádzajúcich pozícií patriacich do odkazu |
Každý dokument má svoje vlastné unikátne ID, ktoré je buď vertikalizátoru dopredu poskytnuté (ak je vstupom Universal_Verticalization_Format) alebo sa generuje pri vertikalizácii. Generované ID má formát: xxxxxxxxxxxxxxxx-yyyyyyyyyyyyyyyyzzzzzzzzzzzzzzzz
, kde každé písmeno x
, y
a z
reprezentujú jednu hexadecimálnu číslicu. Každá z troch častí reprezentovaná daným písmenom predstavuje 64-bitový hash vytvorený pomocou funkcie xxHash. Prvá časť predstavuje hash názvu vstupného súboru (nie cesty), druhá časť hash prvej polovice URL adresy dokumentu a tretia časť hash druhej polovice URL adresy dokumentu.
Prvok <head></head>
obsahuje titulok stránky, prípadne nasledovaný metadátami. Titulok aj metadáta sú tiež vertikalizované (jedna pozícia na riadok). Titulok a metadáta sú oddelené znakom ;
, ten sa musí pred metadátami nachádzať aj v prípade, že žiadny titulok nie je prítomný. Samotné metadáta majú formát:
Metadata vypadají takto:
pole : hodnota ;
Celá hlavička teda môže vypadať napr. takto:
<head> Universities in Brno ; places : czech republic brno ; topics : technology school university ; <head>
Výskyt obrázku v dokumente je reprezentovaný reťazcom __IMG__
, za ktorým na jednom riadku nasledujú tabulátorom oddelené značky <link> a <length>.
Příklad:
__IMG__ <link="https://upload.wikimedia.org/wikipedia/commons/7/7a/Nohat-wiki-logo.png">