Vertikál

Vertikál alebo vertikálny súbor je textový súbor obsahujúci s niekoľkými výnimkami na každom riadku práve jednu pozíciu, t.j. slovo, XML tag (v prípade párových vždy buď iba počiatočný alebo ukončovací), číslo, interpunkčné znamienko alebo iný oddeľovač. Vo vertikálnom súbore sa používajú XML značky, ale dokument ako taký nie je XML validný: nemá koreňový element a pri niektorých tagoch sa atributy zapisujú pre XML netypickým spôsobom. Hodnoty atribútov sa nachádzajú až na výnimky v úvodzovkách ("). Riadkovanie je riešené iba pomocou znaku \n (ASCII kód 10).

Obsah

1 Používané XML značky a ich význam

Tag/Element Description Attributes
<doc> Párová značka, ohraničuje jeden dokument (napr. webovú stránku) v rámci vertikálneho súboru. title - titulok dokumentu, získaný napr. z HTML elementu <title>
url - absolútna URL adresa pôvodného dokumentu, napr. webovej stránky
id - unikátne ID dokumentu, viz ID dokumentu
<head> Párová značka, obsahuje titulok dokumentu nasledovaný metadátami (informáciami o dokumente, ktoré ale nie sú súčasťou jeho obsahu). Nemá
<p> Párová značka, ohraničuje jeden odstavec textu. Nemá
<s> Párová značka, ohraničuje jednu vetu textu. nemá
<g/> Nepárová značka, vkladá sa medzi dve pozície, ktoré v pôvodnom texte neboli oddelené žiadnym prázdnym znakom, napr. medzerou. Vloží sa napr. medzi slovo a čiarku, ak za ním v pôvodnom texte bezprostredne nasledovala. nemá
<link="URL"> Nepárová značka, definujúca odkaz. Používa pre XML neštandardný zápis argumentu. Značka sa nachádza na jednom riadku za poslednou pozíciou odkazu oddelená tabulátorom (\t). reťazec URL sa nahradí za reálnu absolútnu URL adresu odkazu
<length=N> Nepárová značka, definujúca koľko predchádzajúcich pozícií je súčasťou odkazu definovaného značkou <link>. Nachádza sa na jednom riadku za poslednou pozíciou odkazu a značkou <link> oddelená tabulátorom (\t). N sa nahradí za prirodzené číslo udávajúce počet predchádzajúcich pozícií patriacich do odkazu

2 ID dokumentu

Každý dokument má svoje vlastné unikátne ID, ktoré je buď vertikalizátoru dopredu poskytnuté (ak je vstupom Universal_Verticalization_Format) alebo sa generuje pri vertikalizácii. Generované ID má formát: xxxxxxxxxxxxxxxx-yyyyyyyyyyyyyyyyzzzzzzzzzzzzzzzz, kde každé písmeno x, y a z reprezentujú jednu hexadecimálnu číslicu. Každá z troch častí reprezentovaná daným písmenom predstavuje 64-bitový hash vytvorený pomocou funkcie xxHash. Prvá časť predstavuje hash názvu vstupného súboru (nie cesty), druhá časť hash prvej polovice URL adresy dokumentu a tretia časť hash druhej polovice URL adresy dokumentu.


3 Titulok a metadáta

Prvok <head></head> obsahuje titulok stránky, prípadne nasledovaný metadátami. Titulok aj metadáta sú tiež vertikalizované (jedna pozícia na riadok). Titulok a metadáta sú oddelené znakom ;, ten sa musí pred metadátami nachádzať aj v prípade, že žiadny titulok nie je prítomný. Samotné metadáta majú formát:

Metadata vypadají takto:

 pole
 :
 hodnota
 ;
        

Celá hlavička teda môže vypadať napr. takto:

 <head>
 Universities
 in
 Brno
 ;
 places
 :
 czech
 republic
 brno
 ;
 topics
 :
 technology
 school
 university
 ;
 <head>
        

4 Reprezentácia obrázku

Výskyt obrázku v dokumente je reprezentovaný reťazcom __IMG__, za ktorým na jednom riadku nasledujú tabulátorom oddelené značky <link> a <length>.

Příklad:

 __IMG__    <link="https://upload.wikimedia.org/wikipedia/commons/7/7a/Nohat-wiki-logo.png">