Vyhledávání názvů entit v textu

Obsah

Figa - Cedar

Zachovava rozhranie figav08, ale pridava nove veci, pre spellchecking and autocomplete nieje potreba pridavnych suborov, dalej pridava moznost vytvorit slovnik z namelistu, pomocou prepinacou -d a -n, a ponuka moznost dany slovnik ulozit pomocou prepinaca -w FILE.

TODO: parameter -q, uvodzovky okolo entit

Help ku Figa - Cedar:

 rebuilt and updated: FItGAzetter Cedar, Jan 4th, 2016, Andrej Rajcok, xrajco00@stud.fit.vutbr.cz
 updated: FItGAzetter v0.8, July 9th, 2014, Peter Hostacny, xhosta03@stud.fit.vutbr.cz
 updated: FItGAzetter v0.7c, November 16th, 2013, Karel Brezina, xbrezi13@stud.fit.vutbr.cz
 FItGAzetteer v0.35c, September 14th, 2010, Marek Visnovsky, xvisno00@stud.fit.vutbr.cz based on:
 fsa Ver. 0.49, March 18th, 2009, (c) Jan Daciuk,jandac@eti.pg.gda.pl
        

Pouzitie:

 ./figav08 [options]..."
        

Parametry:

Note: *Spellchecking je minimalne 7 krat pomalejsi.


2 Profiling a časové porovnanie

Nový systém je 50%-60% rýchlejší, bol porovanávaný pri spracovaní 750 000 entít, pomocu time a gprof, s a bez parametrov -g -pg pri preklade.

Knižnica Čas - program time Čas s -pg -g pri preklade - program time Čas - program gprof
CEDAR 7,0s 10,8s 3s
FIGA 13,9s 29,7s 10s

Porovnanie medzi CEDAR a DARTS-CLONE na 750 000 entitach.

Knižnica Čas - program time
CEDAR 4,6s
DARTS-CLONE 4,4s

3 Čas na vytvorenie slovnika

Knižnica Počet položiek Veľkost namelistu Čas Veľkosť slovnika
CEDAR 15 192 879 412 MB 6m, 33s 1044 MB
CEDAR 747 215 17 MB 16s 51 MB
DARTS-CLONE 747 215 17 MB 14s 13 MB

4 Veľkosť

Porovnanie uložených slovníkov o 750 000 entitách.

Knižnica Veľkosť slovníka
DARTS 13 MB
CEDAR 50 MB
FIGA 10 MB - treba lepšie otestovať