Word breakers & stop words
- Posted by Jana Babáčková
- On 2.10.2013
- 0
Pokud pojmenujete svůj nový soubor s mezerami, například „IT report unor 2013.docx“, bude sice pěkně vypadat, tušíte co je uvnitř, ale za každou z mezer si při rozesílání odkazu vysloužíte %20, což může vypadat například takto: https://mujportal.cz/Reports/IT%20report%20unor%202013.docx. Na druhou stranu půjde velmi snadno najít, protože slova jsou od sebe logicky oddělená a můžete použít kterékoliv z nich v mnoha různých kombinacích. Pokud pojmenujete svůj nový soubor úplně bez mezer, např. „ITreportUnor2013.docx“, bude jeho jméno jasné, odkaz čitelný, ale nepůjde najít. Hledací proces v něm totiž při zpracovávání nerozpozná více slov a musíte jeho název do vyhledávacího pole napsat celý… (a zkuste se trefit, ještě že existují zástupné znaky). Co s tím?
Mezera naštěstí není jediný rozdělovač, mezi další „word breakers“ patří pomlčka „-„, podtržítko „_“, plus „+“ nebo tečka „.“ Mřížku „#“, procenta „%“ a nebo „&“ si může soubor přinést ze sdíleného disku, ale uvnitř portálu k zápisu nejsou dovolené. Aby to všechno bylo ještě komplikovanější, podle článku od Susan to vypadá, že podtržítka nefungují (jako rozdělovač) pro SharePoint 2010 verze Foundation a MOSS 2007, takže nejbezpečnější a nejčitelnější zůstává vlastně jen ta pomlčka.
Slovní spojení „Word breaker“ se v souvislosti s hledáním nepoužívá jen pro samotné rozdělovací znaky, jmenuje se tak celý nástroj, který se ve fázi indexace stará o čtení obsahu, identifikaci všech slov vhodných pro hledání, jejich dělení a následné rozesílání do indexů query serverů. Není na to sám, pomáhá mu spousty předpřipravených lingvistických souborů pravidel, seznamy „noise“ nebo také „stop words“ popsané níže a filtry. Každý jazyk je jiný a tak i lingvistické práce trvají různě dlouho, ale s tím bohužel moc neuděláme, nemůžeme všechno psát anglicky. Kolik času při nových přírůstcích spotřebuje právě ten Váš „Word breaking“ se dozvíte například z reportů v Centrální Administraci (sekce Monitoring \ Reporting \ Administrative reports \ Search administration reports \ Advanced Reports \ CrawlProcessingPerActivity):
Crawl Processing Per Activity report
„Noise word“ nebo také „Stop word“ je anglický termín pro každé slovo, kterým může končit věta v právě použitém jazyce nebo slovo z nějakého důvodu nechtěné (zakázané, slangové, sprosté apod.). Ty se z hledacího procesu vypouštějí úplně a v indexech je nenajdete, takže je nezkoušejte hledat a pokud to jde, nedávejte je ani do jmen souborů (rozhodně né samotné a ani jako zkratky, malá a velká písmena tu roli nehrají).
Seznam těchto vybraných slov je uložený v editovatelném textovém souboru na disku hned po instalaci (\Program Files\Microsoft Office Servers\14.0\Data\Config) a každému správci se doporučuje otevřít ho minimálně jednou, čistě pro případ že je tam užitečných slov moc nebo naopak hrubých výrazů moc málo. Každý jazyk má soubor svůj, pro angličtinu je to noiseenu.txt, pro češtinu noiseces.txt, slovenštinu noisesvk.txt apod., kompletní seznam všech najdete zde. Vypadat může takto:
…
už
který
bude
tak
až
ze
XI
XII
XIII
…
Takový soubor „ZE.txt“ nebo „TAK.docx“, ať už je to zkratka čehokoliv, je v tuto chvíli pro hledání prakticky neviditelný.
… no, už máte lepší představu o tom, jak pojmenovávat Vaše soubory? :o)
Uvedený článek platí pro SharePoint 2010, Search bez FAST technologie a „neviditelná“ slova záleží na konrkétním seznamu noise words.
0 comments on Word breakers & stop words