Pravda o integraci SharePointu a PDF souborů
- Posted by Jana Babáčková
- On 27.1.2015
- 0
Jak starý je SharePoint ? Pokud se shodneme na tom, že první verzí byl pro nás Site Server, tak mluvíme o roku 1996. Tak to máme necelých 19 let. Jestli se přidáváte na stranu příznivců první použitelné a pojmenované verze, tak se budeme bavit o SharePoint Portal Serveru z roku 2001, to je necelých 14 let (= hodně). Jak staré je PDF? Pokud jeho stáří začneme počítat od prvních pokusů o tenhle formát, musíme zpět až do roku 1993, to je téměř 21 let! Pokud pro Vás tenhle formát začíná až s jeho ISO certifikací, tak budeme počítat s rokem 2001. I tak je to 14 let (= takže hodně). Jak je to dlouho, co SharePoint začal plně podporovat tenhle formát souborů? Asi tak rok (= málo). Teprve až od verze 2013 je tento druh souborů plně podporovaný a integrovaný (třeba do hledání). A to nemluvím o tom, že hledat cokoliv v .pdf souborech je docela věda. Proč? Než Vám to vysvětlím, projdeme trošku nutné teorie.
Píše se rok 2001 a formát PDF získává svou certifikaci. Podle definice byl primárně navržen pro výměnu a archivaci dat napříč všemi dostupnými platformami tak, aby šel otevřít (i vyrobit) ze zdarma dostupných programů, byl strukturovaný, šetřil místo na disku (narozdíl od do té doby používaných TIFF souborů) a obsahoval vždy všechny potřebné informace jako linky, grafiku, metadata a tagy přímo v sobě. Tím mělo být dosaženo univerzálního použití – každý by viděl po otevření úplně to samé, ať už by používal Acrobat Reader nebo Foxit, Windows XP nebo Linux. Hlavně grafici mají tenhle formát hrozně rádi, protože ať pošlete cokoliv, má to v sobě rovnou uložené všechny potřebné informace o barevném profilu i písmu a bez hledání, ořezávání, úpravy rozměrů nebo kupování použitých fontů Vám upraví logo, které chcete jen o pár centimetrů větší bez kreslení znovu.
Jak se můžete dočíst z několika historických dokumentů zveřejněných například na webu AIIM.org nebo PDF association, do podpory tohoto formátu se tehdy zapojilo mnoho v té době významných firem v oblasti software včetně pro nás důležitého Microsoftu. Jak moc usilovně na té podpoře Microsoft opravdu pracoval, to už se asi nedozvíme, nicméně to Adobe nezastavilo a PDF rostlo, definovalo se a vyvíjelo – dnes už má pět verzí, tři druhy a několik typů. A tady začínají naše potíže.
Verze jsou označované číslem za lomítkem a druhy písmenem. Už z definice z roku 2001 víme, že PDF bylo určeno pro výměnu dat a archivaci, prvním druhem je tedy PDF/A (Archive). To obsahuje nejrůznější text včetně fontů bez externích objektů a šifrování (1a), obrázky, vrstvy a externí odkazy, kompresi (2a), barevné profily pro tisk a průhlednost (3a, 4a) a nebo vloženou externí grafiku (5a) A až tady se dostáváme k prvnímu vážnějšímu porušení původní definice, kdy má soubor obsahovat vše potřebné uvnitř.
Kromě toho máme PDF/E pro technické výkresy, 3D modely nebo diagramy, PDF/VT pro tisk nebo PDF-U (občas označované jako UA), takovou rozšířenou A verzi opravdu podporující výše zmíněnou definici, včetně Unicode znaků napříč všemi platformami. Hybridem je PDF/A -1b, které je zjednodušenou A verzí bez tagů a metadat, kterou (bohužel) umí vyrobit některé zdarma dostupné aplikace pro digitalizaci dokumentů ještě teď a je s druhem A velmi jednoduše zaměnitelná. No a teď se konečně dostáváme k nejdůležitější větě tohoto článku, pro kterou jste museli absolovovat všechnu tuhle teorii (a to se omlouvám):
SharePoint plně podporuje jen PDF první verze druhu A, tedy PDF/1a (PDF/A-1a). Všechno ostatní spadá do kategorie „s omezením“ (with limitations).
V drtivé většině případů nám to nevadí, takovou verzi umíme vyrobit pomocí Microsoft Wordu už od verze 2007 (s doplňkem), ale problém nastává ve chvíli, kdy pracujete s elektronickými záznamy k archivaci (records) a používáte pro jejich digitalizaci nějaké chytré řešení třetí strany, které umožňuje výběr více formátů. Nebo pokud stahujete PDF z Internetu. Nebo Vám .pdf soubory někdo vyrábí a posílá. Nebo pokud dokumenty přeukládáte… Pravděpodobně budete schopní soubory bez větší námahy číst, podle jména najít, o trochu horší je to však s jejich editací a narazíte přesně ve chvíli, kdy budete chtít najít něco uvnitř.
— MOSS 2007 —
SharePoint verze 2007 uměl bez jakéhokoliv doplňku nebo nástroje ukládat .pdf soubory do knihoven souborů a hledat podle názvu nebo metadat. Pokud jste měli na klientském počítači nainstalovaný Adobe Acrobat nebo jakýkoliv jiný program pro prohlžení (pozor, na klientovi, ne na serveru, jak se občas někdo mylně domníval. A jen vyšších verzí. Nepamatuji si verzi nutnou pro MOSS, pro SP2010 to je 10.0.2.), mohli jste soubory rovnou otevřít a nebo je podložit do stránek (třeba jako iframe). Pro hledání uvnitř .pdf souborů jste museli použít iFilter od Adobe (tehdy nějaké verze 9), ale protože je zdarma a prakticky nepodporovaný, není to zrovna to nejlepší, co můžete mít. Co se dá dělat, tehdy moc na výběr nebylo, ani se o problematiku hledání nebo .pdf souborů vůbec tolik lidí nezajímalo. Hledání uvnitř obsahu .pdf souborů byla tak trošku loterie, a to pro teď předpokládejme, že se problém hledání netýká jazykových verzí (kdy pro konkrétní cizí jazyk dokumentu potřebujete mít nejdřív nainstalovaný příslušný jazykový balíček, aby hledání vědělo, že to co se snažíte najít je část nějakého cizího slova a nemuseli jste hledaný výraz psát v jeho přesném tvaru). To co jsme chtěli najít jsme museli dostat do sloupců k souborům, jako metadata.
— SharePoint 2010 —
… pro podporu .pdf souborů moc nového neudělal. Už na úrovni webové aplikace jste se mohli rozhodnout, jestli se budou PDFka zobrazovaná v prohlížečích klientských stanic nebo se stáhnou nejdříve na disk (Central Admin > Application Management > Manage Web Applications > General Settings > Browser File Handling), mohli jste PDF soubory „podkládat“ do stránek (přes „page viewer“, CEWP a „embeded objects“ nebo „wiki page“), mohli jste použít více různých iFiltrů (TET za trochu peněz nebo Foxit za více peněz), mohli jste kouzlit s podloženým PDF souborem, kterému schováte veškeré ovládací prvky, takže obsah nešel zkopírovat, tisknout ani přeuložit (za předpokladu, že všichni uživatelé používali POUZE Acrobat Reader a PrintScreen nebo Snipping stejně funguje vždy…), mohli jste z Wordu uložit soubor do knihovny formátu .pdf, mohli jste hledat PDF podle názvu souborů nebo metadat, ale prohledávání textu uvnitř zůstalo díky nezměněnému iFilteru stejně zlé.
Proč Adobe iFilter nestačí? Především proto, že bezpečně rozpozná text pouze u PDF/1a souborů. Pro tohle své tvrzení mám hotových spousty testů napříč všemi edicemi SP 2010 a na základě toho si dovoluji tvrdit, že bezkonkurenčně nejhůře je na tom kombinace Foundation + iFilter, kdy nemám k dispozici ani složené operátory a „keywords“, takže se mi strašně špatně hledá. V těsném závěsu je kombinace Server + iFilter (včetně Enterprise) a jednooký mezi slepými králem je Search Server Express 2010 + iFilter, který dokáže najít a rozpoznat text uvnitř 40 – 50% PDF souborů. Jen se divím, že procento vrácených výsledků neovlivnila ani jazyková verze dokumentů (zkoušena čeština (cs-CZ), angličtina (en-US) a slovinština (sl-SI)). V porovnání rychlosti hledání různými iFiltry je ve všech číslech suveréně nejhorší (viz odkazy na konci článku), no a pak zkuste najít něco v textu prohledávatelného PDF, přiloženého jako přílohu položky listu… Nenajdete. Ale tady nevím, čí je to vlastně chyba (SharePointu nebo iFilteru).
— SharePoint 2013 —
… konečně uznal formát PDF a zapracoval na integraci. Kromě výše zmíněných výhod můžeme díky „Word Automation Services“ přeukládat soubory do .pdf formátů, prokazatelně lépe se nám hledá uvnitř dokumentů díky vestavěnému vlastnímu iFiltru, hledání zobrazuje pěkné náhledy (a pokud chceme, můžeme si pro PDF nastavit vlastní „Result Type“ a „Display Template“) a podporuje IRM funkce a zabezpečení .pdf souborů. Protože teď máme Office Web Apps, PDF dokumenty už nejsou standartně otevírány v prohlížeči (ale i to jde ovlivnit). Nikdo neříká, že nemůžete použít nějaký další, jiný iFilter pro pomoc s hledáním. Můžete. Vestavěný parser je o dost lepší než iFilter, ale ani ten není všemocný, poradí si s obsahem, ale zase zaostává v (XMP) metadatech, odkazovaných přílohách a kotvách nebo záložkách. V tomhle odvětví je zatím asi nejlepší PDFLib iFilter, hned za ním Foxit, pak vestavěný Microsoft Format Handler a nakonec Adobe iFilter. Jen proto, že nezvládá těla dokumentů, ale zase je zdarma.
Náhled v hledání | Klik na výsledek hledání | Klik v knihovně dokumentů | |
Strict setting | Pokud upravíme „Display Template“ | Otevře asociovanou aplikaci | Otevře asociovanou aplikaci |
Permissive setting | Pokud upravíme „Display Template“ | Otevře dokument v prohlížeči | Otevře dokument v prohlížeči |
Office Web Apps 2013 (říjnový update 2012) | Pokud upravíme „Display Template“ NEBO „Result Type“ pro Word Item, náhled je pak ve Word App | Template otevírá dokument v aplikaci, Result Type v prohlížeči | Otevře asociovanou aplikaci |
Office Web Apps 201 (únorový update 2013) | Pokud upravíme „Display Template“ NEBO „Result Type“ pro Word Item, náhled je pak ve Word App | Otevře Word Web App | Otevře Word Web App, můžeme změnit otevírání pro asociovanou aplikaci |
Dobře, jak ale poznat ten pravý PDF soubor? Respektive tu pravou verzi a druh, který SharePoint pozná? Řečeno velmi zjednodušeně, pokud jste schopni označovat bloky textu uvnitř .pdf souboru myší, hledat zadaná slova a soubor je strukturovaný, jste na dobré cestě. Pokud obsah Vašeho souboru není citlivý, můžete zkust některý z on-line Internetových validátorů a všechny vyšší verze Acrobat Readeru Vám druh a verzi zobrazí v informačním proužku nebo vlastnostech dokumentu.
Zajímavé odkazy:
Foxit – Adobe – TET porovníní rychlosti vyhledávání 2 část, Druhá část
Použití PDF/A pro ECM účely, Reference guides
Adobe iFilter (dodatečná nastavení pro ABBYY server)
Konverze Word 2007 souborů do PDF/1A formátů
Podkládání .pdf souborů do stránek
Otevírání PDF souborů v aplikaci a ne Word Web App
Stručná verze pro Kamila:
Když máme SharePoint 2013 a PDF dokument, ve kterém lze text označit myší a vyhledávat v něm, pak to na 90% bude s vyhledáváním OK. 🙂
Poděkování
Zvláštní poděkování patří Ondrovi Psotovi (KM) za pomoc při všech testech
0 comments on Pravda o integraci SharePointu a PDF souborů