JOIN biedt uitgebreide mogelijkheden om informatie gestructureerd op te slaan. Ook indien een gebruiker niet op de hoogte is van de structuur van de dossiers of documenten kan de informatie in JOIN gevonden worden. De methode hier voor is het zogenaamde uitgebreid zoeken. Voor we ingaan op hoe te zoeken is het belangrijk eerst duidelijk te hebben hoe informatie in JOIN opgeslagen wordt. Dit is namelijk mede bepalend voor wat er via uitgebreid zoeken teruggevonden kan worden.
Dit artikel beschrijft hoe JOIN om gaat met automatische tekstherkenning en hoe deze informatie teruggevonden kan worden met de zoekfunctie van JOIN.
De scanmodule in JOIN is actief wanneer een scan wordt aangeboden in de ‘scancource’ map van JOIN. Hierbij wordt gebruik gemaakt van de bestandsviewer in JOIN om kwaliteitscontrole uit te voeren op de gescande pagina’s voordat de scan wordt gekoppeld. Doorgaans wordt de scanmodule gebruikt in combinatie met een knop ‘Scannen naar JOIN’ op een scanner en/of multifunctional.
Om te controleren of een PDF bestand in JOIN is verwerkt door de scanmodule of door te koppelen kan de ‘Bestandsviewer in 4-frame modus worden gebruikt. Een scan wordt altijd getoond onder ‘Gekoppelde scans’.
Op de inhoud van de gekoppelde scans wordt door JOIN tekstherkenning met behulp van OCR toegepast. Deze tekstherkenning is standaard ingesteld om buiten kantoortijden (tussen 02:00 en 06:00 uur), elke kwartier de inhoud van scans te verwerken.
De OCR herkende tekst wordt in JOIN bewaard in het veld ‘Uitgebreide inhoud’ op het bestand.
Als dit veld leeg is dan heeft de OCR tekstherkenning mogelijk nog niet plaatsgevonden omdat deze buiten kantoortijden plaatsvindt. Voor een individuele scan kan dit handmatig gestart worden door het ‘OCR oog’ icoon te klikken:
De inhoud van het veld ‘Uitgebreide inhoud’ word door Fulltext zoeken en door JOIN Search gebruikt om te kunnen zoeken op de inhoud van scans.
Alle bestanden die via JOIN en JOIN Now worden gekoppeld aan een registratie worden als reguliere bestanden gezien. Zelfs een PDF of TIFF bestand is wat JOIN betreft geen scan wanneer het niet door de scanmodule is verwerkt. Ook gekoppelde applicaties zoals DocYard bieden alleen bestanden aan bij JOIN.
Bestanden zijn in JOIN te herkennen door het feit dat ze onder de kop ‘Gekoppelde bestanden’ worden getoond in de ‘Bestandsviewer in 4-frame modus’:
Op de inhoud van de gekoppeld bestanden vindt door JOIN tekstherkenning plaats met behulp van zogenaamde iFilters. Deze iFilters zijn actief op de volgende bestanden:
Deze tekstherkenning op basis van iFilters wordt standaard elke 15 minuten uitgevoerd.
De door iFilters herkende tekst wordt in JOIN bewaard in het veld ‘Uitgebreide inhoud’ op het bestand.
Als dit veld leeg is dan heeft de iFilter tekstherkenning mogelijk nog niet plaatsgevonden, dan duur het nog maximaal 15 minuten voor dat deze is ingevuld, of de iFilter herkenning vindt buiten kantoortijden plaats.
De inhoud van het veld ‘Uitgebreide inhoud’ word door Fulltext zoeken en door JOIN Search gebruikt om te kunnen zoeken op de inhoud van bestanden.
JOIN kent twee methodes voor ‘zoeken in alles’ binnen JOIN.
Voor beide zoekmethodes wordt het zelfde zoekscherm gebruikt:
Ook de opbouw van het scherm waarin de resultaten wordt getoond is vrijwel identiek:
Naast het feit dat het gebruik van ElasticSearch tot betere zoekresultaten leidt is het gebruik van ElasticSearch ook te herkennen aan de tekst (… miliseconden) achter het aantal resultaten.
Bij full text zoeken in JOIN wordt er gebruik gemaakt van een zoekindex op de database. Het bijwerken van deze zoekindex vindt elke nacht en in het weekend plaats. Met uitzondering voor organisaties die een Oracle database gebruiken, waarbij wijzigingen in JOIN direct worden toegevoegd aan de zoekindex.
Alle metadata van registraties en wijzigingen op metadata van bestaande registraties (inclusief ‘Uitgebreide inhoud’ van bestanden en scans) wordt toegevoegd aan de zoekindex. Aangezien het bijwerken van deze index buiten kantoortijden plaats vindt, kan er pas de volgende dag worden gezocht op nieuwe registraties en wijzigingen in registraties.
Bij organisatie die een Oracle database gebruiken zijn nieuwe registraties en wijzigingen in registraties wel direct beschikbaar. Let wel; de informatie in bestanden en scans is mogelijk niet direct doorzoekbaar, zie ook hoofdstukken ‘Scans & OCR’ en ‘Bestanden en iFilters’.
Het gebruik van full text zoeken vereist initiële indexering en configuratie door een technisch consultant. Dit is standaard bij de inrichting van een nieuwe JOIN omgeving.
Bij ElasticSearch in JOIN wordt er gebruikt gemaakt van een externe zoekmachine (Elastic) die een eigen zoekindex bijhoud op de server. Deze index wordt continu bijgewerkt. Alle metadata van registraties en wijzigingen op metadata van bestaande registraties (inclusief ‘Uitgebreide inhoud’ van bestanden en scans) wordt toegevoegd aan de zoekindex.
Aangezien deze zoekindex altijd up-to-date is kan er direct worden gezocht op nieuwe registraties en wijzigingen in registraties.
Let wel; de informatie in bestanden en scans is mogelijk niet direct doorzoekbaar, zie ook hoofdstukken ‘Scans & OCR’ en ‘Bestanden en iFilters’.
Het gebruik van ElasticSearch vereist een licentie SEARCH en de initiële indexering en configuratie door een technisch consultant.