Nyomtatott dokumentumok digitalizálása

Folyóiratok, könyvek digitalizálása során a kötetek minősége, mérete alapján különböző szkennereket használunk. Különösen értékes, egyedi példányok digitalizálása ún. robotszkennerrel történik, mely lehetővé teszi, hogy csak 90 fokig kelljen a könyvet kinyitni, így elkerülhető a kötés sérülése. A robotszkenneren 2 nagyfelbontású fényképezőgép készít igen jó minőségű képet, akár 400 DPI felbontásban TIFF vagy JPG formátumban. A leszorítóprizma igen kíméletes, a lapozás jellemzően szemiautomatikus módban történik.

Nagy méretű (A3-nál nagyobb) dokumentumokat ún. könyvszkennerrel digitalizálunk, itt akár A2-es is lehet egy oldal mérete. A pásztázó megvilágítás és szkennelés igen jó minőségű képet eredményez, és egyre elterjedtebb az a verzió, amelyben nem kell 180 fokig kinyitni a köteteket. 

                        

A leghatékonyabb, leggyorsabb és a legjobb minőségű digitalizálás dokumentumszkennerek segítségével történik, amennyiben a feldolgozandó állomány lapokból áll vagy lapra szedhető. A szkennerek A3+ (max.  30,7 cm széles) méretű dokumentumok mindkét oldalát képesek nagy sebességgel egy időben szkennelni, jó minőségű képet készíteni.  A szkennerek görgőrendszere, lapbehúzási technikája rendkívül kíméletes, így akár rossz minőségű, töredezett, szakadt, de akár erősen savas lapokat is nagy biztonsággal feldolgozhatunk, és nem okoz gondot a hártyavékony átütő papírok szkennelése sem. A kimeneti formátumok is rugalmasan alakíthatóak, a 200 DPI fekete-fehér szkenneléstől a 600 DPI-s tömörítetlen TIFF formátumig bármi beállítható. A dokumentumok hosszúsága sem limitált, akár 1 méter hosszúságú is lehet egy dokumentum.

Gyakran előfordul, hogy mellékletként igen nagy méretű dokumentumokkal találkozunk (térképek, táblázatok, művészi reprodukciók). Ezeket a dokumentumokhoz nagy formátumú szkenner szükséges, amely igen kíméletes görgőrendszerrel és roncsolás mentes megvilágító rendszerrel rendelkezik.

A nyomtatott dokumentumok feldolgozásának következő lépése az ún. szövegfelismerés (angol rövidítéssel OCR), amelynek keretében a képből szöveg lesz. A ma használt szoftverek hatékonysága, pontossága nagyon jó, még a 19. századi nyomtatványok is 98-99%-os pontossággal ismerik fel a szöveget, jó minőségű nyomatok esetén ez a 99,5%-ot is elérheti. Az automatikus szövegfelismerés eredménye az ún. kétrétegű PDF, amelynek a felső rétege a szkennelt kép, az alsó rétege pedig a szöveg. Így a felhasználó a hiteles képet látja, míg a keresés a szövegen történik.

A kétrétegű PDF-ben könyvjelzők kerülnek elhelyezésre, mely lehet a cikkek címe, szerzője, az adott szám dátuma, évfolyama, vagy akár egy könyv fejezeteinek a címe. Az így létrejött szabványos kétrétegű PDF alkalmas az Interneten történő publikálásra.

A kétrétegű PDF-ek publikálásához saját fejlesztésű szoftvert használunk, mely lehetővé teszi a kifinomult, nagy sebességű, teljes szövegű keresést, a keresőszavak közötti böngészést, a találatok megjelenítését, kivilágítását. A keresés során a logikai operátorok (AND, OR, NOT) mellett ún. közelségi operátorokat is használhatunk (két vagy több szó legyen egymás mellett), illetve csonkolhatjuk a keresőszavunkat, akár jobbról, akár balról, akár a szó belsejében. A PDF oldalak megjelenítéséhez saját fejlesztésű programot használunk. Ez képes a PDF oldalakat gyorsan, hatékonyan prezentálni, a találatokat kivilágítani, az oldalakat méretezni, letölteni.

Az általunk kialakított gyártástechnológia és eszközrendszer képes tetszőleges típusú, méretű, minőségű dokumentum digitalizálására, szövegfelismerésére és az így létrehozott kétrétegű PDF-ek internetes publikálására gyors és kifinomult kereső és megjelenítő rendszer segítségével.

Alkalmazások

  • Arcanum Digitális Tudománytár (http://adtplus.arcanum.hu): Több száz magyar nyelvű nyomtatott tudományos folyóirat, hivatalos lap, napilapok, hetilapok, könyvek, évente mintegy 4-5 millió új oldallal.
  • HUNGARICANA Közgyűjteményi könyv- és dokumentumtár (http://library.hungaricana.hu) mintegy 100 közgyűjtemény által kiadott, őrzött és digitalizált kiadványok: iratok, levéltári, múzeumi évkönyvek, nyomtatott levéltári iratok, iskolai értesítők, stb.