DocFlair - Extragere de date din documente structurate · DocFlair

Ce sunt documentele semi-structurate?

Se estimează că peste 80% dintre documentele și formularele utilizate zi de zi sunt semi-structurate. Caracteristicile de bază a documentelor semi-structurate sunt complexitatea datelor și caracterul imprevizibil, în sensul că nu putem prevedea în procent de 100% ce tip de informații vom avea în fiecare document.

Documentele semi-structurate desemnează o categorie vastă și eterogenă de documente, fiind astfel mai dificil de clarificat într-o definiție. Cel mai simplu mod de a le prezenta este prin diferențiere față de documentele structurate, denumite și tipizate. Aceste documente conțin niște câmpuri predefinite care solicită un anumit tip de informație. Fiecare document are aceeași structură, cu același număr de câmpuri, localizate mereu în aceeași poziție pe pagină. Exemple de documente structurate/tipizate sunt:

foaie de parcurs marfă;

fișă de instruire individuală privind sănătatea și securitatea în muncă;

facturier;

rețetă medicală;

registru inventar etc.

Documentele structurate nu ridică probleme de extragere sau procesare a datelor datorită naturii organizate a informației care ne permite să știm dinainte de tip de date va conține fiecare document. Ca atare, programele de extragere a datelor din documente structurate sunt deja suficient de evoluate pentru a asigura o eficiență optimă. Există în prezent multe sisteme de extragere a datelor din diferite tipuri de documente structurate, care procesează mii de documente pe zi. Procedura de extragere automată presupune deschiderea documentului în modul design și stabilirea poziției fiecărui câmp. Odată ce poziția este înregistrată, programul va extrage informația din fiecare document structurat, întrucât o va găsi de fiecare dată în același loc predefinit. Însă, majoritatea documentelor utilizate în tranzacțiile financiar-bancare, proceduri legale, notariale sau administrative, precum și în cercetare nu respectă același tipar intern de organizare a informației. Acestea sunt documentele semi-structurate. Se estimează că peste 80% dintre documentele și formularele utilizate zi de zi sunt semi-structurate, din cauză că natura informațiilor solicitate nu poate fi restrânsă în niște categorii complet fixe. De fapt, marea majoritate a datelor cu care intrăm în contact este fie nestructurată (cum sunt paginile web) sau semi-structurată (de exemplu, magazinele online).

Spre deosebire de tipizate, documentele semi-structurate pot avea câmpuri în poziții diferite pe pagină, unele câmpuri sunt completate întotdeauna (cum ar fi numele, CNP etc.), în timp ce altele sunt opționale sau rămân necompletate uneori (ex. apartenența la un grup vulnerabil), iar numărul de rânduri ale tabelelor poate varia. Mai mult, unele documente semi-structurate au număr variabil de pagini. De exemplu, la o cerere de refinanțare, poate exista o pagină separată pentru fiecare credit, caz în care unele vor avea două pagini, iar altele mai multe. Deci, caracteristicile de bază a documentelor semi-structurate sunt complexitatea datelor și caracterul imprevizibil, în sensul că nu putem prevedea în procent de 100% ce tip de informații vom avea în fiecare document. De aceea, programele care extrag date din tipizate nu sunt eficiente pentru documente semi-structurate. Acestea necesită niște algoritmi de recunoaștere a poziției fiecărui câmp și abia apoi de extragere a datelor. De exemplu, adresa de livrare pe un ordin de achiziție poate fi localizată în partea superioară a documentului, în stânga sau la mijloc, dar poate fi și în partea dreaptă jos. În toate situațiile, ea trebuie identificată de către program și înregistrată corect ca fiind adresa de livrare.

Nu în ultimul rând, o altă provocare pe care o implică procesarea unui document semi-structurat este faptul că nu toate informațiile pe care le conține sunt relevante. Programul trebuie să diferențieze între informația care trebuie ignorată și informația importantă. Soluțiile tradiționale de procesare a documentelor structurate nu sunt suficient de flexibile și inteligente pentru a extrage date din documente care au o structură variabilă, fără alocarea unor resurse extensive de customizare a programului. Până recent, nu existau soluții eficiente din punct de vedere al corectitudinii datelor extrase, dar și al costurilor care să fie adecvate pentru documentele semi-structurate. DocFlair este un exemplu de program (platformă Saas) creat pentru extragerea datelor din documente structurate și semi-structurate, care reduce timpul de procesare a datelor de până la 5 ori. DocFlair eficientizează procesul de procesare a datelor și prin funcția de extragere a bifelor din câmpurile cu alegeri unice sau multiple.

În concluzie, documentele semi-structurate reprezintă o categorie vastă de documente care au o anumită organizare internă a informațiilor, dar cu variații mai mici sau mai mari. Extragerea automată a datelor din documentele semi-structurate este o provocare pentru soluțiile software care trebuie să identifice poziția, categoria de informație și relevanța acesteia înainte de a o extrage.