Automatizácia spracovania produktovej dokumentácie pomocou AWS AI riešenia

Táto case study opisuje implementáciu serverless AWS riešenia na automatizované spracovanie technických dokumentov (datasheety, katalógy, certifikácie) pre vedúceho slovenského distribútora elektroinštalačného materiálu a priemyselnej automatizácie. Riešenie umožnilo dramatické zrýchlenie spracovania produktov do B2B katalógu, zlepšenie kvality dát a zníženie prevádzkových nákladov.

07. jul 2025 ┃ 6 minút čítania

aspecta logo

Výzva

V segmente distribúcie elektroinštalačných a priemyselných komponentov sa každoročne spracúvajú desaťtisíce produktových listov a technických dokumentov od rôznych výrobcov. Väčšina firiem pritom stále spolieha na manuálne prepisovanie údajov, ktoré je pomalé, neefektívne a vystavené vysokému riziku chýb. Dynamika trhu, časté zmeny produktových parametrov a tlak na rýchle uvedenie položiek do B2B portálov vytvárajú tlak na automatizáciu a dátovú presnosť.

  • Objem a heterogenita dokumentov: stovky dodávateľov a viacero formátov (PDF, DOCX, XLS) v rôznych jazykoch.

  • Manuálna extrakcia údajov: 15–20 minút na dokument, vysoké riziko chýb pri ručnom prepise technických parametrov.

  • Oneskorené uvedenie produktov: dlhší time-to-market pre nové položky v B2B portáli.

 

Ciele projektu

  • Zrýchliť spracovanie dokumentov o minimálne 80 %.

  • Znížiť manuálnu prácu dátového tímu o 50 %.

  • Dosiahnuť presnosť extrahovaných údajov ≥ 98 %.

  • Zaviesť škálovateľnú, pay-per-use architektúuru integrovanú s ERP a B2B systémom.

aspecta logo

Riešenie

Navrhnuté riešenie bolo postavené na bezserverovej AWS architektúre so zameraním na AI/ML a NLP pre spracovanie neštruktúrovaných dokumentov. Tento prístup bol zvolený ako najoptimálnejší z hľadiska kombinácie flexibility, spoľahlivosti a prevádzkovej efektívnosti. Serverless model umožňuje rýchle škálovanie podľa objemu dokumentov bez nutnosti správy infraštruktúry, zatiaľ čo natívne AI služby AWS poskytujú overenú presnosť a možnosť rýchlej integrácie s existujúcimi ERP a B2B systémami.

 

Kľúčové komponenty:

  • Amazon S3 – vstupné úložisko pre nahrávané dokumenty.

  • Amazon Textract – automatická extrakcia textu, tabuliek a kľúčových párov.

  • Amazon Comprehend + custom NLP (SageMaker) – identifikácia a klasifikácia technických parametrov (napätie, výkon, rozmery, normy, IP krytie).

  • AWS Lambda – orchestrácia pracovných tokov a transformácia do štruktúrovaného JSON.

  • Amazon DynamoDB – ukladanie extrahovaných dát + metaúdajov.

  • API Gateway – integrácia so systémami ERP a B2B portálom.

  • Amazon CloudWatch – monitoring KPI, latencie, chýb a kvality modelov.

 

Proces:

  1. Dodávateľský súbor nahraný do S3 (batch alebo event-driven).

  2. Textract extrahuje text a tabuľky; výsledok odovzdá Lambda funkcii.

  3. SageMaker NLP model a Comprehend identifikujú parametre a mapujú ich na interné polia.

  4. Lambda dokončí validáciu, vytvorí JSON a uloží záznam do DynamoDB.

  5. API Gateway umožní export do ERP a publikovanie v B2B katalógu; manuálne validácie sú podporené auditnými logmi.

aspecta logo

Implementácia

Fázy projektu (3–6 mesiacov):

  • Analýza a PoC (4 týždne): audit vstupných dokumentov, definícia taxonómie parametrov, PoC na vzorke 500 dokumentov.

  • Vývoj a tréning (6–10 týždňov): nasadenie Textract, tréning custom NLP modelu v SageMaker, vývoj Lambd a integrácií.

  • Integrácia a testovanie (4–6 týždňov): prepojenie s ERP, testy end‑to‑end, bezpečnostné revízie.

  • Nasadenie a doladenie (2–4 týždne): monitorovanie, spätná väzba používateľov, kalibrácia modelov.

 

Kľúčové rozhodnutia:

  • Voľba serverless AWS riešenia kvôli škálovateľnosti a platbe podľa spotreby.

  • Hybridný prístup: automatické spracovanie + ľudská validácia vo výnimočných prípadoch.

aspecta logo

Výsledky a benefity

Úvodné vyhodnotenie potvrdilo, že nasadené riešenie prinieslo merateľný dopad nielen na prevádzkovú efektivitu, ale aj na kvalitu dát a rýchlosť uvádzania produktov na trh. Kombinácia AI a serverless prístupu sa ukázala ako kľúčová pri zvládaní vysokého objemu dokumentov, pričom systém sa prispôsobuje reálnym potrebám a poskytuje spoľahlivé, škálovateľné výsledky aj pri rastúcej záťaži.

KPI 1 – Rýchlosť spracovania

  • Baseline: 15–20 minút/dokument.

  • Výsledok: priemer 1:45 min/dokument.

  • Dopad: ~90 % zrýchlenie; výrazné zrýchlenie nahrávania produktov do katalógu.

KPI 2 – Presnosť dát

  • Baseline: 93–95 % (manuálne).

  • Výsledok: 98,6 % po validácii.

  • Dopad: menej reklamácií; vyššia kvalita full‑text vyhľadávania.

KPI 3 – Efektivita nákladov

  • Výsledok: ~40 % úspora nákladov na dátový tím.

  • Dopad: nižšie OPEX, možnosť alokovať zdroje do rozvoja katalógu a UX.

Prevádzkové benefity:

  • Škálovateľné spracovanie tisícov dokumentov paralelne.

  • Lepšia verzionácia a audit dát (DynamoDB + CloudWatch logs).

  • Podpora viacjazyčnosti (SK/EN/DE) vďaka Comprehend + custom NLP.

 

„Automatizované spracovanie dokumentov nás zbavilo rutinných úloh a umožnilo tímu sústrediť sa na kvalitu katalógu. Rýchlejšie nahrávanie produktov priamo podporilo naše obchodné ciele.“ 

aspecta logo

Záver

Projekt potvrdil, že automatizácia založená na AI a serverless architektúre je efektívnym spôsobom, ako zrýchliť a spresniť spracovanie produktovej dokumentácie v technicky náročných segmentoch. Riešenie umožnilo klientovi premeniť časovo náročný manuálny proces na agilný a presne merateľný systém, ktorý sa dokáže škálovať podľa potrieb. Overená kombinácia AWS služieb vytvorila pevný základ pre ďalšie rozširovanie automatizácie a inteligentného riadenia dát naprieč organizáciou.

Prihláste sa na odber a neunikne vám žiadny článok

Ak sa vám článok páčil, zdieľajte ho