Data parsing

File format detection

In veel gevallen hebben klanten de beschikking over een stapel documenten met een varieteit aan bestandsformaten. Deze bestanden dienen te worden omgezet van een binair formaat in tekst. Dit is helaas een niet triviaal proces, door de grote verscheidenheid aan beschikbare bestandsformaten en encodings.

Om dit proces te stroomlijnen, hebben we een file format detection component, die gegeven de header van een bestand en de beschikbare metadata (zoals mime type en extensie) achterhaalt welk bestandsformaat er is gebruikt. Op basis van de output van deze component wordt de parser geselecteerd om het binaire bestand te converteren naar tekst.

File format parser

De file format parser is onze component die een bestand in een specifiek bestandsformaat omzet in leesbare tekst. Voor een deel van deze file format parsers gebruiken we publiek beschikbare filters en open source software; voor een deel hiervan hebben we onze eigen implementatie.

Onze ervaring hier is dat een hoop kwaliteit te winnen is in het gehele proces door goed te letten op de output van de file format parsers aan het begin van het proces, simpelweg omdat fouten cumulatief werken. In veel gevallen besteden we daarom liever wat meer tijd om de kwaliteit aan het begin van het proces hoger te krijgen, dan om fouten later in het proces op te lossen via tuning.

Hieruit volgt ook de reden dat we zelf een aantal parsers voor bestandsformaten hebben geimplementeerd: hierbij proberen we niet een visueel kloppende representatie te krijgen van de tekst, maar om zo goed mogelijk de structuur van de taal (zoals zinnen en paragrafen) in stand te houden.

Language detection

Een machine die getuned is om Engelse teksten te parsen, zal niet goed om kunnen gaan met Nederlandse teksten en omgekeerd. Het is daarom voor veel search en machine learning taken cruciaal om van tevoren te bepalen om welke taal het gaat, alvorens de content verder te verwerken in de juiste taal.

Language detection zien we daarom als een essentiele component in de meeste projecten met veel content, waarbij we afhankelijk van de gevonden taal een keuze maken voor de pipeline. Afhankelijk van de context kunnen we daarnaast de een subselectie maken van de modellen.

Processing

Zodra een binair document is omgezet in tekst en we de taal weten van het binaire document, verwerken we dit normaliter via een language pipeline.

Meer informatie

Voor meer informatie over onze producten, kunt u het best contact met ons opnemen.

Inschrijven nieuwsbrief

Schrijf je in voor onze nieuwsbrief.

Copyright (c) 2024 by NubiloSoft, all rights reserved.