Data processing

Natural language processing

Tekstuele content wordt vrijwel altijd verwerkt via een taal-specifieke natural language processing pijplijn. Het doel van de pijplijn is om content om te zetten in tokens, die idealiter uniek zijn voor een woord waar een gebruiker of machine op matcht. Bij onze technologie worden talen altijd onafhankelijk van elkaar verwerkt.

Pijplijn componenten

Standaard componenten in onze pijplijn zijn paragraaf detectie, zin en woord detectie (incl. afkortingen), stemming, tokenization, diacritics handling en stopwoord verwijdering. In sommige gevallen gebruiken we daarnaast NLP tools zoals part-of-speech tagging of geavanceerde tokenization.

De pijplijn wordt in veel gevallen samengesteld op basis van het beoogde doel. Als de pijplijn wordt aangesloten op een machine learning component, gebruiken we andere componenten dan als deze wordt aangesloten op een search engine.

Feature extraction

Feature extraction is bij veel projecten een stukje maatwerk. Vrijwel alle kennis-intensieve organisaties gebruiken voor het maken van beslissingen features die niet standaard voorhanden zijn. In gesprek met de (domein) professional bekijken we hoe deze te werk gaat en hoe beslissingen worden geformuleerd. Door maatwerk leren we de machine om dergelijke features te extraheren.

Voor standaard features hebben we standaard feature extraction componenten liggen. Denk daarbij aan bijvoorbeeld url's, smileys, adressen, e-mail adressen, rekeningnummers, telefoonnummers, etc, etc.

Feature selection

Voor machine learning gebruiken we feature analyse tools om discriminerende en niet-discriminerende features van elkaar te kunnen onderscheiden. Dit proces heet "feature selection" en zorgt ervoor dat geen overfitting plaatsvindt op de dataset. Afhankelijk van de taak gebruiken we vervolgens een machine learning methode, die aansluit op de dataset.

Voor kleine datasets of waar transparantie vereist is, bijvoorbeeld om juridische redenen, gebruiken we in de regel beslisbomen. Bij grote datasets kijken we eerder naar neurale netwerken. In beide gevallen gebruiken we hiervoor componenten van derde partijen.

Meer informatie

Voor meer informatie over onze producten, kunt u het best contact met ons opnemen.

Inschrijven nieuwsbrief

Schrijf je in voor onze nieuwsbrief.

Copyright (c) 2024 by NubiloSoft, all rights reserved.