Web scraping

Web scraping is het vergaren van (meestal tekstuele) content van het web. Onze web scrapers begrijpen wat content en wat structuur is op een webpagina en kunnen zelfstandig een website navigeren. Hierbij wordt rekening gehouden met dubbele content, automatisch gegenereerde content en constraints.

Onze web crawlers zijn bedoeld om een beperkt aantal websites te scrapen. Wij scrapen dus niet standaard alle websites die Nederlandse taal bevatten, ondanks dat we dit wel technologisch zouden kunnen.

Veel content op het web is semi-statisch. Dat wil zeggen dat de meeste pagina's op het web niet of nauwelijks wijzigen. Onze technologie houdt hiermee rekening, door verschillende statistieken te verzamelen over updates en deze te gebruiken om te voorspellen wanneer het nuttig is om content opnieuw te crawlen.

Schaalbaarheid

Web scraping gaat meestal over volume. Hoewel onze web scraping technologie kan werken on-premise, draaien de meeste van onze web scraping in de cloud. De reden hiervoor is enerzijds dat ingaand dataverkeer tegen een ander tarief gaat dan uitgaand dataverkeer en anderzijds dat dynamisch geschaald kan worden met het te crawlen volume.

In alle gevallen werken onze web scrapers op een "nette" manier. Onze scrapers hanteren altijd de regels van robots.txt en no-follow meta tags. Daarnaast verkopen we onze web scrapers niet aan iedereen en willen we weten met welk doel deze gebruikt gaan worden. Dit alles doen we, omdat een blokkade op onze scrapers funest is voor al onze klanten en gepaard gaat met reputatieschade. Daarnaast behandelen we alle klachten over onze web scrapers serieus.

Meer informatie

Voor meer informatie over onze web scrapers, neem contact met ons opnemen.

Inschrijven nieuwsbrief

Schrijf je in voor onze nieuwsbrief.

Copyright (c) 2024 by NubiloSoft, all rights reserved.