Onze excuses, deze website ondersteunt de website print functie niet.

Common Crawl en WikiPedia

SURFsara host een aantal (semi) algemeen beschikbare gegevensverzamelingen op zijn Hadoop-cluster, zoals de Common Crawl Dataset en de Nederlandse en Engelse versies van Wikipedia. Daarnaast staan ook de gegevensverzamelingen voor de Text Retrieval Challenge (TREC) en ClueWeb ter beschikking van onderzoekers. Uiteraard kunnen gebruikers hun eigen gegevensverzamelingen op het cluster zetten.

 

Norvig Award

Big data spidermanSURFsara en de stichting Common Crawl organiseren samen de Norvig Web Data Science Award, genoemd naar Peter Norvig, onderzoeksdirecteur bij Google Inc. en lid van de adviesraad van Common Crawl. Het doel van Common Crawl is de toegang tot het web te democratiseren door een crawl op te zetten die iedereen kan raadplegen en analyseren. Als we het web beter kunnen begrijpen, kan het ons geweldige inzichten bieden. Met Web Crawl-data kan de gebruiker trends ontdekken en patronen vaststellen in de politiek, economie, gezondheidszorg, populaire cultuur en op veel andere terreinen. Deelnemers wordt daarom gevraagd creatief gebruik te maken van de open verzameling van Common Crawl-data op SURFsara's Hadoop-cluster, die zes miljard webpagina's beslaat. De door SURFsara geboden toegang tot het cluster maakt het werken met deze gegevensverzameling van ongeveer 25 TB heel eenvoudig. Deze prijsvraag gaat gepaard met cursussen en ondersteuning door SURFsara's adviseurs. Het onderzoek kan gaan over vragen als: hoeveel pagina's in de Common Crawl-gegevens betreffen spam, wat zijn de meest controversiële pagina's in Common Crawl of hoe groot zijn netwerken van gekoppelde pagina's waarop een bepaalde gebeurtenis besproken wordt? De eerste Norvig Award Competition werd in 2012 georganiseerd en was een groot succes.

45