Text 2 Tree project

Voor de big data activiteiten is een project gestart waarbij een aantal aspecten van big data in een praktische opstelling getoetst gaan worden. In dit Text 2 tree project wordt gekeken in hoeverre data science technieken in combinatie met moderne NOSQL databanken ingezet kunnen worden om vrije tekst om te zetten naar een onderwerpenboom. Onderstaande alinea is een samenvatting van het projectvoorstel en geeft een globaal beeld van de ideeen die uitgewerkt gaan worden.

Voor het classificeren van informatie wordt in ICT toepassingen als webapplicaties gebruik gemaakt van suboptimale voorzieningen als tagclouds of vooraf gedefinieerde onderwerpbomen. De één biedt onvoldoende uniciteit de ander vraagt een grote beheerinspanning.

Door de komst van big data concepten is het mogelijk om semi zelflerende algoritmes te introduceren waarbij ongestructureerde data (vrije tekst)  omgezet wordt naar gestructureerde onderwerpbomen.

In dit project wordt een prototype ontwikkeld waarbij ongestructureerde tekst wordt omgezet naar een onderwerpennetwerk of –boomstructuur. Het prototype wordt ingericht op basis van 50 vakinhoudelijke documenten, bijvoorbeeld artikelen of CV’s  die getransformeerd worden naar een onderwerpennetwerk of –boom. Het algoritme is op basis van Term Frequency en Inverted Document Frequency in combinatie met Classification Rules.

Bij het implementeren van dit algoritme worden twee technologieen met elkaar vergeleken opslag in een relationele database en een moderne NoSql database. Reden om te kiezen voor een vergelijking is het feit dat bij de implementatie van dit algoritme er een explosie van zowel termen als classificatie associaties ontstaan.  Hiervoor zullen in de software van het prototype oplossingen gezocht moeten worden op het vlak van data structuren, performance, zelf lerende fucntionaliteiten en representatie van de informatie aan een gebruiker.

Probleemstelling

Bij de omzetting van vrij tekst naar aan elkaar gerelateerde termen (onderwerpen) zal een explosie aan termen en relaties tussen termen onderling, documenten en document collecties ontstaan. Dit brengt bijzondere eisen met zich mee op het vlak van datastructuren, performance en begrijpelijkheid bij weergave aan een gebruiker. Door twee gegevensplatformen (MongoDB en SQL Server) met elkaar te vergelijken biedt dit prototype inzage in de te kiezen technologie voor bestaande en toekomstige kennis/expertise omgevingen.

Oplossingsrichting

Bij de oplossingsrichtingen worden meerdere Big Data algoritmen toegepast voor een alledaags probleem in analyse en representatie van kennis/expertise. Deze algoritmen worden momenteel veelal toegepast in prototypische Data Science tools zoals R, deze kunnen niet ingebed worden in bestaande toepassingen. In dit project worden echter de algoritmen geimplementeerd in een meer traditionele programmeeromgeving gebaseerd op het DotNet framework (VB.Net). Technische nieuwheid is dat big data algoritmen hiermee ingebed kunnen worden in (web) applicaties. 

Gebruikte technieken

  • SQL-server
  • NoSQL database zoals MongoDB of OrientDB
  • VB.Net
  • ASP.Net
  • Visual Studio Community edition



Reageer
Bekijk reacties



Copyright (c) 2013 Atelier Helder en Interactory. Ontwerp door FCT.