Nyckelordsanalys på Dagen.se
19 Feb 2009
Utveckling
Sedan några veckor har vi en praktikant här på Swedmedia som gör ett utvecklingsprojekt till Dagen.se. Ett verktyg för reportrarna att ämnestagga artiklar som vi lägger ut på nätet. Bakgrunden är en utbildningsdag vi hade med Nikke Lindqvist som mynnade ut i ett konstaterande att om vi bättre kan innehållsbeskriva våra texter med taggar desto bättre inlänkningar bör vi kunna få från Google. Såväl fler som bättre.
Kruxet med denna typ av taggning är att det är en lite för tidsödande process för att reportrarna skall orka arbeta med det. Samtidigt som det har ett stort värde för slutprodukten. Dilemma. Därför initierade vi ett projekt där Annika tagit fram ett system som automatiskt identifierar nyckelord i en färdig text och föreslår nyckelord som reportrarna istället för kryssa bort om de inte stämmer. Detta förenklar helt klart processen och vi får bättre möjligheter att innehållstagga våra texter.
Däremot kan reportrarna föreslå nya nyckelord genom att markera det i texten och sedan lägga till det. Detta flöder blir helt klart mycket smidigare. Några problem som vi stött på är förstås böjningar av ord och olika ändelser som gör att flera fraser kan motsvara ett och samma nyckelord. Ett bra exempel är att verktyget skall identifiera såväl ”Göran Person” som ”Göran Persons” som samma nyckelord.
Än mer komplicerat blir det ju när man vill identifera ämnen som inte har en direkt fras kopplat till sig utan kanske ett 100-tal olika andra ämnen. Det kallar vi abstrakta nyckelord och skulle kunna exemplifieras genom t.ex. Mellanösternkonflikten. Hur identifierar man ett sådant? Vi tror att det går om man först hämtar alla exakta nyckelord med textmatchtningar och sedan grupperar dessa i abstrakta paraplyord. Så om vi hittar 40-tal nyckelord till Mellanösterkonflikten som t.ex.: Bosättningar, Gazaremsan, Palestina, Mahmoud Abbas, etc. Om vi sedan kanske får träff på 7-8 av dessa nyckelord rekommenderar vi detta men flaggar för osäkerhet.
Det hela är faktiskt ganska kul och nu har vi tagit fram en protoyp som matchar på de exakta fraserna. Just nu håller vi på att utveckla webservice’s så att vårt publiceringssystem klarar av att integrera detta i sitt gränssnitt.
http://utveckling.swedmedia.se/extra/textanalys
I exemplet ovan länkar nyckelorden till Wikipediaartiklarna men på sikt skall de förstås länkas till ämnessidor på Dagen.se.

Kommentera inlägget