Schlagwortwolke
aus Wikipedia, der freien Enzyklopädie
Eine Schlagwortwolke (auch: Schlagwortmatrix oder Stichwortwolke selten Etikettenwolke, englisch: tag cloud) ist eine Methode zur Informationsvisualisierung, bei der eine Liste aus Schlagworten alphabetisch sortiert flächig angezeigt wird, wobei einzelne unterschiedlich gewichtete Wörter größer oder auf andere Weise hervorgehoben dargestellt werden. Wortwolken werden zunehmend beim gemeinschaftlichen Indexieren und in Weblogs eingesetzt. Bekannte Anwendungen sind die Darstellung populärer Stichwörter bei Flickr, Technorati und Del.icio.us.
Schlagwortwolken wurden vermutlich zuerst 2002 von Jim Flanagan eingesetzt[1] und zunächst als gewichtete Liste (engl. weighted list) bezeichnet.[2] Um einige Zeit früher im Jahr 1980 kam allerdings schon das Buch „Tausend Plateaus. Kapitalismus und Schizophrenie“ von Gilles Deleuze und Felix Guattari heraus[3], auf dessen Einband bereits eine „Begriffswolke“ abgebildet ist, in welchem auch eine „rhizomatische“ Verweisstruktur von Begriffen behandelt wird[4], wie sie das Internet erst praktikabel ermöglichte.
[Bearbeiten] Erstellung einer Schlagwortwolke
Prinzipiell wird die Schriftgröße eines Schlagwortes in einer Schlagwortwolke durch dessen Häufigkeit bestimmt. Für eine Wortwolke der Kategorien eines Weblogs entspricht die Benutzungshäufigkeit beispielsweise der Anzahl von Weblog-Einträgen, die einer Kategorie zugeordnet sind. Bei kleinen Häufigkeiten genügt es, für jede Anzahl von eins bis zu einem Maximalwert die Schriftgröße direkt anzugeben.[5] Für größere Werte sollte eine Normierung vorgenommen werden. Bei einer linearen Normierung wird das Gewicht ti eines Deskriptors auf eine Größenskala von 1 bis f abgebildet, wobei tmin und tmax den Wertebereich der vorhandenen Gewichte angeben.
für ti > tmin sonst si = 1
Da die Anzahl indexierter Objekte pro Schlagwort üblicherweise nach einem Potenzgesetz verteilt ist[6], ist für größere Wertebereiche eine logarithmische Darstellung sinnvoll[7].
Für flektierende Sprachen wie das Deutsche müssen die Worte vor dem Zählen zuerst lemmatisiert also auf ihre Grundform reduziert werden.


