Archiv für das Tag 'Web 2.0'

by Andreas Heß, Philipp Dopichaj and Christian Maaß

Multi-value text classification is an interesting and very practical topic. In many applications, a single label only is not enough to appropriately classify documents. This is especially true in many applications on the web. As opposed to traditional documents, some texts on the web, especially on Web 2.0 sites, are very short, for example pin-board entries, comments to blog posts or captions of pictures or videos. Sometimes these texts are mere snippets, being at most one or two sentences long. Yet, in some Web 2.0 Applications, labelling or tagging such short snippets does not only make sense but could be the key to success. Therefore we believe it is important to investigate how multi-value text classification algorithms perform when very short texts are classified. To test this, we classified news articles from the well known Reuters data set based only on the headlines and compared the results to older approaches in literature that used the full text. We applied the same algorithm to a dataset from Web 2.0 site Lycos iQ. An empirical evaluation shows that text classification algorithms perform well in both setups.

The remainder of this paper is organised as follows: First, we present a new stacking approach for multi-value classification. By comparing the performance of classifiers trained only on the short headlines of the well-known Reuters news articles benchmark to results achieved with similar classifiers using the full article text we show that classification of very short texts is possible and the loss in accuracy is acceptable. Second, we present an application of text classification for tagging short texts from a Web 2.0-site. We demonstrate that presenting suggestions to the user can greatly improve the quality of tagging.

The paper is accepted for the 31st Annual German Conference on Artifical Intelligence.

Download: Multi-Value Classification of Very Short Texts

Christian

Mythos und Symbolik des Web 2.0

von Christian Maaß und Gotthard Pietsch

ZfMIn der Unternehmenspraxis und Wirtschaftspresse wird momentan kontrovers über den Einsatz von Web 2.0-Technologien debattiert. Auf der einen Seite ist die Ansicht verbreitet, dass diese Technologien den Wettbewerb in allen Wirtschaftsbereichen beeinflussen: Beispielsweise konstatiert die Unternehmensberatung Booz Allen Hamilton: „Alle Unternehmen müssen sich auf Web 2.0 einstellen, da sie damit ihre betriebliche Effizienz erhöhen und Wettbewerbsvorteile generieren können.“ Auf der anderen Seite wird ein neuer Internet-Hype befürchtet, weil nur wenige Web 2.0-Unternehmen bisher nennenswerte Umsätze generieren. Sogar vielen bekannten und stark frequentierten Webseiten wie YouTube gelingt es immer noch nicht, die hohen Besucherzahlen mit einem wirtschaftlich tragfähigen Geschäftsmodell zu verbinden. Offenbar besteht eine ausgeprägte Diskrepanz zwischen den bisher nur begrenzten wirtschaftlichen Möglichkeiten im Web 2.0 einerseits und dem (dennoch) hohen Interesse der Praxis an den damit assoziierten Technologien und Geschäftsmodellen andererseits.

Angesichts dessen ist es das Ziel des Beitrags, zentrale Ursachen dieser Diskrepanz zu identifizieren. Dabei wird von der Hypothese ausgegangen, dass sich diese Ursachen erschließen, wenn man die Einflüsse institutioneller (Verhaltens-)Regeln des gesellschaftlichen Kontextes sowie symbolischer Funktionsmechanismen der Internetökonomie berücksichtigt. Es wird verdeutlicht, dass die Diskussion um das Web 2.0 von gesellschaftlichen Rationalitätsmythen und einer spezifischen sozialen Symbolik geprägt ist, was wichtige Funktionen für die Sicherstellung des Ressourcenzuflusses (insbesondere Risikokapital) in der Internetbranche und damit für die Erfolgschancen der dort tätigen Unternehmen erfüllt.

Um diese Relevanz von Mythen und Symbolen zu verdeutlichen, wird folgendermaßen vorgegangen: Mit dem Fokus auf aktuelle Entwicklungstendenzen der Internetökonomie sowie der Unternehmenspraxis erfolgt zunächst die Charakterisierung des Web 2.0 und des Stands der Forschung zu diesem Thema. Auf dieser Grundlage wird verdeutlicht, dass die Diskussion um das Web 2.0, das große Interesse der Öffentlichkeit und nicht zuletzt der damit verbundene Ressourcenzufluss in die Internetbranche erheblich von institutionellen Regeln des gesellschaftlichen Kontextes beeinflusst sind. In diesem Zusammenhang richtet sich die Analyse zunächst auf die Betrachtung der (erheblichen) Einflüsse gesellschaftlicher Rationalitätsmythen. Im Anschluss daran wird herausgearbeitet, dass die Wirkung von Rationalitätsmythen durch den ausgeprägt symbolischen Charakter des Begriffs Web 2.0 nochmals verstärkt wird. Es zeigt sich, dass der Begriff Web 2.0 als Folge der sozialen Wirklichkeitskonstruktion von Sinnstiftungsprozessen eine symbolische Mittlerfunktion zwischen einer Vielzahl beteiligter Akteure begründet (z. B. Entscheidungsträger in Unternehmen, Unternehmensgründer, Venture-Kapitalgeber, Unternehmensberatungen, Business Angels) und ihre Bereitschaft zur Einbringung von Ressourcen fördert. Die Diskrepanz zwischen dem großen Interesse der Praxis einerseits und den bisher allerdings begrenzten wirtschaftlichen Effekten des Web 2.0 andererseits ist somit vor allem auf institutionelle Regeln des gesellschaftlichen Kontextes sowie eine symbolisch vermittelte Aktivierung von Akteuren und Ressourcen zurückzuführen. Dies verweist auf die hohe betriebswirtschaftliche Relevanz von Mythen und Symbolen in der Internetökonomie und einen weit reichenden Forschungsbedarf zu diesem Thema.

Verfügbarkeit: Der vollständige Beitrag ist zur Veröffentlichung in der “Zeitschrift für Management” angenommen und wird voraussichtlich im Heft 4/2008 erscheinen. Er basiert auf einem an der FernUniversität in Hagen entstandenen Diskussionsbeitrag.

Christian

Vom Web 2.0 zum Semantic Web

von Christian Maaß, Andreas Heß und Francis Dierick

ESCWIm Web 2.0 und semantischen Web sieht man zwei komplementäre Ansätze, die voraussichtlich in Zukunft miteinander verschmelzen. Während es sich beim semantischen Web um ein mehr oder weniger etabliertes Forschungsfeld handelt, steht die wissenschaftliche Auseinandersetzung mit dem Web 2.0 hingegen noch am Anfang. Nicht zuletzt aus diesem Grund existieren nur wenige Studien, die sich mit der Kombination dieser beiden “Welten” beschäftigen, um deren Vorteile miteinander zu kombinieren.

Vor diesem Hintergrund zeigen wir in Form eines Konferenzbeitrags auf,

  • welche Stärken und Schwächen mit dem Web 2.0 und semantischen Web einhergehen und aus welchen Gründen die Verschmelzung dieser Ansätze von Vorteil ist.
  • wie durch semiautomatisches Tagging die Qualität von Annotationen verbessert werden kann.
  • dass durch ein vollautomatisches Verfahren - auf Basis so genannter “Duplication Detection Techniques” - eine Verbesserung der Tag-Qualität möglich ist.

Die Ergebnisse wurden im Rahmen des Theseus-Projektes im Use Case Alexandria erarbeitet. Deren Vorstellung erfolgt auf der European Semantic Web Conference im Rahmen des Workshops “Collective Intelligence & the Semantic Web“.

Download: From Web 2.0 to the Semantic Web

hawIn jüngerer Zeit kann man beobachten, dass im zunehmenden Maße Suchmaschinen mit alternativen Suchansätzen in den Markt treten. Eine besondere Rolle spielen dabei die so genannten sozialen Suchdienste, die in verschiedenen Ausprägungsformen existieren und bei denen die Anwender – im Gegensatz zu Suchmaschinen wie Google, Yahoo oder Ask – in die Generierung des Indexes einbezogen werden. Bislang steht die wissenschaftliche Auseinandersetzung mit solchen Suchdiensten jedoch noch am Anfang. Im Rahmen eines Projektes mit Prof. Dr. Dirk Lewandowski haben wir im Wintersemester 2007/2008 daher ein Seminar zum Thema „Soziale Suchdienste“ durchgeführt. Dabei ging es unter anderem darum, die Trefferrelevanz von algorithmenbasierten Suchmaschinen mit sozialen Bookmarksystemen und Frage-Antwort-Diensten zu vergleichen. An dieser Stelle möchte ich in Kurzform einen Teil der Ergebnisse vorstellen, die in wenigen Wochen ausführlicher als Herausgeberband erscheinen; die unten skizzierten Ergebnisse entstammen der Seminararbeit von Olga Gammer, Heidi Meißner, Magdalena Preckel und Robert Oehlert.

Um eine Antwort darauf zu finden, inwieweit soziale Suchdienste mit Google & Co. konkurrieren können, wurde ein Relevanztest mit den folgenden drei Suchdiensttypen durchgeführt:

  • Bei den algorithmenbasierten Suchmaschinen wurden Google, Yahoo und MSN gewählt, bei denen es sich um die drei größten Suchmaschinen mit einem eigenen Index handelt.
  • Mit Mister Wong und del.icio.us wurden das bekannteste deutschsprachige und englischsprachige soziale Bookmarksystem in die Untersuchung mit aufgenommen.
  • Schließlich wurden auch die Frage-Antwort-Dienste LycosIQ und Yahoo Clever in die Auswertung einbezogen, die ebenfalls als eine Ausprägung sozialer Suchdienste anzusehen sind.

An jeder der hier genannten Suchdienste wurden über 50 Suchanfragen gestellt, deren Ergebnisse einer Gruppe von Juroren anonymisiert vorgelegt wurde. Den Juroren war somit weder der Rank der Suchergebnisse noch die zu evaluierende Suchmaschine bekannt. Unter anderem wurden dabei die

  • Precision der Suchergebnisse,
  • Verständlichkeit der Suchergebnisse und
  • Vertrauenswürdigkeit der Suchergebnisse bewertet.

Die Precision bezieht sich auf den prozentualen Anteil der relevanten Treffer im Vergleich zur Gesamtzahl der gefundenen Treffer. Dabei stellte sich heraus, dass Google mit einer Precision von 46 Prozent am besten abschnitt (vgl. Abb. 1). Im Vergleich zu MSN liefert Google etwa 15 Prozent mehr relevante Treffer. Vergleicht man die algorithmischen Suchmaschinen mit den Social-Bookmarking- und Frage-Antwort-Diensten, erzielen letztgenannte deutlich mehr relevante Ergebnisse. Das insgesamt schlechte Abschneiden der Bookmarksysteme wurde vor allem darauf zurückgeführt, dass sie sehr viele tote Treffer aufweisen und offenbar Probleme haben, ihren Index auf einem aktuellen Stand zu halten.

Precision

Abb. 1: Precision der Suchergebnisse

Auch im Hinblick auf die Verständlichkeit der Suchergebnisse, wiesen die Bookmarksysteme den größten Anteil unverständlicher Treffer auf. Besonders auffällig war dabei, dass die Juroren bei del.icio.us 25 Prozent aller Treffer als unverständlich bewerteten (vgl. Abb. 2).

Verständlichkeit

Abb. 2: Verständlichkeit der Suchergebnisse

Weiterhin wurde überprüft, inwieweit die Suchergebnisse als vertrauenswürdig wahrgenommen wurden. Auch bei diesem Kriterium schnitten Google & Co. eindeutig besser als soziale Bookmarksysteme ab (vgl. Abb. 3).

Vertrauen

Abb. 3: Vertrauenswürdigkeit der Suchergebnisse

Aus den an dieser Stelle nur knapp skizzierten Ergebnissen geht hervor, dass soziale Suchdienste zum gegenwärtigen Zeitpunkt noch nicht mit algorithmenbasierten Suchmaschinen konkurrieren können. Dem ist aber auch hinzuzufügen, dass soziale Bookmarkdienste zur Verwaltung privater Linksammlungen und nicht als Suchdienst konzipiert wurden.

Nachtrag (20.03.2008): Die vollständigen und ausführlichen Ergebnisse dieses studentischen Projektes werden Mitte 2008 sowohl als Herausgeberband als auch als kostenloses PDF veröffentlicht. Die PDF-Datei wird auf der Seite von Prof. Dr. Dirk Lewandowski und auf dieser Seite veröffentlicht.

von Christian Maaß, Gernot Gräfe und Andreas Heß

sabreMit dem exponentiellen Wachstum des Internet sind Suchmaschinen wie Google und Yahoo zu den meistgenutzten Internetanwendungen avanciert, die etwa 90 Prozent der Internetnutzer in Deutschland regelmäßig zu Recherchezwecken nutzen (vgl. auch AGOF 2007). Insbesondere im Vorfeld von Kaufentscheidungen spielen sie – sowohl für Unternehmen als auch Privathaushalte – eine immer wichtigere Rolle, um gezielt nach bestimmten Produkten und/oder Dienstleistungen zu recherchieren (vgl. Maaß 2008). Zur Befriedigung ihrer Informationsbedürfnisse können die Anwender grundsätzlich auf verschiedene Suchmaschinen zurückgreifen; alleine auf der Internetseite „Suchfibel“ sind mehr als 600 verschiedene Suchmaschinen aufgelistet (vgl. www.suchfibel.de). Mit Blick auf die Praxis muss jedoch ein Oligopol algorithmenbasierter Suchmaschinen – bestehend aus Google, Yahoo und MSN – konstatiert werden, dass den weltweiten Markt dominiert.

Die Vormachstellung von Google und Co. wird in der Öffentlichkeit bereits seit geraumer Zeit kritisiert. Teilweise sieht darin z. B. eine Gefahr im Hinblick auf die Informationsvielfalt und -auswahl im Internet, die faktisch durch eine Handvoll Unternehmen mit kommerziellen Interessen beeinflusst wird. Zu ähnlichen Äußerungen kommt es seitens der Bundesregierung, die bereites seit längerer Zeit auf die Monopolisierungstendenzen im Suchmaschinenmarkt hinweist und sich für ein größeres Angebot alternativer Suchdienste ausspricht (vgl. 2006). Es erstaunt daher kaum, dass immer häufiger die Frage gestellt wird, inwieweit alternative Suchdienste in qualitativer Hinsicht mit algorithmenbasierten Suchmaschinen konkurrieren und zu einer Verbesserung der Internetsuche beitragen können (vgl. Neymanns 2005).

Vor diesem Hintergrund ist in der Wirtschaftspresse häufig von so genannten soziale Bookmarksystemen die Rede, bei denen Webseiten nicht von einem Suchmaschinenroboter, sondern von teilweise mehreren tausend Menschen gemeinschaftlich indiziert und bereits als Alternative zu Google & Co. angesehen werden. „Allerdings ist es erstaunlich, dass [...] nur wenige Untersuchungen zur Qualität von Suchmaschinen vorliegen, sowohl international als auch (besonders eklatant) im deutschsprachigen Raum“ (Lewandowski 2007, S. 244-245). In einem in Zusammenarbeit mit Gernot Gräfe und Andreas Heß entstandenen Beitrag erarbeiten wir daher sieben Hypothesen zur zukünftigen Bedeutung sozialer Bookmarksysteme im Bereich der Internetsuche, um eine konzeptionelle Grundlage für weitere Studien in diesem Kontext zu legen. Der hier angehängte Beitrag wurde auf der SABRE-Konferenz 2007 in der Rubrik “Social Semantic Web” präsentiert.

Download: Alternative Suchdienste: Sieben Thesen zur zukünftigen Bedeutung des Social Bookmarking

 

Literatur

Die Grünen (2006): Google verleibt sich YouTube ein – und wird noch mächtiger, Onlinedokument 2006.

Lewandowski, D. (2007): Mit welchen Kennzahlen lässt sich die Qualität von Suchmaschinen messen? In: Machill, M.; Beiler, M. (Hrsg.): Die Macht der Suchmaschinen, Köln, 2007, S. 243-258.

Maaß, C.: E-Business Management – Gestaltung von Geschäftsmodellen in der vernetzten Wirtschaft, Stuttgart, 2008.

Neymanns, H. (2005): Suchmaschinen: Das Tor zum Netz, Bundestagsfraktion der Grünen, Berlin, Onlinedokument 2005.

Nächste Einträge »