0% found this document useful (0 votes)

179 views25 pages

Clustering Web Search Results: Iwona Białynicka-Birula

The document discusses clustering web search results to organize similar pages into groups to help users find relevant information more easily. It covers what clustering is, why it is useful for web search, example algorithms like K-means and hierarchical clustering, and systems that have implemented search result clustering like Scatter/Gather, Grouper and Carrot2. The key challenges are clustering large and changing web datasets efficiently while grouping pages to aid the user's search goals.

Uploaded by

Brinda BM

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

179 views25 pages

Clustering Web Search Results: Iwona Białynicka-Birula

Uploaded by

Brinda BM

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 25

Clustering Web Search Results

Iwona Biaynicka-Birula

Overview

What is clustering?
Applying clustering to web search results
Clustering algorithms
Case studies
Related topics not covered

Clustering
Clustering in general
Document clustering in general
Other search and browsing aids
Classification
Visualization
Query expansion
Iwona Biaynicka-Birula - Clustering Web Search Results

What is clustering?

Clustering the act of grouping similar

object into sets
In the web search context:
organizing web pages (search results)
into groups, so that different groups
correspond to different user needs
search engine
i.e.: engine
car part
Engine Corp.
Iwona Biaynicka-Birula - Clustering Web Search Results

Clustering vs. Classification

Classification assigns objects to

predefined groups
Clustering infers groups based on
clustered objects

Iwona Biaynicka-Birula - Clustering Web Search Results

Why cluster web search results?

Flat ranked list not enough

Relationships between the results

Documents pertaining to different topics

cannot be compared
Cluster Hypothesis (van Rijsbergen 1979):
Closely related documents tend to be relevant
to the same requests.

Aids user-engine interaction

Browsing
Help user express his need

Iwona Biaynicka-Birula - Clustering Web Search Results

Why not just document clustering?

Web search results clustering is a

version of document clustering,
but
Billions of pages
Constantly changing
Data mainly unstructured and
heterogeneous
Additional information to consider
(i.e. links, click-through data, etc.)
Iwona Biaynicka-Birula - Clustering Web Search Results

Some requirements

Fast

Flexible

Immediate response to query

Web content changes constantly

User-oriented

Main goal is to aid the user in finding

sought information

Iwona Biaynicka-Birula - Clustering Web Search Results

Main issues

Online or offline clustering?

What to use as input

How to define similarity?

Entire documents
Snippets
Structure information (links)
Other data (i.e. click-through)
Use stop word lists, stemming, etc.
Content (i.e. vector-space model)
Link analysis
Usage statistics

How to group similar documents?

How to label the groups?
Iwona Biaynicka-Birula - Clustering Web Search Results

Clustering algorithms

Flat or hierarchical?
Overlapping?
Hard or soft?
Incremental?
Predefined cluster number?
Requiring explicit similarity
measure? Distance measure?

Iwona Biaynicka-Birula - Clustering Web Search Results

Clustering algorithms

Distance-based

Hierarchical
Agglomerative Hierarchical Clustering (AHC)
Flat
K-means (can be fuzzy)
Single-pass (incremental)

Other

Suffix Tree Clustering (Grouper)

Self-organizing (Kohonen) maps (neural
networks)
Latent Semantic Indexing (LSI) (reducing the
dimensionality of the vector-space)

Iwona Biaynicka-Birula - Clustering Web Search Results

Agglomerative hierarchical clustering

Iwona Biaynicka-Birula - Clustering Web Search Results

Clustering result: dendrogram

Iwona Biaynicka-Birula - Clustering Web Search Results

AHC variants

Various ways of calculating cluster

similarity

single-link
complete-link
(minimum)
(maximum)

Group-average
(average)
Iwona Biaynicka-Birula - Clustering Web Search Results

K-means clustering (k=3)

Iwona Biaynicka-Birula - Clustering Web Search Results

Single-pass

Iwona Biaynicka-Birula - Clustering Web Search Results

Selected systems

Scatter/Gather
Grouper
Carrot2
Vivisimo
Mapuccino
(Su et. al. 2001)
SHOC

Iwona Biaynicka-Birula - Clustering Web Search Results

Scatter/Gather

(Cutting et. al. 1992)

Designed for browsing
Based on two novel clustering
algorithms

Buckshot fast for online clustering

Fractionation accurate for offline
initial clustering of the entire set

Iwona Biaynicka-Birula - Clustering Web Search Results

Grouper

(Zamir and Etzioni 1997, 1999)

Online
Operates on query result snippets
Clusters together documents with
large common subphrases
Suffix Tree Clustering (STC)
STC induces labeling

Iwona Biaynicka-Birula - Clustering Web Search Results

Suffix Tree Clustering (STC)

Linear
Incremental
Overlapping
Can be extended to hierarchical

Iwona Biaynicka-Birula - Clustering Web Search Results

STC algorithm

Step 1: Cleaning

Step 2: Suffix tree construction

Stemming
Sentence boundary identification
Punctuation elimination
Produces base clusters (internal nodes)
Base clusters are scored based on size and
phrase score (which depends on length and
word quality)

Step 3: Merging base clusters

Highly overlapping clusters are merged

Iwona Biaynicka-Birula - Clustering Web Search Results

Carrot2

(Stefanowski and Weiss 2003)

http://www.cs.put.poznan.pl/dweiss/carr
ot/
Component framework
Allows substituting components for

Input (i.e. snippets from other search engines)

Filter
Stemming
Distance measure
Clustering
Output

Iwona Biaynicka-Birula - Clustering Web Search Results

Vivsimo

Commercial
http://www.vivisimo.com/
Online
Hierarchical
Conceptual

Iwona Biaynicka-Birula - Clustering Web Search Results

Other

Mapuccino (IBM)

(Su et. al. 2001)

(Maarek et. al. 2000)

http://www.alphaworks.ibm.com/tech/mapuccino
Relatively efficient AHC (O(n2))
Similarity based on vector-space model
Only usage statistics used as input
Recursive Density Based Clustering

SHOC

(Zhang and Dong 2004)

Grouper-like
Key phrase discovery

Iwona Biaynicka-Birula - Clustering Web Search Results

References

Douglass Cutting, David Karger, Jan Pedersen, and John W.

Tukey, Scatter/Gather: A Cluster-based Approach to Browsing
Large Document Collections, 1992.

Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen.

O. Zamir and O. Etzioni, Grouper: a dynamic clustering

interface to web search results, May 1999.

In Proceedings of the Eighth International World Wide Web Conference, Toronto, CanadaM. Steinbach, G.

Y.S. Maarek, R. Fagin, I.Z. Ben-Shaul, D. Pelleg, Ephemeral

document clustering for web applications, 2000.
Technical Report RJ 10186, IBM Research

Zhong Su, Qiang Yang, HongHiang Zhang, Xiaowei Xu and Yuhen

Hu, Correlation-based Document Clustering using Web
Logs, 2001.
J. Stefanowski, D. Weiss. Carrot2 and Language Properties in
Web Search Results Clustering, 2003.
In: Lecture Notes in Artificial Intelligence: Advances in Web Intelligence, Proceedings of the First
International Atlantic Web Intelligence Conference, Madrit, Spain, vol. 2663 (), pp. 240249

Dell Zhang, Yisheng Dong. Semantic, Hierarchical, Online

Clustering of Web Search Results, Apr 2004.
In Proceedings of the 6th Asia Pacific Web Conference (APWEB), Hangzhou, China

Iwona Biaynicka-Birula - Clustering Web Search Results

Thank you

Questions?
http://www.di.unipi.it/~iwona/Clust
ering.ppt

Iwona Biaynicka-Birula - Clustering Web Search Results

Efficient Clustering Approaches For Organizing Document Collection
No ratings yet
Efficient Clustering Approaches For Organizing Document Collection
29 pages
SCHISM-A Web Search Engine Using Semantic Taxonomy: Ramesh Singh, Dhruv Dhingra, and Aman Arora
No ratings yet
SCHISM-A Web Search Engine Using Semantic Taxonomy: Ramesh Singh, Dhruv Dhingra, and Aman Arora
5 pages
Metasearch Clustering Algorithm
No ratings yet
Metasearch Clustering Algorithm
7 pages
Web Clustering Engines Seminar Report
100% (1)
Web Clustering Engines Seminar Report
38 pages
Deepthi - Webclustering Report PDF
No ratings yet
Deepthi - Webclustering Report PDF
38 pages
Technical Seminar ON Web Clustering Engines.: Department of Computer Science and Engineering
No ratings yet
Technical Seminar ON Web Clustering Engines.: Department of Computer Science and Engineering
15 pages
Dynamic SVD Clustering Algorithm
No ratings yet
Dynamic SVD Clustering Algorithm
19 pages
International Journal of Engineering Research and Development
No ratings yet
International Journal of Engineering Research and Development
8 pages
Introduction to Information Retrieval
No ratings yet
Introduction to Information Retrieval
108 pages
Advanced IR Clustering Techniques
No ratings yet
Advanced IR Clustering Techniques
10 pages
An Efficient and Empirical Model of Distributed Clustering
No ratings yet
An Efficient and Empirical Model of Distributed Clustering
5 pages
A Technical Seminar ON: Presented
No ratings yet
A Technical Seminar ON: Presented
16 pages
SEO & Clustering Techniques
No ratings yet
SEO & Clustering Techniques
5 pages
Unit 1
No ratings yet
Unit 1
108 pages
CS276A Text Retrieval and Mining
No ratings yet
CS276A Text Retrieval and Mining
48 pages
Clustering Techniques in I.R.
No ratings yet
Clustering Techniques in I.R.
13 pages
Document Clustering
No ratings yet
Document Clustering
20 pages
Information Retrieval Systems Slip Test 2
No ratings yet
Information Retrieval Systems Slip Test 2
10 pages
G Lavanya Computerscience
No ratings yet
G Lavanya Computerscience
51 pages
Grouper A Dynamic Cluster Interface To Web Search Results
No ratings yet
Grouper A Dynamic Cluster Interface To Web Search Results
15 pages
Cluster Analysis: Concepts & Algorithms
No ratings yet
Cluster Analysis: Concepts & Algorithms
141 pages
Web Search Engine Crawling Techniques
No ratings yet
Web Search Engine Crawling Techniques
63 pages
Cluster
No ratings yet
Cluster
66 pages
Understanding Web Mining Techniques
No ratings yet
Understanding Web Mining Techniques
48 pages
Hierarchical Clustering Guide
No ratings yet
Hierarchical Clustering Guide
53 pages
Evaluation of Clustering Algorithms For Search Engine: Abstract: Users of Web Search Engines Are Often Forced
No ratings yet
Evaluation of Clustering Algorithms For Search Engine: Abstract: Users of Web Search Engines Are Often Forced
7 pages
Flat Clustering in Information Retrieval
No ratings yet
Flat Clustering in Information Retrieval
88 pages
Clustering and Search Techniques in Information Retrieval Systems
67% (3)
Clustering and Search Techniques in Information Retrieval Systems
39 pages
Webmininglec
100% (1)
Webmininglec
75 pages
Web Clustering Engines Explained
No ratings yet
Web Clustering Engines Explained
12 pages
Ir 103 131
No ratings yet
Ir 103 131
29 pages
15-505 Internet Search Technologies: Kamal Nigam
No ratings yet
15-505 Internet Search Technologies: Kamal Nigam
62 pages
Web Mining and Search Engine Challenges
No ratings yet
Web Mining and Search Engine Challenges
50 pages
Web Usage Mining Techniques Explained
No ratings yet
Web Usage Mining Techniques Explained
48 pages
Intelligent Web Document Clustering
No ratings yet
Intelligent Web Document Clustering
4 pages
Spatial & Web Mining Insights
100% (1)
Spatial & Web Mining Insights
45 pages
Unit 3
No ratings yet
Unit 3
93 pages
CH - 5 Clustering ?
No ratings yet
CH - 5 Clustering ?
22 pages
Webmining I
No ratings yet
Webmining I
69 pages
Web Mining1
No ratings yet
Web Mining1
87 pages
Webmining I
No ratings yet
Webmining I
69 pages
Unit 3 Web
No ratings yet
Unit 3 Web
81 pages
A Survey On Approaches of Web Mining in Varied Areas
No ratings yet
A Survey On Approaches of Web Mining in Varied Areas
6 pages
Clustering
No ratings yet
Clustering
32 pages
The BINGO! System For Information Portal Generation and Expert Web Search
No ratings yet
The BINGO! System For Information Portal Generation and Expert Web Search
12 pages
Seminar on Data Clustering Techniques
No ratings yet
Seminar on Data Clustering Techniques
34 pages
Special Topics in Search Engines: Result Summaries Anti-Spamming Duplicate Elimination
No ratings yet
Special Topics in Search Engines: Result Summaries Anti-Spamming Duplicate Elimination
48 pages
Ask.com: Innovations in Search Technology
No ratings yet
Ask.com: Innovations in Search Technology
43 pages
Overview of Web Crawling and Search
No ratings yet
Overview of Web Crawling and Search
82 pages
Chap8-Cluster Analysis
No ratings yet
Chap8-Cluster Analysis
78 pages
Clustering Notes
No ratings yet
Clustering Notes
20 pages
12 Text Clustering
No ratings yet
12 Text Clustering
26 pages
Grouping and Joining 0
No ratings yet
Grouping and Joining 0
41 pages
Internet Research: What's Hot in Search, Advertizing & Cloud Computing
No ratings yet
Internet Research: What's Hot in Search, Advertizing & Cloud Computing
59 pages
Web and Text Mining Techniques Overview
No ratings yet
Web and Text Mining Techniques Overview
36 pages
Inferring User Search Goals With Weakly Supervised Methodology
No ratings yet
Inferring User Search Goals With Weakly Supervised Methodology
8 pages
Web Search Engine Challenges & Architecture
No ratings yet
Web Search Engine Challenges & Architecture
21 pages
OS Question Paper
No ratings yet
OS Question Paper
2 pages
Database Management Systems Lab
No ratings yet
Database Management Systems Lab
1 page
Cryptography & Security QBank
No ratings yet
Cryptography & Security QBank
6 pages
Python Programming & Algorithmic Problem Solving Guide
No ratings yet
Python Programming & Algorithmic Problem Solving Guide
8 pages
CS8492 - DBMS Syll
No ratings yet
CS8492 - DBMS Syll
1 page
Computer Networks Course Overview
No ratings yet
Computer Networks Course Overview
1 page
IT Security & E-Commerce Quiz
No ratings yet
IT Security & E-Commerce Quiz
7 pages
CS 8392 - Oop - Question Bank
75% (4)
CS 8392 - Oop - Question Bank
7 pages
AN Introductio N To Big Data: BY B.M.Brinda Ap/It
No ratings yet
AN Introductio N To Big Data: BY B.M.Brinda Ap/It
11 pages
Assign 1 - FDC
100% (1)
Assign 1 - FDC
2 pages
Arrays: Prepared by B.M.Brinda
No ratings yet
Arrays: Prepared by B.M.Brinda
8 pages
MCQ Computer Networking
0% (1)
MCQ Computer Networking
6 pages
Data Warehousing Guide for IT Students
No ratings yet
Data Warehousing Guide for IT Students
77 pages
CN Lab
No ratings yet
CN Lab
92 pages
Norm
No ratings yet
Norm
10 pages
Quality Circle Definition
No ratings yet
Quality Circle Definition
19 pages
IT Networking Assignment Guide
No ratings yet
IT Networking Assignment Guide
1 page
Database User Roles and SQL Commands
No ratings yet
Database User Roles and SQL Commands
6 pages
Database Management Lab Assignment
0% (1)
Database Management Lab Assignment
4 pages
Dbms MCQ
No ratings yet
Dbms MCQ
3 pages
Mobile Computing Exam Questions 2010
No ratings yet
Mobile Computing Exam Questions 2010
10 pages
Topic: The SET, MERGE, UPDATE Statements
No ratings yet
Topic: The SET, MERGE, UPDATE Statements
10 pages
Leading Principal Minors and Matrix Definiteness
No ratings yet
Leading Principal Minors and Matrix Definiteness
2 pages
John Smith's Administration Officer CV
No ratings yet
John Smith's Administration Officer CV
2 pages
Engineering Error Analysis Guide
No ratings yet
Engineering Error Analysis Guide
32 pages
Intro to Number Theory for Students
100% (1)
Intro to Number Theory for Students
129 pages
MCQ C Plus Plus First Set
0% (1)
MCQ C Plus Plus First Set
13 pages
Microsoft Office 2003 Pro Suite CD
No ratings yet
Microsoft Office 2003 Pro Suite CD
2 pages
KMP Algorithm: Efficient String Matching
No ratings yet
KMP Algorithm: Efficient String Matching
4 pages
Evolvegcn: Evolving Graph Convolutional Networks For Dynamic Graphs
No ratings yet
Evolvegcn: Evolving Graph Convolutional Networks For Dynamic Graphs
9 pages
ERP Project Implementation Proposal
100% (1)
ERP Project Implementation Proposal
8 pages
Zoho Addons
No ratings yet
Zoho Addons
3 pages
Java Notes - Know Program
No ratings yet
Java Notes - Know Program
95 pages
Running An Application From Internal Flash Memory On The TMS320F28xxx DSP
No ratings yet
Running An Application From Internal Flash Memory On The TMS320F28xxx DSP
38 pages
Integra32 Release Notes (r4.1)
No ratings yet
Integra32 Release Notes (r4.1)
12 pages
Course Coverage Report
100% (1)
Course Coverage Report
5 pages
Estimation Tableau for Gottlieb Method
No ratings yet
Estimation Tableau for Gottlieb Method
7 pages
Display Absolut ADP-010 PDF
No ratings yet
Display Absolut ADP-010 PDF
2 pages
Freshers' Placement Resources
No ratings yet
Freshers' Placement Resources
5 pages
01 - SCSC314 Robot Stäubli
No ratings yet
01 - SCSC314 Robot Stäubli
36 pages
2 - Solution of Simultaneous Linear Equations - 26 Pgs New
No ratings yet
2 - Solution of Simultaneous Linear Equations - 26 Pgs New
26 pages
Project Report ON Assistive Mars Rover
No ratings yet
Project Report ON Assistive Mars Rover
9 pages
Staff Induction Program
No ratings yet
Staff Induction Program
5 pages
Writing Order Recovery From Telugu Character Images
No ratings yet
Writing Order Recovery From Telugu Character Images
9 pages
Address Mapping
No ratings yet
Address Mapping
26 pages
Space & Time Complexity
No ratings yet
Space & Time Complexity
3 pages
Sentient AI: Current Research Insights
No ratings yet
Sentient AI: Current Research Insights
4 pages
Greenfoot Programming Concepts Quiz
67% (3)
Greenfoot Programming Concepts Quiz
12 pages
Employee Leave Application Form
No ratings yet
Employee Leave Application Form
1 page
Pertech 6100k Users Guide
No ratings yet
Pertech 6100k Users Guide
14 pages

Clustering Web Search Results: Iwona Białynicka-Birula

Uploaded by

Clustering Web Search Results: Iwona Białynicka-Birula

Uploaded by

Clustering Web Search Results

Clustering the act of grouping similar

Clustering vs. Classification

Classification assigns objects to

Iwona Biaynicka-Birula - Clustering Web Search Results

Why cluster web search results?

Flat ranked list not enough

Relationships between the results

Documents pertaining to different topics

Aids user-engine interaction

Iwona Biaynicka-Birula - Clustering Web Search Results

Why not just document clustering?

Web search results clustering is a

Immediate response to query

Main goal is to aid the user in finding

Iwona Biaynicka-Birula - Clustering Web Search Results

Online or offline clustering?

How to define similarity?

How to group similar documents?

Iwona Biaynicka-Birula - Clustering Web Search Results

Suffix Tree Clustering (Grouper)

Iwona Biaynicka-Birula - Clustering Web Search Results

Agglomerative hierarchical clustering

Iwona Biaynicka-Birula - Clustering Web Search Results

Clustering result: dendrogram

Iwona Biaynicka-Birula - Clustering Web Search Results

Various ways of calculating cluster

K-means clustering (k=3)

Iwona Biaynicka-Birula - Clustering Web Search Results

Iwona Biaynicka-Birula - Clustering Web Search Results

Iwona Biaynicka-Birula - Clustering Web Search Results

(Cutting et. al. 1992)

Buckshot fast for online clustering

Iwona Biaynicka-Birula - Clustering Web Search Results

(Zamir and Etzioni 1997, 1999)

Iwona Biaynicka-Birula - Clustering Web Search Results

Suffix Tree Clustering (STC)

Iwona Biaynicka-Birula - Clustering Web Search Results

Step 2: Suffix tree construction

Step 3: Merging base clusters

Highly overlapping clusters are merged

Iwona Biaynicka-Birula - Clustering Web Search Results

(Stefanowski and Weiss 2003)

Input (i.e. snippets from other search engines)

Iwona Biaynicka-Birula - Clustering Web Search Results

Iwona Biaynicka-Birula - Clustering Web Search Results

(Su et. al. 2001)

(Maarek et. al. 2000)

(Zhang and Dong 2004)

Iwona Biaynicka-Birula - Clustering Web Search Results

Douglass Cutting, David Karger, Jan Pedersen, and John W.

Proceedings of the 15th Annual International ACM/SIGIR Conference, Copenhagen.

O. Zamir and O. Etzioni, Grouper: a dynamic clustering

Y.S. Maarek, R. Fagin, I.Z. Ben-Shaul, D. Pelleg, Ephemeral

Zhong Su, Qiang Yang, HongHiang Zhang, Xiaowei Xu and Yuhen

Dell Zhang, Yisheng Dong. Semantic, Hierarchical, Online

Iwona Biaynicka-Birula - Clustering Web Search Results

Iwona Biaynicka-Birula - Clustering Web Search Results

You might also like