0% found this document useful (0 votes)

91 views11 pages

Massive Dataset Mining Guide

This document provides an overview of mining massive datasets and distributed computing systems. It discusses how big data has outgrown traditional single-machine processing and requires distributed systems with thousands of commodity servers. It introduces MapReduce as a programming model for distributed computing that handles issues like data storage, replication for fault tolerance, and moving computation to data. The document outlines the typical architecture with a distributed file system that stores data redundantly across chunk servers, and a master node that stores metadata to locate data.

Uploaded by

oscarmyo

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

91 views11 pages

Massive Dataset Mining Guide

Uploaded by

oscarmyo

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Mining

of Massive Datasets

Leskovec, Rajaraman, and Ullman

Stanford University

CPU

Machine Learning, Statistics

Memory

Classical Data Mining

Disk

10 billion web pages

Average size of webpage = 20KB

10 billion * 20KB = 200 TB

Disk read bandwidth = 50 MB/sec

Time to read = 4 million seconds = 46+ days

Even longer to do something useful with the data

2-10 Gbps backbone between racks

1 Gbps between
any pair of nodes
in a rack

Switch

CPU
Mem
Disk

Switch

CPU

Mem

Disk

CPU

Mem
Disk

Each rack contains 16-64 commodity Linux nodes

In 2011 it was guestimated that Google had 1M machines, http://bit.ly/Shh0RO
4

Node failures

A single server can stay up for 3 years (1000 days)

1000 servers in cluster => 1 failure/day
1M servers in cluster => 1000 failures/day
How to store data persistently and keep it

available if nodes can fail?

How to deal with node failures during a long-

running computaRon?

Network boSleneck

Network bandwidth = 1 Gbps

Moving 10TB takes approximately 1 day
Distributed programming is hard!

Need a simple model that hides most of the

complexity

Map-Reduce addresses the challenges of

cluster compuRng

Store data redundantly on mulRple nodes for

persistence and availability
Move computaRon close to data to minimize data
movement
Simple programming model to hide the complexity
of all this magic

Distributed File System

Provides global le namespace, redundancy, and
availability
E.g., Google GFS; Hadoop HDFS

Typical usage pa5ern

Huge les (100s of GB to TB)

Data is rarely updated in place
Reads and appends are common

Data kept in chunks spread across machines

Each chunk replicated on dierent machines

Ensures persistence and availability

Chunk server 1

Chunk server 2

Chunk server 3

Chunk server N

Chunk servers also serve as compute servers

Bring computation to data!
10

Chunk servers

File is split into conRguous chunks (16-64MB)

Each chunk replicated (usually 2x or 3x)
Try to keep replicas in dierent racks

Master node

a.k.a. Name Node in Hadoops HDFS

Stores metadata about where les are stored
Might be replicated

Client library for le access

Talks to master to nd chunk servers

Connects directly to chunk servers to access data
11

2a Intro To Cluster Computing PDF
No ratings yet
2a Intro To Cluster Computing PDF
18 pages
03 Intro HadoopAndMapReduce BigData
No ratings yet
03 Intro HadoopAndMapReduce BigData
91 pages
Week 02
No ratings yet
Week 02
115 pages
Big Data Analytics Unit-2
No ratings yet
Big Data Analytics Unit-2
14 pages
Cloud Compute
No ratings yet
Cloud Compute
46 pages
MapReduce-Final
No ratings yet
MapReduce-Final
92 pages
MapReduce - 1
No ratings yet
MapReduce - 1
39 pages
Chapter 10
No ratings yet
Chapter 10
25 pages
Hadoop & Big Data for Tech Students
No ratings yet
Hadoop & Big Data for Tech Students
45 pages
Unit 3 Da
No ratings yet
Unit 3 Da
43 pages
DA
No ratings yet
DA
51 pages
ch02 Mapreduce
No ratings yet
ch02 Mapreduce
7 pages
Big-Data Computing: Hadoop Distributed File System: B. Ramamurthy
No ratings yet
Big-Data Computing: Hadoop Distributed File System: B. Ramamurthy
43 pages
CS19741-Cloud Computing-Unit 3 Notes
No ratings yet
CS19741-Cloud Computing-Unit 3 Notes
37 pages
BDP 2024 06
No ratings yet
BDP 2024 06
14 pages
CS246: Mining Massive Datasets Jure Leskovec,: Stanford University
No ratings yet
CS246: Mining Massive Datasets Jure Leskovec,: Stanford University
53 pages
Part2 HDFS
No ratings yet
Part2 HDFS
33 pages
Big Data Lecture Presentation
No ratings yet
Big Data Lecture Presentation
28 pages
Lecture 14 HDFS GFS
No ratings yet
Lecture 14 HDFS GFS
30 pages
Hadoop and Big Data Solutions
No ratings yet
Hadoop and Big Data Solutions
61 pages
TM2 ch02 Mapreduce
No ratings yet
TM2 ch02 Mapreduce
51 pages
Unit II Hadoop and Map Reduce Overview
No ratings yet
Unit II Hadoop and Map Reduce Overview
136 pages
BDP 2023 03
No ratings yet
BDP 2023 03
59 pages
CSE545 Sp23 (3) Hadoop MapReduce 2-13
No ratings yet
CSE545 Sp23 (3) Hadoop MapReduce 2-13
96 pages
Apache Hadoop Filesystem and Its Usage in Facebook
No ratings yet
Apache Hadoop Filesystem and Its Usage in Facebook
33 pages
5 - BDP 2024 06
No ratings yet
5 - BDP 2024 06
14 pages
DW - Bigdata9
No ratings yet
DW - Bigdata9
113 pages
Cluster Basics
No ratings yet
Cluster Basics
34 pages
Hadoop Ecosystem & HDFS Guide
No ratings yet
Hadoop Ecosystem & HDFS Guide
46 pages
10th August Morning and Afternoon Session Hadoop
No ratings yet
10th August Morning and Afternoon Session Hadoop
18 pages
Data Systems & Big Data Insights
No ratings yet
Data Systems & Big Data Insights
24 pages
What Are Basic Characteristics of Data and How Is Parallel Processing System Different From Distributed System?
No ratings yet
What Are Basic Characteristics of Data and How Is Parallel Processing System Different From Distributed System?
24 pages
Introduction to Distributed Platforms
No ratings yet
Introduction to Distributed Platforms
71 pages
Chap4 BigDataStorageAndManagement
No ratings yet
Chap4 BigDataStorageAndManagement
46 pages
Reference: Apache Hadoop: Hadoop: The Definitive Guide, by Tom White, 2 Edition, Oreilly's, 2010
100% (1)
Reference: Apache Hadoop: Hadoop: The Definitive Guide, by Tom White, 2 Edition, Oreilly's, 2010
57 pages
Unit 5
No ratings yet
Unit 5
101 pages
3 Hadoop
No ratings yet
3 Hadoop
111 pages
Unit-II (BIG DATA)
No ratings yet
Unit-II (BIG DATA)
9 pages
Unit-4 CC
No ratings yet
Unit-4 CC
72 pages
3.1 Hadoop Ecosystem
No ratings yet
3.1 Hadoop Ecosystem
48 pages
Haoop Architecture
No ratings yet
Haoop Architecture
34 pages
Big Data
No ratings yet
Big Data
51 pages
Big Data Foundations Overview
No ratings yet
Big Data Foundations Overview
63 pages
BDA Module 2.hadoop HDFS and MapReduce - Part#1
No ratings yet
BDA Module 2.hadoop HDFS and MapReduce - Part#1
34 pages
Top Hadoop Training in Bangalore
No ratings yet
Top Hadoop Training in Bangalore
31 pages
Introduction to Hadoop & DFS
No ratings yet
Introduction to Hadoop & DFS
34 pages
Big Data Unit-III
No ratings yet
Big Data Unit-III
39 pages
Hadoop Intro
No ratings yet
Hadoop Intro
40 pages
Bsd1313 Chapter 4
No ratings yet
Bsd1313 Chapter 4
129 pages
Chapter 3
No ratings yet
Chapter 3
47 pages
Hadoop Distributed Programming Guide
No ratings yet
Hadoop Distributed Programming Guide
38 pages
4
No ratings yet
4
53 pages
Distributed File System Google File System
No ratings yet
Distributed File System Google File System
44 pages
CAIM: Cerca I Anàlisi D'informació Massiva: FIB, Grau en Enginyeria Informàtica
No ratings yet
CAIM: Cerca I Anàlisi D'informació Massiva: FIB, Grau en Enginyeria Informàtica
65 pages
Big-Data Computing: B. Ramamurthy
100% (1)
Big-Data Computing: B. Ramamurthy
55 pages
Hadoop: OREIN IT Technologies
No ratings yet
Hadoop: OREIN IT Technologies
65 pages
1 - HADOOP Crash Course
No ratings yet
1 - HADOOP Crash Course
52 pages
Hadoop: Big Data Processing Essentials
No ratings yet
Hadoop: Big Data Processing Essentials
19 pages
Storage Systems
No ratings yet
Storage Systems
23 pages
Manual For Smartscanner Marker System
No ratings yet
Manual For Smartscanner Marker System
225 pages
Mag 254-255-256
No ratings yet
Mag 254-255-256
8 pages
TBS DVB S2 TV Tuner PCI E Card Univesal User Guider PDF
No ratings yet
TBS DVB S2 TV Tuner PCI E Card Univesal User Guider PDF
5 pages
Amazon EC2 Auto Scaling User Guide
No ratings yet
Amazon EC2 Auto Scaling User Guide
367 pages
Microcontrollers Reviewer
No ratings yet
Microcontrollers Reviewer
3 pages
Llo
No ratings yet
Llo
138 pages
Dcc-Microproject Jay-1
No ratings yet
Dcc-Microproject Jay-1
8 pages
COM 111 Instr
No ratings yet
COM 111 Instr
15 pages
Part 3 Device Class Subsystem Design Requirements
No ratings yet
Part 3 Device Class Subsystem Design Requirements
24 pages
ROSA Software - Dow Water & Process Solutions PDF
100% (6)
ROSA Software - Dow Water & Process Solutions PDF
1 page
Control Unit Design and Instruction Formats
No ratings yet
Control Unit Design and Instruction Formats
26 pages
ProctorEdu Exam Guide for Students
No ratings yet
ProctorEdu Exam Guide for Students
7 pages
CCP Getting Started
No ratings yet
CCP Getting Started
40 pages
Linux Assignment
No ratings yet
Linux Assignment
3 pages
Devlist
No ratings yet
Devlist
9 pages
Zyxel EX3301 Guide
No ratings yet
Zyxel EX3301 Guide
18 pages
Kali Cheat Sheet: Keyboard Shortcuts
No ratings yet
Kali Cheat Sheet: Keyboard Shortcuts
8 pages
IMX989-AAJH5 RegisterMap 1.2.0
No ratings yet
IMX989-AAJH5 RegisterMap 1.2.0
292 pages
Common Informatica Error Fixes
No ratings yet
Common Informatica Error Fixes
4 pages
Remote Control Software Guide
No ratings yet
Remote Control Software Guide
27 pages
Application Layer: - 2.1 Principles of Network Applications
No ratings yet
Application Layer: - 2.1 Principles of Network Applications
14 pages
9-6 Error Messages Reference
No ratings yet
9-6 Error Messages Reference
2,536 pages
ABAP Access Denied in S/4HANA Blocklist
0% (1)
ABAP Access Denied in S/4HANA Blocklist
3 pages
Computer Science (Elec)
No ratings yet
Computer Science (Elec)
4 pages
Career Guidance
No ratings yet
Career Guidance
19 pages
Multithreading Exercises
No ratings yet
Multithreading Exercises
2 pages
Complete Download Windows Internals Part 2 Developer Reference 7th Edition Russinovich PDF All Chapters
100% (9)
Complete Download Windows Internals Part 2 Developer Reference 7th Edition Russinovich PDF All Chapters
52 pages
Basic Computer Science Questions For Bihar Civil Court Clerk Mains by Ajay Jain Sir
No ratings yet
Basic Computer Science Questions For Bihar Civil Court Clerk Mains by Ajay Jain Sir
25 pages
8086 Memory Access Mnemonics Guide
No ratings yet
8086 Memory Access Mnemonics Guide
37 pages
Installation Guide - Insight V19 - 7
No ratings yet
Installation Guide - Insight V19 - 7
7 pages

Massive Dataset Mining Guide

Uploaded by

Massive Dataset Mining Guide

Uploaded by

Mining

Leskovec, Rajaraman, and Ullman

Machine Learning, Statistics

Classical Data Mining

10 billion web pages

Average size of webpage = 20KB

10 billion * 20KB = 200 TB

Disk read bandwidth = 50 MB/sec

Time to read = 4 million seconds = 46+ days

Even longer to do something useful with the data

2-10 Gbps backbone between racks

Each rack contains 16-64 commodity Linux nodes

A single server can stay up for 3 years (1000 days)

available if nodes can fail?

How to deal with node failures during a long-

Network bandwidth = 1 Gbps

Need a simple model that hides most of the

Map-Reduce addresses the challenges of

Store data redundantly on mulRple nodes for

Distributed File System

Typical usage pa5ern

Huge les (100s of GB to TB)

Data kept in chunks spread across machines

Ensures persistence and availability

Chunk servers also serve as compute servers

File is split into conRguous chunks (16-64MB)

a.k.a. Name Node in Hadoops HDFS

Client library for le access

Talks to master to nd chunk servers

You might also like