0% found this document useful (0 votes)

29 views23 pages

XGBoost: Scalable Tree Boosting System

The document describes XGBoost, an optimized gradient boosting library that provides a scalable, portable and distributed tree boosting system. XGBoost has been very successful and widely used in many machine learning competitions and applications due to its scalability, performance and accuracy. The document outlines the key algorithms and optimizations in XGBoost that contribute to its success.

Uploaded by

liuyaozhangruc

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views23 pages

XGBoost: Scalable Tree Boosting System

Uploaded by

liuyaozhangruc

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

XGBoost: A Scalable Tree

Boosting System
Tianqi Chen and Carlos Guestrin, University of Washington
XGBoost

eXtreme Gradient Boosting

29 Kaggle challenges with winners in 2015
17 used XGBoost
8 of these solely used XGBoost; the others
combined XGBoost with DNNs
KDDCup 2015
Every single top 10 finisher used XGBoost
XGBoost Applications

Store sales prediction

High energy physics event classification
Web text classification
Customer behavior prediction
Motion detection
Ad click through rate prediction
Malware classification
Product categorization
Hazard risk prediction
Massive on-line course dropout rate prediction
Properties of XGBoost

Single most important factor in its success: scalability

Due to several important systems and algorithmic optimizations

1. Highly scalable end-to-end tree boosting system

2. Theoretically justified weighted quantile sketch for efficient proposal calculation
3. Novel sparsity-aware algorithm for parallel tree learning
4. Effective cache-aware block structure for out-of-core tree learning
What is “tree boosting”?

Given a dataset (n
examples, m features)

Tree ensemble uses K

additive functions to
predict output
What is “gradient boosting”?
Regularized objective function

Objective

2nd order
approx.

Remove
constants

Scoring function to
evaluate quality of
tree structure
Regularized objective function
Split-finding algorithms

Exact
Computationally demanding
Enumerate all possible splits for continuous features

Approximate
Algorithm proposes candidate splits according to percentiles of feature distributions
Maps continuous features to buckets split by candidate points
Aggregates statistics and finds best solution among proposals
Comparison of split-finding

Two variants
Global
Local
Shrinkage and column subsampling

Shrinkage
Scales newly added weights by a factor !
Reduces influence of each individual tree
Leaves space for future trees to improve model
Similar to learning rate in stochastic optimization
Column subsampling
Subsample features
Used in Random Forests
Prevents overfitting more effectively than row-sampling
Sparsity-aware split finding

Equates sparsity with missing values

Defines a “default” direction: follow
the observed paths
Compare to “dense” method
How does this work?

Features need to be in sorted order to determine splits

Concept of blocks
Compressed column (CSC) format
Each column sorted by corresponding feature value

Exact greedy algorithm: all the data in a single block

Data are sorted once before training and used subsequently in this format
Feature transformations in blocks
More on blocks

Data is stored on multiple blocks, and these blocks are stored on disk
Independent threads pre-fetch specific blocks into memory to prevent cache misses
Block Compression
Each column is compressed before being written to disk, and decompressed on-the-fly when
read from disk into a prefetched buffer
Cuts down on disk I/O
Block Sharding
Data is split across multiple disks (i.e. cluster)
Pre-fetcher is assigned to each disk to read data into memory
Cache-aware access

Exact Greedy Algorithm Approximate Algorithms

Allocate an internal buffer in each thread Choice of block size is critical
Fetch gradient statistics Small block size results in small workloads
for each thread
Perform accumulation in mini-batch
Large block size results in cache misses as
Reduces runtime overhead when number
gradient statistics do not fit in cache
of rows is large
Cache-aware access
Exact Approximate
Results: out of core
Results: distributed
Results: scalability
Demonstration

https://arogozhnikov.github.io/2016/06/24/gradient_boosting_explained.html
Conclusions

Novel sparsity-aware algorithm for handling sparse data

Theoretical guarantees for weighted quantile sketching for approximate learning
Cache access patterns, data compression, and data sharding techniques
http://arxiv.org/abs/1603.02754

05 XGBoost
No ratings yet
05 XGBoost
6 pages
DR Antonio Gulli - A Collection of Advanced Data Science and Machine Learning Interview Questions Solved in Python and Spark (II) - Hands-On Big Data and Machine - Programming Interview Questions) (
No ratings yet
DR Antonio Gulli - A Collection of Advanced Data Science and Machine Learning Interview Questions Solved in Python and Spark (II) - Hands-On Big Data and Machine - Programming Interview Questions) (
112 pages
Intro to Exploratory Data Analysis
No ratings yet
Intro to Exploratory Data Analysis
17 pages
Unit 4 Introduction To Algorithm
No ratings yet
Unit 4 Introduction To Algorithm
10 pages
Python 06 MachineLearning
No ratings yet
Python 06 MachineLearning
45 pages
365 ML Infographic
No ratings yet
365 ML Infographic
1 page
CC Unit IV
No ratings yet
CC Unit IV
30 pages
ML Notes
No ratings yet
ML Notes
12 pages
Data Mining-Model Based Clustering
No ratings yet
Data Mining-Model Based Clustering
8 pages
ML Module 5
No ratings yet
ML Module 5
15 pages
rfp0697 Chenaemb
No ratings yet
rfp0697 Chenaemb
10 pages
Bsan CS
No ratings yet
Bsan CS
1 page
ML ModuleUntitled 2
No ratings yet
ML ModuleUntitled 2
8 pages
ML - Machine Learning PDF
No ratings yet
ML - Machine Learning PDF
13 pages
Introduction To Data Science Unsupervised Learning: CS 194 Fall 2015 John Canny
No ratings yet
Introduction To Data Science Unsupervised Learning: CS 194 Fall 2015 John Canny
54 pages
Xgboost Presentation
100% (3)
Xgboost Presentation
54 pages
Intro to Machine Learning for Data Science
No ratings yet
Intro to Machine Learning for Data Science
37 pages
Advanced Data Mining Exam Insights
No ratings yet
Advanced Data Mining Exam Insights
8 pages
Models
No ratings yet
Models
20 pages
XGBoost
No ratings yet
XGBoost
4 pages
Unit - IV Partitioning Algorithm
No ratings yet
Unit - IV Partitioning Algorithm
9 pages
SPINEX-Clustering: Similarity-Based Predictions With Explainable Neighbors Exploration For Clustering Problems
No ratings yet
SPINEX-Clustering: Similarity-Based Predictions With Explainable Neighbors Exploration For Clustering Problems
54 pages
Classification
No ratings yet
Classification
34 pages
Machine Learning-Model Questions & Answers
No ratings yet
Machine Learning-Model Questions & Answers
18 pages
Unit Iv
No ratings yet
Unit Iv
29 pages
Maxbox Starter60 Machine Learning
No ratings yet
Maxbox Starter60 Machine Learning
8 pages
Scikit-Learn User Guide Release 0.19.dev0
100% (2)
Scikit-Learn User Guide Release 0.19.dev0
2,133 pages
Unit 3,4,5 ML (CS - AI)
No ratings yet
Unit 3,4,5 ML (CS - AI)
37 pages
Divorce Prediction Using ML
No ratings yet
Divorce Prediction Using ML
12 pages
Unit 3 - ML (NEW)
No ratings yet
Unit 3 - ML (NEW)
68 pages
Models
No ratings yet
Models
46 pages
Machine Learning: Video 106: Gradient Boosting Explained - How Gradient Boosting Works?
No ratings yet
Machine Learning: Video 106: Gradient Boosting Explained - How Gradient Boosting Works?
6 pages
ML Important
No ratings yet
ML Important
11 pages
TC-1 Final Answer Key
No ratings yet
TC-1 Final Answer Key
14 pages
5.unit DA
No ratings yet
5.unit DA
10 pages
Session 5
No ratings yet
Session 5
36 pages
Pattern Recognition
No ratings yet
Pattern Recognition
33 pages
Pattern Recognition
No ratings yet
Pattern Recognition
33 pages
CZ4032 Data Analytics & Mining Notes
No ratings yet
CZ4032 Data Analytics & Mining Notes
16 pages
6 - Into To Data Science Techniques and Clustering
No ratings yet
6 - Into To Data Science Techniques and Clustering
16 pages
Pattern Recognition 14
No ratings yet
Pattern Recognition 14
46 pages
Machine Learning Crash Course For BCA 5th Semester
No ratings yet
Machine Learning Crash Course For BCA 5th Semester
21 pages
Scikit Learn Docs
100% (1)
Scikit Learn Docs
2,201 pages
Statistical Pattern Recognition Toolbox For Matlab: User's Guide
No ratings yet
Statistical Pattern Recognition Toolbox For Matlab: User's Guide
99 pages
Unit 1 Pyq
No ratings yet
Unit 1 Pyq
61 pages
Classification in Recommendation Systems
No ratings yet
Classification in Recommendation Systems
27 pages
Paper 8675
No ratings yet
Paper 8675
6 pages
Lossy Data Compression Using K-Means Clustering On Retinal Images Using RStudio
No ratings yet
Lossy Data Compression Using K-Means Clustering On Retinal Images Using RStudio
5 pages
Module 1 ML Mumbai University
No ratings yet
Module 1 ML Mumbai University
47 pages
SRU ADA Unit-3
No ratings yet
SRU ADA Unit-3
78 pages
MLunit 2 Mynotes
No ratings yet
MLunit 2 Mynotes
15 pages
Guided Tour To Random Forest
No ratings yet
Guided Tour To Random Forest
42 pages
XGBoost for Data Scientists
No ratings yet
XGBoost for Data Scientists
8 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
9 pages
Ia2 ML Scheme Common To Is, Ai, Cs
No ratings yet
Ia2 ML Scheme Common To Is, Ai, Cs
8 pages
A Survey On Reinforcement Learning Methods For UAV Systems
No ratings yet
A Survey On Reinforcement Learning Methods For UAV Systems
36 pages
Toa Presentation
No ratings yet
Toa Presentation
12 pages
Simulink Data Converter Course
No ratings yet
Simulink Data Converter Course
86 pages
Graphs and Algorithms Basics
No ratings yet
Graphs and Algorithms Basics
33 pages
Introduction to Genetic Algorithms
No ratings yet
Introduction to Genetic Algorithms
17 pages
Totem: Tokenized Time Series Embeddings For General Time Series Analysis
No ratings yet
Totem: Tokenized Time Series Embeddings For General Time Series Analysis
33 pages
Power Point Presentation On-: Array Based Applications in C Language
No ratings yet
Power Point Presentation On-: Array Based Applications in C Language
20 pages
Question Bank - NA
No ratings yet
Question Bank - NA
2 pages
Unit 1 - Speech and Video Processing (SVP) - 1
No ratings yet
Unit 1 - Speech and Video Processing (SVP) - 1
20 pages
Final Project
No ratings yet
Final Project
3 pages
2024 Eye - Disease - Detection - Enhancement - Using - A - Multi-Stage - Deep - Learning - Approach
No ratings yet
2024 Eye - Disease - Detection - Enhancement - Using - A - Multi-Stage - Deep - Learning - Approach
15 pages
Filtering in The Frequency Domain
No ratings yet
Filtering in The Frequency Domain
35 pages
Probability of Events A, B, and C
No ratings yet
Probability of Events A, B, and C
49 pages
Anti-Aliasing Filter Design Using Matlab, An Image Processing Project
86% (7)
Anti-Aliasing Filter Design Using Matlab, An Image Processing Project
24 pages
Unit I
No ratings yet
Unit I
203 pages
Cramer's Rule Explained
No ratings yet
Cramer's Rule Explained
14 pages
IT8761-SECURITY LABORATORY-590519304-IT8761 Security Labmanual
No ratings yet
IT8761-SECURITY LABORATORY-590519304-IT8761 Security Labmanual
46 pages
Ring Confidential Transactions
No ratings yet
Ring Confidential Transactions
34 pages
Unit 1 MCQ
No ratings yet
Unit 1 MCQ
3 pages
Ieng: 5361-Industrial Management and Engineering Economy: Dagne T. 2019 1
No ratings yet
Ieng: 5361-Industrial Management and Engineering Economy: Dagne T. 2019 1
78 pages
Programare 1
No ratings yet
Programare 1
64 pages
Variate Generation For A Nonhomogeneous Poisson Process With Time Dependent Covariates
No ratings yet
Variate Generation For A Nonhomogeneous Poisson Process With Time Dependent Covariates
29 pages
3 Finals BSCS TaskSheets CC103 ComputerProgramming2
No ratings yet
3 Finals BSCS TaskSheets CC103 ComputerProgramming2
13 pages
EOC Questions and Ans Chapter 7 PDF
100% (1)
EOC Questions and Ans Chapter 7 PDF
8 pages
UT Austin Texas PGP AIML Brochure
No ratings yet
UT Austin Texas PGP AIML Brochure
19 pages
One and Two Sample Estimation
No ratings yet
One and Two Sample Estimation
23 pages
Fuzzy Sets and Applications Course Outline
No ratings yet
Fuzzy Sets and Applications Course Outline
2 pages
Inverse Variation
No ratings yet
Inverse Variation
2 pages
Algos Qpaper 2022
No ratings yet
Algos Qpaper 2022
6 pages
Deep Learning Based Anomaly Detection For Raw Network Traffic
No ratings yet
Deep Learning Based Anomaly Detection For Raw Network Traffic
3 pages

XGBoost: Scalable Tree Boosting System

Uploaded by

XGBoost: Scalable Tree Boosting System

Uploaded by

XGBoost: A Scalable Tree

 eXtreme Gradient Boosting

 Store sales prediction

 Single most important factor in its success: scalability

1. Highly scalable end-to-end tree boosting system

 Tree ensemble uses K

 Equates sparsity with missing values

 Features need to be in sorted order to determine splits

 Exact greedy algorithm: all the data in a single block

Exact Greedy Algorithm Approximate Algorithms

 Novel sparsity-aware algorithm for handling sparse data

You might also like

eXtreme Gradient Boosting

Store sales prediction

Single most important factor in its success: scalability

Tree ensemble uses K

Equates sparsity with missing values

Features need to be in sorted order to determine splits

Exact greedy algorithm: all the data in a single block

Novel sparsity-aware algorithm for handling sparse data