AMOSTRA PythonDataScienceHandbook
AMOSTRA PythonDataScienceHandbook
Existem muitos livros sobre data science disponíveis, mas a obra de Jake
VanderPlas é excepcional. Ele trata de um assunto muito amplo e complexo
dividindo-o de forma didática, com boa escrita e exercícios que fazem
você aplicar os conceitos rapidamente.
A
A experiência e a paixão que Jake VanderPlas mostra ao repassar seu conhecimento são
inegáveis. Esta edição recém-atualizada dá exemplos claros e simples que o ajudarão a
R
se preparar e usar ferramentas essenciais para data science e aprendizado de máquina.
Se estiver pronto para se aprofundar nas principais técnicas de ferramentas Python
para ter insights a partir dos seus dados, então este livro é para você.
ST
— Anne Bonner, fundadora e CEO, Content Simplicity
O Guia do Python para Data Science é uma das minhas principais recomendações para
estudantes da área há anos. A segunda edição consegue melhorar um livro
O
que já é muito bom e completo, com notebooks Jupyter interessantes e que permitem
executar suas receitas durante a leitura.
AM
Esta versão atualizada é uma ótima introdução às bibliotecas que fazem do Python
uma excelente linguagem para data science e programação científica, sendo
apresentadas de maneira acessível e com ótimos exemplos ao longo de todo o livro.
A
do funcionamento interno das coisas, fazendo tudo isso de forma muito acessível.
R
ST
O
AM
A
R
ST
Jake VanderPlas
O
AM
Authorized Portuguese translation of the English edition of Python Data Science Handbook, 2nd Edition ISBN 9781098121228 © 2022 Jake VanderPlas.
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same. PORTUGUESE
language edition published by Grupo Editorial Alta Books Ltda., Copyright © 2025 by STARLIN ALTA EDITORA E CONSULTORIA LTDA.
Impresso no Brasil — 1a Edição, 2025 — Edição revisada conforme o Acordo Ortográfico da Língua Portuguesa de 2009.
A
ferramentas essenciais para o trabalho com
dados / Jake VanderPlas ; tradução Eveline
Machado. – [Link]. – Rio de Janeiro : Alta Books,
2025.
544 p.; il.; 15,7 x 23 cm.
11-2024/173
ISBN 978-85-508-2171-9
R
1. Python (Linguagem de programação para
computadores). I. Machado, Eveline. II. Título.
CDD 005.133
ST
Índice para catálogo sistemático:
1. Python : Linguagem de programação para computadores
005.133
Aline Graziele Benitez – Bibliotecária - CRB-1/3129
O
Todos os direitos estão reservados e protegidos por Lei. Nenhuma parte deste livro, sem autorização prévia por escrito da editora, poderá ser reproduzida ou transmitida.
A violação dos Direitos Autorais é crime estabelecido na Lei nº 9.610/98 e com punição de acordo com o artigo 184 do Código Penal.
Marcas Registradas: Todos os termos mencionados e reconhecidos como Marca Registrada e/ou Comercial são de responsabilidade de seus proprietários. A editora
AM
informa não estar associada a nenhum produto e/ou fornecedor apresentado no livro.
Material de apoio e erratas: Se parte integrante da obra e/ou por real necessidade, no site da editora o leitor encontrará os materiais de apoio (download), errata e/ou
quaisquer outros conteúdos aplicáveis à obra. Acesse o site [Link] e procure pelo título do livro desejado para ter acesso ao conteúdo.
Suporte Técnico: A obra é comercializada na forma em que está, sem direito a suporte técnico ou orientação pessoal/exclusiva ao leitor.
A editora não se responsabiliza pela manutenção, atualização e idioma dos sites, programas, materiais complementares ou similares referidos pelos autores nesta obra.
Produção Editorial: Grupo Editorial Alta Books Produtora Editorial: Isabella Gibara
Diretor Editorial: Anderson Vieira Tradução: Eveline Machado
Vendas Governamentais: Cristiane Mutüs Copidesque: Aline Amaral
Gerência Comercial: Claudio Lima Revisão: Denise Himpel
Gerência Marketing: Andréa Guatiello Diagramação: Daniel Vargas e Joyce Matos
Revisão Técnica: Jhonatan Pereira
(Desenvolvedor de Software)
Prefácio.................................................................................................................................... xv
O Que É Data Science? xv
Para Quem É este Livro? xvi
Por que Python? xvii
Estrutura do Livro xvii
Considerações Sobre a Instalação xviii
A
Convenções Usadas neste Livro xix
Usando Exemplos de Código xix
R
CAPÍTULO 1: Começando com IPython e Jupyter...........................................................................3
Executando o Shell IPython 3
ST
Executando o Jupyter Notebook 3
Ajuda e Documentação no IPython 4
Acessando a Documentação com ? 5
Acessando o Código-fonte com ?? 6
Explorando Módulos com o Autocompletar 7
Atalhos de Teclado no Shell IPython 9
O
Atalhos de Navegação 10
Atalhos da Entrada de Texto 10
Atalhos do Histórico de Comandos 10
Atalhos Diversos 12
AM
A
Tipos Padrão de Dados do NumPy 43
CAPÍTULO 5: O Básico sobre Arrays NumPy................................................................................. 45
Atributos de um Array NumPy 45
Indexação de Arrays: Acessando Elementos Individualmente
Fatiamento de Arrays: Acessando os Subarrays
Subarrays Unidimensionais
Subarrays Multidimensionais R 46
47
47
48
ST
Subarrays como Views 49
Criando Cópias de Arrays 49
Remodelação de Arrays 50
Concatenação e Separação de Arrays 51
Concatenação de Arrays 51
Separação de Arrays 52
O
Exemplo de Broadcasting 3 70
Broadcasting na Prática 71
Centralizando um Array 71
Plotando uma Função Bidimensional 72
CAPÍTULO 9: Comparações, Máscaras e Lógica Booleana............................................................. 73
Exemplo: Contando Dias Chuvosos 73
Operadores de Comparação como Ufuncs 74
Trabalhando com Arrays Booleanos 75
Contando Entradas 76
Operadores Booleanos 77
Arrays Booleanos como Máscaras 78
Usando as Palavras-chave and/or Versus os Operadores &/| 79
CAPÍTULO 10: Fancy Indexing.................................................................................................... 81
Explorando a Fancy Indexing/Indexação Avançada 81
A
Indexação Combinada 82
Exemplo: Selecionando Pontos Aleatórios 83
Modificando Valores com Fancy Indexing/Indexação Avançada 85
Exemplo: Agrupando Dados 86
Ao Pandas 98
A
Descartando os Valores Null 128
Preenchendo Valores Null 129
CAPÍTULO 17: Indexação Hierárquica....................................................................................... 131
Objeto Series Indexado e Múltiplo
Modo Errado
Modo Certo: MultiIndex do Pandas
MultiIndex Como uma Dimensão Extra R 131
131
132
133
ST
Métodos de Criação de MultiIndex 134
Construtores MultiIndex Explícitos 135
Nomes do Nível de MultiIndex 136
MultiIndex para Colunas 136
Indexando e Fatiando um MultiIndex 137
Objeto Series Indexado e Múltiplo 137
O
A
Exemplo: Dados de Natalidade 176
CAPÍTULO 22: Operações de String Vetorizadas........................................................................ 181
Introdução das Operações de String do Pandas 181
Tabelas de Métodos de String do Pandas
Métodos Similares aos Métodos de String do Python
Métodos Usando Expressões Regulares
Métodos Diversos R 182
182
183
184
ST
Exemplo: Banco de Dados de Receitas 186
Recomendação Simples de Receitas 188
Indo Além com Receitas 189
CAPÍTULO 23: Trabalhando com Séries Temporais.................................................................... 191
Datas e Horas no Python 191
Datas e Horas Nativas do Python: datetime e dateutil 192
O
A
Pegadinhas do Matplotlib 235
CAPÍTULO 27: Gráficos de Dispersão Simples............................................................................ 237
Gráficos de Dispersão com [Link] 237
Gráficos de Dispersão com [Link]
plot Versus scatter: Uma Observação sobre Eficiência
Visualizando as Incertezas
Barras de Erros Básicas R 240
242
243
243
ST
Erros Contínuos 245
CAPÍTULO 28: Gráficos de Densidade e Contorno...................................................................... 247
Visualizando uma Função Tridimensional 247
Histogramas, Agrupamentos e Densidade 251
Histogramas e Agrupamentos Bidimensionais 253
plt.hist2d: Histograma Bidimensional 254
O
A
Pontos e Linhas Tridimensionais 304
Gráficos de Contorno Tridimensional 304
Gráficos Wireframes e de Superfície 306
Triangulações da Superfície
Exemplo: Visualizando uma fita de Möbius
R 308
310
CAPÍTULO 36: Visualização com Seaborn.................................................................................. 313
ST
Explorando os Gráficos Seaborn 314
Histogramas, KDE e Densidades 314
Gráficos em Pares 316
Histogramas Facetados 317
Gráficos com Categorias 318
Distribuições Conjuntas 318
Gráficos de Barras 320
O
A
CAPÍTULO 40: Feature Enginneering........................................................................................ 375
Features Categóricas 375
Features de Texto 376
Features da Imagem
Features Derivadas
Imputação de Dados Ausentes
Feature Pipelines R 378
378
381
382
ST
CAPÍTULO 41: Aprofundando: Classificação Naive Bayes........................................................... 383
Classificação Bayesiana 383
Gaussian Naive Bayes 384
Multinomial Naive Bayes 386
Exemplo: Classificando Texto 387
Quando Usar Naive Bayes 390
O
A
Considerações sobre os Manifold Methods 456
Exemplo: Isomap nos Rostos 457
Exemplo: Visualizando a Estrutura nos Dígitos 460
Apresentando o k-Means
Expectativa–Maximização
Exemplos R
CAPÍTULO 47: Aprofundando: Clusterização k-Means............................................................... 463
463
465
470
ST
Exemplo 1: k-Means nos Dígitos 470
Exemplo 2: k-Means para Compressão de Cores 473
CAPÍTULO 48: Aprofundando: Modelos de Mistura Gaussiana................................................... 477
Motivando as Misturas Gaussianas: Pontos Fracos do k-Means 477
Generalizando E–M: Modelos de Mistura Gaussiana 480
Escolhendo o Tipo de Covariância 484
O
A
mente a seguinte questão: o que é data science? Essa é uma definição surpreen-
dentemente difícil de estabelecer, sobretudo ao considerarmos a abrangência do
termo nos dias atuais. Os críticos mais incansáveis já desdenharam do termo
R
como um rótulo supérfluo (afinal, qual ciência não gira em torno de dados?)
ou como um mero jargão, que só existe para preencher o currículo e chamar a
atenção de recrutadores excessivamente cautelosos.
ST
Na minha opinião, nessas críticas falta uma consideração importante. Data
science, apesar da primeira impressão como apenas a “moda da vez”, talvez seja
o melhor rótulo à disposição para o conjunto interdisciplinar de habilidades que
tem se tornado cada vez mais importante em muitas aplicações, tanto no âmbito
do setor quanto no acadêmico. A chave aqui é justamente a interdisciplinarida-
O
de: para mim, a melhor definição de data science foi muito bem ilustrada pelo
Diagrama de Venn do Data Science criado por Drew Conway e publicado pela
primeira vez em seu blog, em setembro de 2010 (Figura P-1).
AM
Com isso em mente, peço que você não pense em data science como um novo
domínio do conhecimento a ser compreendido, mas um novo conjunto de habi-
lidades que você pode aplicar dentro da sua área de conhecimento atual. Crian-
do um relatório sobre os resultados das últimas eleições, realizando previsões
a respeito das devoluções do estoque, otimizando cliques em anúncios online,
identificando micro-organismos em fotos de microscópios, buscando novas