0% found this document useful (0 votes)

45 views5 pages

Data Science

The document discusses organized and unorganized data, highlighting their characteristics and examples. It explains the purposes of various Python libraries such as Pandas for data manipulation, Matplotlib for visualization, NumPy for numerical computing, and BeautifulSoup for web scraping. Additionally, it includes code examples demonstrating data analysis with NumPy and probability calculations.

Uploaded by

thuto1017

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

45 views5 pages

Data Science

Uploaded by

thuto1017

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Question 1

1.1

 Organised Data: This refers to data that is structured and arranged in a logical format,
often in tables or databases. It can be easily accessed, processed, and analyzed.

Example: Excel spreadsheets, SQL databases.

 Unorganised Data: This refers to data that is not structured or arranged systematically,
making it difficult to process or analyze directly.

Example: text files, videos, images, or raw logs.

1.2 Purpose of the following libraries:

a. Pandas is used for data manipulation and analysis. It provides data structures like
DataFrame and Series that make it easy to clean, filter, group, and analyze structured data.

b. Matplotlib is a data visualization library used to create static, animated, and interactive
plots in Python. It is commonly used for line charts, bar graphs, scatter plots, etc.

c. NumPy is used for numerical computing in Python. It provides support for multi-
dimensional arrays and matrices, along with a collection of mathematical functions to operate
on these arrays efficiently.

1.3

Purpose:

BeautifulSoup is a Python library used for web scraping. It helps in parsing HTML and XML
documents, allowing users to extract data from websites easily by navigating the DOM
(Document Object Model).
from bs4 import BeautifulSoup
import requests

# Send a request to the website

response = requests.get("https://example.com")

# Parse the HTML content

soup = BeautifulSoup(response.content, "html.parser")

# Extract and print all the paragraph texts

for paragraph in soup.find_all('p'):
print(paragraph.get_text())

requests.get() fetches the web page.

BeautifulSoup() parses the HTML content.

find_all('p') is used to locate all <p> tags on the page.

get_text() extracts the text inside each paragraph.

In this example, BeautifulSoup is used to extract all paragraph texts from a webpage.
Question 2

import numpy as np

# Create an array from the given data

daily_steps = np.array([6532, 8741, 5403, 7829, 9126, 6087,
7324, 8560, 5972, 7645, 6891, 8102, 7456, 6213, 9034])

# Sort the array in descending order

sorted_steps = np.sort(daily_steps)[::-1]
print("Sorted Steps (descending order):", sorted_steps)

# Calculate the mean and standard deviation of the daily steps

mean_steps = round(np.mean(daily_steps))
std_dev_steps = round(np.std(daily_steps))
print("Mean Steps:", mean_steps)
print("Standard Deviation of Steps:", std_dev_steps)

# Determine the 25th, 50th (median), and 75th percentiles of

the data
percentiles = np.percentile(daily_steps, [25, 50, 75])
print("25th Percentile:", percentiles[0])
print("Median (50th Percentile):", percentiles[1])
print("75th Percentile:", percentiles[2])

# Find how many participants averaged more than 7500 steps

daily
participants_above_7500 = np.sum(daily_steps > 7500)
print("Participants averaging more than 7500 steps daily:",
participants_above_7500)

Output:
1. Sorted Steps (descending order): [9126 9034 8741 8560
8102 7829 7645 7456 7324 6891 6532 6213 6087 5972 5403]

2. Mean Steps: 7323

Standard Deviation of Steps: 1017

3. 25th Percentile: 6213.0

Median (50th Percentile): 7324.0
75th Percentile: 7829.0

4. Participants averaging more than 7500 steps daily: 8

Question 3

a. P(Small and Service) = 10/170

= 1/17 ≈ 0.059

b. P(Small and Medium) = 48/170 ≈ 0.282

c. P(Small or Service or Both) = 36 + 24 - 10/170

= 50/170 ≈ 0.294

d. P(Retail | Medium) = 13/48 ≈ 0.271

e. P(Small and Retail) = 14/170 ≈ 0.082

Question 4
Question 5

2024SDSC500AD Assignment
No ratings yet
2024SDSC500AD Assignment
24 pages
Lab Manual
No ratings yet
Lab Manual
21 pages
Sarkar, DR Tirthajyoti - Roychowdhury, Shubhadeep - Data Wrangling With Python - Creating Actionable Data From Raw Sources-Packt Publishing (2019)
No ratings yet
Sarkar, DR Tirthajyoti - Roychowdhury, Shubhadeep - Data Wrangling With Python - Creating Actionable Data From Raw Sources-Packt Publishing (2019)
538 pages
Data Science Papers
No ratings yet
Data Science Papers
109 pages
Web Scraping Techniques by Joseph Siryani
No ratings yet
Web Scraping Techniques by Joseph Siryani
35 pages
DAP Module4
No ratings yet
DAP Module4
109 pages
Unit 3
No ratings yet
Unit 3
110 pages
Exploring Python Data Packages
No ratings yet
Exploring Python Data Packages
77 pages
Top 18 Python Libraries for Data Science
100% (1)
Top 18 Python Libraries for Data Science
11 pages
Python for Diverse Fields
No ratings yet
Python for Diverse Fields
8 pages
FDS Lab Meterial CS3361
No ratings yet
FDS Lab Meterial CS3361
30 pages
CS 3362 FDS
No ratings yet
CS 3362 FDS
53 pages
Viva
No ratings yet
Viva
7 pages
Anis D. Ultimate Step by Step Guide To Data Science..Python.2021
No ratings yet
Anis D. Ultimate Step by Step Guide To Data Science..Python.2021
161 pages
DW Sem
No ratings yet
DW Sem
25 pages
Data Analytics Lab Course Overview
No ratings yet
Data Analytics Lab Course Overview
125 pages
21CSS203TCT-1 - SET A - Answer Key
No ratings yet
21CSS203TCT-1 - SET A - Answer Key
4 pages
2A - Python+Data Analysis For Pyhton2 v2
No ratings yet
2A - Python+Data Analysis For Pyhton2 v2
38 pages
AIML Manual Lab-For Students
No ratings yet
AIML Manual Lab-For Students
45 pages
Citl Exp 8
No ratings yet
Citl Exp 8
7 pages
Digital Principal and System Design
No ratings yet
Digital Principal and System Design
17 pages
CS3352 FDS QP Solved (Anna University)
100% (1)
CS3352 FDS QP Solved (Anna University)
98 pages
Python Tools for Data Scientists
100% (1)
Python Tools for Data Scientists
23 pages
DATASCIENCE (Unit-1) Question Bank
No ratings yet
DATASCIENCE (Unit-1) Question Bank
6 pages
ML Programs
No ratings yet
ML Programs
41 pages
BAI3552 DataScienceWithPython
No ratings yet
BAI3552 DataScienceWithPython
31 pages
Numpy and Pandas
No ratings yet
Numpy and Pandas
2 pages
Klein B. Data Analysis With Python. Numpy, Matplotlib and Pandas 2021
No ratings yet
Klein B. Data Analysis With Python. Numpy, Matplotlib and Pandas 2021
515 pages
Programming 2 Lectures
No ratings yet
Programming 2 Lectures
52 pages
Introduction To Popular-1
No ratings yet
Introduction To Popular-1
15 pages
Data Cleaning Course Notes
No ratings yet
Data Cleaning Course Notes
27 pages
Ass1 DSBDA Writeup
No ratings yet
Ass1 DSBDA Writeup
8 pages
Lecture03 Data II
No ratings yet
Lecture03 Data II
42 pages
50 Days of Data Analysis W Python - Benjamin Bennett Alexander
No ratings yet
50 Days of Data Analysis W Python - Benjamin Bennett Alexander
382 pages
Practical Introduction To Web Scraping in Python
100% (1)
Practical Introduction To Web Scraping in Python
14 pages
Api and Data Structure
No ratings yet
Api and Data Structure
3 pages
Ocs353 Data Science Fundamentals Laboratory-Eee
No ratings yet
Ocs353 Data Science Fundamentals Laboratory-Eee
52 pages
Data Science - A First Introduction With Python (Z-Lib - Io)
No ratings yet
Data Science - A First Introduction With Python (Z-Lib - Io)
452 pages
Data Wrangling with Python Guide
No ratings yet
Data Wrangling with Python Guide
61 pages
Data Visualization
No ratings yet
Data Visualization
20 pages
Final Fds Manual Print
No ratings yet
Final Fds Manual Print
55 pages
Fds Lab Final 2nd Year
No ratings yet
Fds Lab Final 2nd Year
75 pages
Top Python Libraries for PDF Processing
No ratings yet
Top Python Libraries for PDF Processing
12 pages
Data Collection Techniques in Data Science
No ratings yet
Data Collection Techniques in Data Science
14 pages
The Ultimate Guide To Python Programming With Python 3.10
No ratings yet
The Ultimate Guide To Python Programming With Python 3.10
2 pages
Unit 4 (PP)
No ratings yet
Unit 4 (PP)
35 pages
FINAL FDS MANUAL Print
No ratings yet
FINAL FDS MANUAL Print
55 pages
Dap Mod 4-5
No ratings yet
Dap Mod 4-5
19 pages
Sandeep ML Record
No ratings yet
Sandeep ML Record
31 pages
TY FDS Workbook
No ratings yet
TY FDS Workbook
56 pages
Python Data Analysis Introduction
No ratings yet
Python Data Analysis Introduction
259 pages
Numpy Module
No ratings yet
Numpy Module
10 pages
Python for Data Analysis Overview
No ratings yet
Python for Data Analysis Overview
49 pages
NumPy Basics and Data Science Overview
100% (1)
NumPy Basics and Data Science Overview
69 pages
Python Module-4
No ratings yet
Python Module-4
109 pages
Python Libraries Seminar Report
100% (2)
Python Libraries Seminar Report
16 pages
Num Py Pandas Interview Qa
No ratings yet
Num Py Pandas Interview Qa
7 pages
The Power of Professional Communication
No ratings yet
The Power of Professional Communication
8 pages
ISEC6321 Straightforward Study Guide
No ratings yet
ISEC6321 Straightforward Study Guide
3 pages
Sibongile Msomi St10463644 Logm5122 Icetask
100% (1)
Sibongile Msomi St10463644 Logm5122 Icetask
5 pages
ENG1504
No ratings yet
ENG1504
2 pages
ACCOUNTING Inac5111 A1
No ratings yet
ACCOUNTING Inac5111 A1
10 pages
Understanding The National Curriculum Statement NCS
No ratings yet
Understanding The National Curriculum Statement NCS
10 pages
St10480481 Thembi Ubisi Inac5111 A2
No ratings yet
St10480481 Thembi Ubisi Inac5111 A2
9 pages
CIT 4302 CO Revised
No ratings yet
CIT 4302 CO Revised
2 pages
Converting Boolean Value From Javascript To Django
No ratings yet
Converting Boolean Value From Javascript To Django
85 pages
Advanced Xcode Cloud Customization
No ratings yet
Advanced Xcode Cloud Customization
6 pages
Understanding CSS in Web Design
No ratings yet
Understanding CSS in Web Design
1 page
HTML Program With OUTPUT
No ratings yet
HTML Program With OUTPUT
10 pages
PHP File Inclusion Guide
No ratings yet
PHP File Inclusion Guide
2 pages
UI Library Features & Scenarios
No ratings yet
UI Library Features & Scenarios
2 pages
Bug Bounty Writeups
No ratings yet
Bug Bounty Writeups
16 pages
Powerpoint Beyond The Basics
No ratings yet
Powerpoint Beyond The Basics
48 pages
Horizon Client Windows User
No ratings yet
Horizon Client Windows User
61 pages
F
No ratings yet
F
96 pages
Part B Spreadsheet Notes
No ratings yet
Part B Spreadsheet Notes
9 pages
Complete Instagram API Setup Guide For n8n Integration
100% (1)
Complete Instagram API Setup Guide For n8n Integration
4 pages
Install MySql
No ratings yet
Install MySql
22 pages
Lecture 4
No ratings yet
Lecture 4
67 pages
18CS734 UID Module 3
No ratings yet
18CS734 UID Module 3
126 pages
SSIS 647 Performance Testing Guide
No ratings yet
SSIS 647 Performance Testing Guide
43 pages
Ip Exp 1 Page
No ratings yet
Ip Exp 1 Page
3 pages
Soumya - Mini - Project - Report
No ratings yet
Soumya - Mini - Project - Report
50 pages
Guidelines For Using Foot Pedal On E2f Dashboard
No ratings yet
Guidelines For Using Foot Pedal On E2f Dashboard
13 pages
Medi-Caps University: NAME: Krati Chhabra ENROLLMENT: EN18IT301054 COURSE: Computer Networks Course Code: It3Co10
No ratings yet
Medi-Caps University: NAME: Krati Chhabra ENROLLMENT: EN18IT301054 COURSE: Computer Networks Course Code: It3Co10
11 pages
Bootstrap 3 3 A Guide Book For Beginners To Learn Web Framew PDF
No ratings yet
Bootstrap 3 3 A Guide Book For Beginners To Learn Web Framew PDF
133 pages
SEP Evaluation Expert Quick Guide
No ratings yet
SEP Evaluation Expert Quick Guide
30 pages
What Is BLOG
No ratings yet
What Is BLOG
2 pages
Project Report Btech
No ratings yet
Project Report Btech
19 pages
The Icritical Care Podcast: A Novel Medium For Critical Care Communication and Education
No ratings yet
The Icritical Care Podcast: A Novel Medium For Critical Care Communication and Education
6 pages
Multimedia Concepts & Applications
100% (1)
Multimedia Concepts & Applications
90 pages
s3 Us East 1 Amazonaws Com Documents Scribd Com Docs 8wi2zmhqv448r16e PDF Response Content Disposition Attachment 3B 20filename 3D 22251927665 Literaturos Kurso Kartojimas 11 12 PDF 22 3B 20filename 2
No ratings yet
s3 Us East 1 Amazonaws Com Documents Scribd Com Docs 8wi2zmhqv448r16e PDF Response Content Disposition Attachment 3B 20filename 3D 22251927665 Literaturos Kurso Kartojimas 11 12 PDF 22 3B 20filename 2
10 pages
XML Publisher Training: by Ravi Sankar Gandamaneni Lead Consultant Esgap Team
No ratings yet
XML Publisher Training: by Ravi Sankar Gandamaneni Lead Consultant Esgap Team
27 pages
Android Camera & Video Guide
No ratings yet
Android Camera & Video Guide
13 pages