0% found this document useful (0 votes)

4 views5 pages

Data Science Assignment Org

The document provides an overview of data science, its core disciplines, and its applications in healthcare, including the importance of data transformation and machine learning. It discusses characteristics of big data, the ETL process, and differentiates between supervised and unsupervised learning with medical examples. Additionally, it highlights the use of AI in medical diagnosis and addresses ethical risks associated with AI systems in healthcare.

Uploaded by

n02316854y

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views5 pages

Data Science Assignment Org

Uploaded by

n02316854y

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Faculty: Medicine

Course Name: Data Sciences, Robotics and AI

Course Code: MBM 3102

Lecturer: Ms E.T Nyakujipa

Tittle: Introduction to Data Sciences

Student name: Kundhlande Tadiwanashe

Student number: N02316854Y

1. Define the term "Data Science" and describe the three core disciplines that intersect to
form it. (8 marks)
● Data Science is an interdisciplinary field that uses scientific methods, processes,
algorithms, and systems to extract knowledge and insights from structured and
unstructured data. It integrates techniques from statistics, computer science (including
programming and machine learning), and domain expertise such as medicine to
analyze, interpret, and apply data for solving real-world problems. These three
intersecting disciplines form the foundation:
● Statistics -analyzes and interprets data trends
● Computer Science and Programming - builds models, automats processes, and works
with large datasets.
● Domain Expertise- Understands data in its real-world context (medical, financial, etc.)
● By combining these skills, data science enables medical researchers to build
predictive models, analyze trends, and extract actionable insights from complicated
healthcare data.

2. List any three characteristics of big data (3 marks)

● Volume- Very large amounts of data, often measured in terabytes to petabytes
● Variety- Different data types, such as text, images, records, and sensor readings
● Velocity- The speed at which data is generated and must be processed

3. Explain the purpose of each step in the ETL (Extract, Transform, Load) process. Use
a hypothetical example of collecting patient blood pressure readings from multiple
clinics to illustrate your answer. (8 marks)
● Extract- Gather patient blood pressure recordings from various clinic databases or
sources. In this step, the aim is to collect all those readings, regardless of format or
location.
● Transform: Clean and standardize the data, such as converting all pressure readings to
the same units (e.g., mmHg), correcting errors, and removing duplicates. Also incudes
inputting missing data if necessary.
● Load: Place the transformed data into a central hospital database where it can be
analyzed for trends, outliers, or clinical decision-making.
● For example, if Clinic A logs blood pressure in mmHg and Clinic B in kPa, during
transformation you'd convert all readings to mmHg before loading them into your
patient records system.

4. Why is data transformation (e.g., normalization) a critical step before building a
machine learning model? (3 marks)
● Data transformation, including normalization, is a crucial preprocessing step that
scales data features to a common range (e.g., 0 to 1), ensuring that no single
measurement dominates due to its numeric size.
● This equal scaling allows machine learning algorithms to treat all features fairly,
improving model convergence, stability, and overall performance.
● Normalization also helps satisfy algorithmic assumptions and handles inconsistencies
and technical variations in the data. This is especially important for gradient-based
optimization methods such as neural networks and logistic regression, where
normalization accelerates training and prevents issues caused by widely varying
feature scales.

5. Distinguish between data exploration and data cleaning (4 marks)

● Data exploration helps identify problems, while data cleaning removes them.

Aspect Data Exploration Data Cleaning

Purpose Understanding data patterns, trends, Fixing or removing errors,

and identifying potential issues inconsistencies, and incomplete data

Timing Performed first to guide subsequent Follows exploration insights for

cleaning efforts targeted corrections

Activities Statistical summaries, visualizations, Removing duplicates, correcting errors,

pattern discovery handling missing values

Outcome Insights about data quality and Clean, reliable dataset ready for analysis
characteristics

6. Differentiate between Supervised and Unsupervised Learning. Provide one medical
example for each type. (6 marks)

Feature Supervised Learning Unsupervised Learning

Definition Uses labeled training data to Discovers hidden patterns in unlabeled

predict known outcomes data without predefined targets

Medical Automated ECG interpretation to Identifying patient subgroups in heart

Example classify heart rhythm failure based on clinical characteristics
abnormalities (normal vs. atrial to discover new disease phenotypes
fibrillation)

Application Disease diagnosis, risk prediction, Patient phenotyping, drug discovery,

treatment recommendation precision medicine

● Supervised learning might use thousands of X-rays labeled as "disease" or "healthy"

to train an algorithm; unsupervised learning could reveal new subgroups of diabetes
patients based on their test results.
7. A research team uses a logistic regression model to predict the likelihood of a disease
based on patient biomarkers.
* a) What is the output of a logistic regression model? (2 marks)
● The output of a logistic regression model is a probability, a value between 0
and 1, that represents the likelihood of a specific outcome (e.g., the probability
of a disease based on patient biomakers)

* b) Define what accuracy and recall measure in the context of evaluating this
diagnostic model. Why might recall be particularly important in a medical setting? (6
marks)

● Accuracy is the proportion of total correct predictions (both positive and negative)
made by the model, measuring overall how often the model is right.
● Recall (also called sensitivity) is the proportion of actual positive cases (patients who
have the disease) that the model correctly identifies as positive.
● In a medical setting, recall is especially important because missing actual positive
cases (false negatives) means some patients with the disease could go undiagnosed,
leading to potentially serious consequences. Prioritizing recall ensures that most, if
not all, sick patients are identified, which is essential in healthcare where missing a
case can impact patient health and safety

8. Describe two distinct ways Artificial Intelligence is currently being used to assist in
medical diagnosis. (4 marks)
● AI analyzes medical images, such as X-rays or MRI scans, to detect abnormalities
like tumors, fractures, or signs of diseases. These image-recognition systems help
radiologists identify conditions with high speed and accuracy.
● AI-powered clinical decision support systems review large volumes of patient health
records, lab results, and symptoms to suggest potential diagnoses or flag high-risk
patients for further assessment, aiding clinicians in making faster and better-informed
decisions.

9. A hospital implements an AI system to prioritize patients in the emergency room

based on the severity of their condition. Discuss two potential ethical risks or biases
that could be present in such a system and how they might be mitigated. (6 marks)

● Algorithmic bias- it can arise from training data reflecting historical disparities,
potentially leading to inequitable prioritization for minority groups leading to unfair
differences in care. This can be mitigated by using diverse, representative training
data and regularly checking the AI’s performance across different groups to address
disparities.
● Lack of transparency (“black box problem”)- clinicians may not understand how the
AI reached its decision, making it hard to trust or challenge the system. Mitigation
strategies include using diverse and representative training data, continuous
monitoring for biased outcomes, implementing explainable AI (XAI) techniques, and
establishing clear ethical frameworks and human oversight for the system.
References
● Arulanandham, A., Suresh, A., Senthil Kumar, R., 2022. Role of Data Science in
Healthcare, in: Data Science with Semantic Technologies. John Wiley & Sons, Ltd, pp.
105–137. https://doi.org/10.1002/9781119865339.ch5
● Bajwa, J., Munir, U., Nori, A., Williams, B., 2021. Artificial intelligence in healthcare:
transforming the practice of medicine. Future Healthc. J. 8, e188–e194.
https://doi.org/10.7861/fhj.2021-0095
● Sarker, I.H., 2021. Data Science and Analytics: An Overview from Data-Driven Smart
Computing, Decision-Making and Applications Perspective. Sn Comput. Sci. 2, 377.
https://doi.org/10.1007/s42979-021-00765-8
● Subrahmanya, S.V.G., Shetty, D.K., Patil, V., Hameed, B.M.Z., Paul, R., Smriti, K., Naik,
N., Somani, B.K., 2022. The role of data science in healthcare advancements:
applications, benefits, and future prospects. Ir. J. Med. Sci. 191, 1473–1483.
https://doi.org/10.1007/s11845-021-02730-z
● What is Data Science? | IBM [WWW Document], n.d. URL
https://www.ibm.com/think/topics/data-science (accessed 10.2.25).

Data Science in Healthcare
No ratings yet
Data Science in Healthcare
9 pages
Phase 2
No ratings yet
Phase 2
6 pages
Health Care Analytics Exam Cheat Sheet
No ratings yet
Health Care Analytics Exam Cheat Sheet
5 pages
Big Data in Healthcare Slides
No ratings yet
Big Data in Healthcare Slides
18 pages
SEM VII Honours Data Science For Health and Social Care
No ratings yet
SEM VII Honours Data Science For Health and Social Care
3 pages
Data Science in Healthcare Seminar
No ratings yet
Data Science in Healthcare Seminar
13 pages
Data Science Applications in Healthcare
No ratings yet
Data Science Applications in Healthcare
13 pages
Heart Disease Detection
No ratings yet
Heart Disease Detection
14 pages
David (RA Resume)
No ratings yet
David (RA Resume)
5 pages
Elliptocyte Analysis in Data Science
No ratings yet
Elliptocyte Analysis in Data Science
21 pages
Hca 2 Mark
No ratings yet
Hca 2 Mark
5 pages
Collaborative Data Science For Healthcare - DY Patil University - Edx
No ratings yet
Collaborative Data Science For Healthcare - DY Patil University - Edx
11 pages
Data Science & AI for Healthcare Pros
No ratings yet
Data Science & AI for Healthcare Pros
15 pages
Fundamentals of Clinical Data Science., 978-3319997124
100% (21)
Fundamentals of Clinical Data Science., 978-3319997124
23 pages
Big Data Analytics Sample Question Paper
No ratings yet
Big Data Analytics Sample Question Paper
38 pages
Veeraragavan
No ratings yet
Veeraragavan
10 pages
Ia 2 Solution Ai Ds II
No ratings yet
Ia 2 Solution Ai Ds II
7 pages
Healthcare Data Analytics Course
No ratings yet
Healthcare Data Analytics Course
2 pages
Data Science Revolutionizes Healthcare
No ratings yet
Data Science Revolutionizes Healthcare
17 pages
2 - Clinical Data Lecture
No ratings yet
2 - Clinical Data Lecture
24 pages
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
No ratings yet
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
21 pages
Application of Data Science and Bioinformatics in Healthcare Technologies
No ratings yet
Application of Data Science and Bioinformatics in Healthcare Technologies
12 pages
Nemi AHA Brochure 1
No ratings yet
Nemi AHA Brochure 1
13 pages
Exp1 - Minor
No ratings yet
Exp1 - Minor
2 pages
DS and ML in Healtcare
No ratings yet
DS and ML in Healtcare
20 pages
Data Science in Health Care
No ratings yet
Data Science in Health Care
9 pages
Healthcare, Pharma and Clinical Research Domain
No ratings yet
Healthcare, Pharma and Clinical Research Domain
14 pages
Data Science Transforming Healthcare
No ratings yet
Data Science Transforming Healthcare
2 pages
Mini Project Report
No ratings yet
Mini Project Report
21 pages
APSA Assignment Daibaan
No ratings yet
APSA Assignment Daibaan
7 pages
Healthcare Data Scientist Expertise
No ratings yet
Healthcare Data Scientist Expertise
2 pages
AIML in Healthcare MU QPaper Solution (June 2024)
No ratings yet
AIML in Healthcare MU QPaper Solution (June 2024)
26 pages
DSCPR 00
No ratings yet
DSCPR 00
10 pages
Presentation 32672 Content Document 20250311041135PM
No ratings yet
Presentation 32672 Content Document 20250311041135PM
124 pages
XAI Framework For Cardiovascular Disease
No ratings yet
XAI Framework For Cardiovascular Disease
30 pages
Research Paper 2020
No ratings yet
Research Paper 2020
10 pages
4 11 Final Modified Chapter-4
No ratings yet
4 11 Final Modified Chapter-4
32 pages
Machine Learning For Improved Diagnosis and Prognosis in Healthcare
No ratings yet
Machine Learning For Improved Diagnosis and Prognosis in Healthcare
9 pages
Big Data in Healthcare Course Intro
No ratings yet
Big Data in Healthcare Course Intro
52 pages
AI-Driven Diagnosis for Specific Diseases
No ratings yet
AI-Driven Diagnosis for Specific Diseases
10 pages
AI Biomedicine
No ratings yet
AI Biomedicine
12 pages
Question Bank 67
No ratings yet
Question Bank 67
77 pages
Assignment-1 Why Do We Use Data Science in Healthcare?
No ratings yet
Assignment-1 Why Do We Use Data Science in Healthcare?
7 pages
Healthcare Analysis
No ratings yet
Healthcare Analysis
30 pages
Data Science Sem 8 IE
No ratings yet
Data Science Sem 8 IE
10 pages
Introduction
No ratings yet
Introduction
9 pages
Neural Networks in Healthcare
No ratings yet
Neural Networks in Healthcare
16 pages
2016-12 Hortonworks Road Show - From Acquisition To Insights
No ratings yet
2016-12 Hortonworks Road Show - From Acquisition To Insights
24 pages
Resume NikitaRego Nov24
No ratings yet
Resume NikitaRego Nov24
2 pages
Managing Distributed Machine Learning Lifecycle For Healthcare Data in The Cloud
No ratings yet
Managing Distributed Machine Learning Lifecycle For Healthcare Data in The Cloud
25 pages
Diagnostics 15 01170
No ratings yet
Diagnostics 15 01170
5 pages
AI in Data Science For Healthcare
No ratings yet
AI in Data Science For Healthcare
38 pages
AIN Module 3
No ratings yet
AIN Module 3
37 pages
HCA Question Bank
No ratings yet
HCA Question Bank
4 pages
Micro Project 1
No ratings yet
Micro Project 1
11 pages
Preview-9781482232127 A25892874
No ratings yet
Preview-9781482232127 A25892874
76 pages
Previewpdf
No ratings yet
Previewpdf
288 pages
Proposal AIM MIA 2025 2027
No ratings yet
Proposal AIM MIA 2025 2027
17 pages
MODULE 7. Space Planning 2 Calculations Specifications..
100% (1)
MODULE 7. Space Planning 2 Calculations Specifications..
45 pages
Unit 2 Summative Assessment Practice
No ratings yet
Unit 2 Summative Assessment Practice
8 pages
Math Ed
No ratings yet
Math Ed
7 pages
DIVA Annotation Guidelines V1.0
No ratings yet
DIVA Annotation Guidelines V1.0
16 pages
Review Chapter 1 Physics Motion
No ratings yet
Review Chapter 1 Physics Motion
3 pages
Gasser Et Al. 1993
No ratings yet
Gasser Et Al. 1993
2 pages
Product Guide Golf Plus A6 January2013 v2
No ratings yet
Product Guide Golf Plus A6 January2013 v2
8 pages
Presentation TA6 ISW-Unit 6
No ratings yet
Presentation TA6 ISW-Unit 6
35 pages
0sy.301.220.22a02 LVB-220W3
No ratings yet
0sy.301.220.22a02 LVB-220W3
1 page
Secret Kindle Alexander Alexander Kindle Download
No ratings yet
Secret Kindle Alexander Alexander Kindle Download
56 pages
English Verb Seminar Overview
No ratings yet
English Verb Seminar Overview
6 pages
18 Must-Know Export Incentives in India If You Are An Exporter
No ratings yet
18 Must-Know Export Incentives in India If You Are An Exporter
2 pages
AI in Medicine Research
No ratings yet
AI in Medicine Research
17 pages
Medical Neuroanatomy For The Boards and The Clinic Finding The Lesion 2nd Edition Complete Digital Book
100% (10)
Medical Neuroanatomy For The Boards and The Clinic Finding The Lesion 2nd Edition Complete Digital Book
17 pages
Multidimensional Signal Processing
No ratings yet
Multidimensional Signal Processing
8 pages
Record Paddy Yields in Bihar
No ratings yet
Record Paddy Yields in Bihar
3 pages
Unconsecrated Hosts and Communion Loss
No ratings yet
Unconsecrated Hosts and Communion Loss
3 pages
Chapter 8
No ratings yet
Chapter 8
4 pages
Buy Ebook Deep Tech Demystifying The Breakthrough Technologies That Will Revolutionize Everything Eric Redmond Cheap Price
67% (3)
Buy Ebook Deep Tech Demystifying The Breakthrough Technologies That Will Revolutionize Everything Eric Redmond Cheap Price
24 pages
Polymer Gel Cleaning
No ratings yet
Polymer Gel Cleaning
9 pages
Manchester Architects Awards Winners Booklet
No ratings yet
Manchester Architects Awards Winners Booklet
24 pages
LA-VIDA Nightclub Business Plan
100% (2)
LA-VIDA Nightclub Business Plan
13 pages
Understanding Moles and Molar Mass
No ratings yet
Understanding Moles and Molar Mass
19 pages
6.1 Robot Programming
No ratings yet
6.1 Robot Programming
4 pages
DEALER MITRA SURYA NEW 20 APRIL 2020 Asus, Lenovo, HP, Dell, Acer, Msi, Avita
No ratings yet
DEALER MITRA SURYA NEW 20 APRIL 2020 Asus, Lenovo, HP, Dell, Acer, Msi, Avita
254 pages
Sika Reemat Ecr CSM 450
No ratings yet
Sika Reemat Ecr CSM 450
2 pages
Common Properties of Light Explained
No ratings yet
Common Properties of Light Explained
30 pages
oSIST prEN 12469 2 2024
No ratings yet
oSIST prEN 12469 2 2024
12 pages
Despicable Me 3 Transcript
No ratings yet
Despicable Me 3 Transcript
32 pages
Annelida: Structure, Function, and Classification
No ratings yet
Annelida: Structure, Function, and Classification
5 pages

Data Science Assignment Org

Uploaded by

Data Science Assignment Org

Uploaded by

Faculty: Medicine

Course Name: Data Sciences, Robotics and AI

Course Code: MBM 3102

Lecturer: Ms E.T Nyakujipa

Tittle: Introduction to Data Sciences

Student name: Kundhlande Tadiwanashe

Student number: N02316854Y

2.​ List any three characteristics of big data (3 marks)

5.​ Distinguish between data exploration and data cleaning (4 marks)

Aspect Data Exploration Data Cleaning

Purpose Understanding data patterns, trends, Fixing or removing errors,

Timing Performed first to guide subsequent Follows exploration insights for

Activities Statistical summaries, visualizations, Removing duplicates, correcting errors,

Feature Supervised Learning Unsupervised Learning

Definition Uses labeled training data to Discovers hidden patterns in unlabeled

Medical Automated ECG interpretation to Identifying patient subgroups in heart

Application Disease diagnosis, risk prediction, Patient phenotyping, drug discovery,

●​ Supervised learning might use thousands of X-rays labeled as "disease" or "healthy"

9.​ A hospital implements an AI system to prioritize patients in the emergency room

You might also like

2. List any three characteristics of big data (3 marks)

5. Distinguish between data exploration and data cleaning (4 marks)

● Supervised learning might use thousands of X-rays labeled as "disease" or "healthy"

9. A hospital implements an AI system to prioritize patients in the emergency room