Data Analytics TaskList

Intern Intelligence is an organization focused on supporting interns in building successful careers through innovative approaches. Interns are required to complete at least two tasks related to data analytics, including patient risk analysis, energy consumption analysis, social media sentiment analysis, logistics performance analysis, and e-commerce customer segmentation. Each task involves data acquisition, processing, analysis, and reporting, utilizing tools such as Python, Jupyter Notebook, and Excel.

Uploaded by

Fatimə Gözəl

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views12 pages

Data Analytics TaskList

Uploaded by

Fatimə Gözəl

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

INTERN

I N T E L L I G E N C E

DATA
ANALYTICS
Intern Intelligence
ABOUT US
Intern Intelligence is a
pioneering organization
dedicated to nurturing interns
and achieving ambitious goals.
Our mission is to support interns
in building successful careers
through innovative approaches
and unwavering support. We
aim to make significant strides
and set new benchmarks in the
industry, fostering the next
generation of leaders.
INSTRUCTION

ID: Your unique ID, provided in the offer letter, is crucial. Keep it safe as you will
need it for task submission.
Task Submission Link: The link for task submission will be emailed to you within
approximately one week.
Submission

Task Submission: You will need to complete at least 2 tasks for successful
completion of internship.
Task Completion: As part of your internship, you will be assigned several tasks.
After completing each task, please record a video demonstrating your work and
share it on LinkedIn, again using the hashtag #internintelligence and tagging
@InternIntelligence.

GitHub Repository: Upload all completed tasks to GitHub. Name your repository in
the format InternIntelligence_ProjectName.
About Internship

COMPLETION PLACEMENT NETWORK

CERTIFICATE SUPPORT OPPORTUNITY
DATA ANALYTICS
Task list

You will need to complete at least 2 tasks for successful completion of internship.
TASK 1
Perform Patient Risk Analysis Using Open Health Datasets
Task : The objective of this assignment is to conduct comprehensive patient data analysis within the healthcare sector. The process includes sourcing high-quality healthcare
datasets, performing data cleaning and preprocessing, conducting exploratory data analysis to identify key insights, and developing predictive models to support clinical
decision-making. This project aims to enhance practical skills in data analytics, visualization, and machine learning applied to real-world healthcare data.

1. Data Acquisition and Preparation

Identify and source reliable, open-access healthcare datasets relevant to patient demographics, diagnoses, treatments, and outcomes.
Perform initial data cleaning, including handling missing values, eliminating duplicates, and ensuring data consistency.
Analyze dataset attributes such as patient demographics, diagnosis codes, treatment types, and laboratory results.
Compile a summary report detailing data sources, quality assessments, and preliminary observations.
Recommended Data Sources:
MIMIC-III Clinical Database ([Link]
Kaggle Healthcare Datasets ([Link]
CDC Data & Statistics ([Link]
[Link] ([Link]
2. Data Processing and Exploration
Execute data preprocessing steps such as normalization, encoding categorical variables, and feature engineering where applicable.
Apply descriptive statistical analysis and create visualizations including histograms, boxplots, and correlation matrices to identify trends and anomalies.
Conduct exploratory data analysis focusing on patient outcomes, disease prevalence, and treatment effectiveness.
Develop visual reports or dashboards to effectively communicate analytical findings.
3. Predictive Modeling and Reporting
Select relevant features based on exploratory analysis to develop predictive models.
Build and evaluate machine learning models such as logistic regression, decision trees, and random forests to predict patient outcomes.
Validate models through cross-validation techniques and assess performance using accuracy, precision, recall, and AUC-ROC metrics.
Deliver a comprehensive report detailing methodology, results, limitations, and actionable recommendations for healthcare stakeholders.

Tools: Python (Scikit-learn), Jupyter Notebook, Excel, PowerPoint

TASK 2
Energy Consumption and Savings Analysis
Task : This assignment focuses on analyzing energy consumption data to identify patterns, inefficiencies, and potential savings opportunities. The tasks involve
acquiring relevant datasets, performing data cleaning and preprocessing, conducting exploratory analysis to understand consumption trends, and developing
predictive models to forecast energy use and optimize savings. The project aims to provide actionable insights to support energy management and conservation
efforts
1. Data Acquisition and Preparation
Identify and source reliable, open-access datasets related to energy consumption, production, and savings.
Perform data cleaning including handling missing values, removing duplicates, and ensuring data consistency.
Examine dataset features such as consumption by sector, time period, geographic location, and energy types.
Prepare a summary report outlining data sources, quality evaluation, and initial observations.
Recommended Data Sources:
U.S. Energy Information Administration (EIA) ([Link]
OpenEI (Open Energy Information) ([Link]
Kaggle Energy Datasets ([Link]
International Energy Agency (IEA) ([Link]
2. Data Processing and Exploration
Conduct preprocessing including normalization, encoding categorical variables, and feature engineering as needed.
Use statistical methods and visualizations such as time series plots, histograms, and correlation matrices to analyze consumption patterns and anomalies.
Explore relationships between energy consumption and factors such as seasonality, sector, and geography.
Develop reports and dashboards to effectively present insights derived from the data.
3. Predictive Modeling and Reporting
Select key features for predictive modeling based on exploratory analysis.
Build and validate machine learning models (e.g., regression models, decision trees, random forests) to forecast energy consumption and identify savings potential.
Evaluate model performance using cross-validation and metrics such as RMSE, MAE, and R².
Prepare a detailed report summarizing methodology, findings, limitations, and recommendations for energy efficiency improvements.

Tools: Python (Scikit-learn), Jupyter Notebook, Excel, PowerPoint

TASK 3
Social Media and Customer Sentiment Analysis
Task : Analyze and interpret customer emotions and opinions expressed on social media channels. The project involves collecting relevant data, processing textual content to
extract sentiment information, and delivering insights that support marketing and customer service improvements.
Phase 1: Data Sourcing and Verification
Locate and retrieve social media datasets via public repositories or by using platform-specific APIs (e.g., Twitter, Reddit).
Conduct an initial examination to identify and filter out irrelevant entries, duplicates, and noisy data.
Evaluate dataset features, including message content, timing, user profiles, and engagement statistics.
Summarize findings in a report describing data origin, quality checks, and initial impressions.
Suggested Platforms and Libraries:
Twitter API, Reddit API (Tweepy, PRAW)
Kaggle Social Media Data Collections
Tools: Python (Pandas, NumPy), Excel, Jupyter Notebook
Phase 2: Textual Analysis and Sentiment Detection
Preprocess the text data with techniques such as tokenization, stop word elimination, and normalization (stemming or lemmatization).
Transform text into machine-readable formats using vectorization techniques like TF-IDF or word embeddings.
Apply sentiment analysis models to classify customer messages by emotional tone (positive, negative, neutral).
Visualize sentiment distributions, time-based sentiment shifts, and highlight frequent themes using charts or dashboards.
Produce a detailed analytical report outlining sentiment patterns and significant observations.
Recommended Tools:
Python (NLTK, TextBlob, SpaCy, Scikit-learn)
Optional Visualization: Tableau, Power BI
Phase 3: Modeling, Evaluation, and Presentation
Develop and train predictive models to enhance sentiment classification or uncover trending topics with machine learning or deep learning algorithms.
Validate models rigorously using metrics like accuracy, precision, recall, and F1-score.
Create comprehensive visual dashboards or slide presentations to communicate results and insights to relevant stakeholders.
Compile a final report documenting methodologies, outcomes, limitations, and actionable recommendations for business use.
TASK 4
Logistics and Delivery Performance Analysis
Task : Evaluate and improve logistics and delivery operations by analyzing performance data. This project focuses on collecting shipment and delivery records, processing
key metrics, identifying bottlenecks, and providing actionable insights to optimize supply chain efficiency.

Phase 1: Data Collection and Quality Assessment

Source logistics datasets from publicly available repositories or company-provided shipment and delivery records.
Perform data cleaning to remove inconsistencies, duplicates, and incomplete entries.
Analyze key variables such as shipment dates, delivery times, transportation methods, and order statuses.
Document a data quality report summarizing dataset characteristics and any issues encountered.
Suggested Data Sources and Tools:
Public logistics datasets on platforms like Kaggle ([Link]
Company shipment and delivery logs (if available)
Python libraries: Pandas, NumPy
Phase 2: Performance Metrics Analysis
Calculate critical logistics KPIs such as on-time delivery rate, average delivery time, transit delays, and order fulfillment accuracy.
Identify patterns and trends in delivery performance across different regions, carriers, or product types.
Visualize data through charts and dashboards to highlight areas of inefficiency or success.
Prepare an analytical report summarizing key performance indicators and notable trends.
Phase 3: Optimization Modeling and Reporting
Develop predictive models to forecast delivery times or detect potential delays using machine learning techniques.
Evaluate model accuracy and reliability with appropriate metrics such as RMSE, precision, and recall.
Create clear and concise presentations or dashboards to communicate findings and recommendations to logistics teams and management.
Compile a comprehensive final report detailing data sources, analysis methods, model outcomes, and strategic suggestions for operational
improvements.
TASK 5
E-commerce Customer Segmentation and Purchasing Behavior Analysis
Task : Conduct a comprehensive analysis of e-commerce customers to identify distinct segments and understand purchasing behaviors. The project involves acquiring
relevant transactional data, performing segmentation using clustering techniques, analyzing purchase patterns, and delivering insights to support targeted marketing
strategies.

Phase 1: Data Acquisition and Preprocessing

Obtain e-commerce customer transaction datasets from publicly accessible platforms or company-provided data.
Clean the data by handling missing values, duplicates, and inconsistencies.
Explore dataset attributes such as customer demographics, transaction history, product categories, and purchase timestamps.
Prepare an initial report outlining the data sources, quality assessments, and summary statistics.
Suggested Data Sources:
UCI Machine Learning Repository - Online Retail Data Set: [Link]
Kaggle - E-commerce Customer Behavior Datasets: [Link]
Amazon Customer Reviews Dataset: [Link]
Recommended Tools:
Python (Pandas, NumPy), Jupyter Notebook, Excel
Phase 2: Customer Segmentation and Behavioral Analysis
Apply clustering algorithms (e.g., K-Means, Hierarchical Clustering) to segment customers based on purchasing frequency, monetary value, and recency.
Analyze buying behaviors across segments to identify preferences, high-value customers, and churn risks.
Visualize segment distributions and behavioral trends using charts and dashboards.
Generate a detailed report summarizing segmentation results and key customer insights.
Phase 3: Predictive Modeling and Strategic Recommendations
Build predictive models to forecast customer lifetime value, purchase likelihood, or product preferences using machine learning techniques.
Evaluate model performance through metrics such as accuracy, ROC-AUC, and precision-recall scores.
Create presentations or dashboards that clearly communicate findings and actionable recommendations to business stakeholders.
Submit a comprehensive final report covering data acquisition, methodology, analytical results, and strategic marketing suggestions.
Connect
with us.
Youtube
Intern Intelligence

Website
[Link]

E-mail
[Link]@[Link]

LinkedIn
@Intern Intelligence

Instagram
InternIntelligence

Telegram
InternIntelligence

Final Int. Report
No ratings yet
Final Int. Report
14 pages
Final Project Guidelines: Dataset Selection & Planning
No ratings yet
Final Project Guidelines: Dataset Selection & Planning
3 pages
Analyzing Mental Health via Twitter Data
No ratings yet
Analyzing Mental Health via Twitter Data
17 pages
Health Care Predictive Analytics (1) Subashish
No ratings yet
Health Care Predictive Analytics (1) Subashish
13 pages
150+ Data Science Projects
No ratings yet
150+ Data Science Projects
13 pages
Medhun Final 1
No ratings yet
Medhun Final 1
4 pages
Internship Rakeshhh
No ratings yet
Internship Rakeshhh
14 pages
Technical Assignment 2
No ratings yet
Technical Assignment 2
3 pages
MOHAMMED SHAREEF Resume
No ratings yet
MOHAMMED SHAREEF Resume
5 pages
DW M Final Report
No ratings yet
DW M Final Report
15 pages
Capstone Project Guidelines
No ratings yet
Capstone Project Guidelines
2 pages
Advanced Healthcare Data Analysis
No ratings yet
Advanced Healthcare Data Analysis
4 pages
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
No ratings yet
Healthcare Analytics On Patient Data Using Big Data Technologies For Disease Prediction and Readmission Analysis
6 pages
Ajam Ali Resume
No ratings yet
Ajam Ali Resume
2 pages
Data Scientist&Analytics
No ratings yet
Data Scientist&Analytics
2 pages
Predictive Maintenance Model Development
No ratings yet
Predictive Maintenance Model Development
14 pages
Python for Business Analytics
No ratings yet
Python for Business Analytics
11 pages
Dnyaneshwar Ds
No ratings yet
Dnyaneshwar Ds
2 pages
Data Analysis Projects PDF
No ratings yet
Data Analysis Projects PDF
4 pages
Internship Presentation
No ratings yet
Internship Presentation
15 pages
Data Analytics TaskList
No ratings yet
Data Analytics TaskList
13 pages
Prashant Detailed Document
No ratings yet
Prashant Detailed Document
18 pages
Assignment
No ratings yet
Assignment
5 pages
Microsoft - Classifying Cybersecurity Incidents
No ratings yet
Microsoft - Classifying Cybersecurity Incidents
8 pages
Report 1
No ratings yet
Report 1
7 pages
SHUKLAdocument
No ratings yet
SHUKLAdocument
21 pages
Project Plan - Energy Consumption Modeling
No ratings yet
Project Plan - Energy Consumption Modeling
5 pages
Resume of Zirui Lin
No ratings yet
Resume of Zirui Lin
2 pages
LLM2
No ratings yet
LLM2
6 pages
ADA MCA Assignment4
No ratings yet
ADA MCA Assignment4
1 page
Data Analytics Project Ideas To Boost Your Resume (Chat GPT)
No ratings yet
Data Analytics Project Ideas To Boost Your Resume (Chat GPT)
3 pages
Data Analytics Task List
No ratings yet
Data Analytics Task List
15 pages
LAB01
No ratings yet
LAB01
8 pages
Data Science Internship Task Guide
No ratings yet
Data Science Internship Task Guide
14 pages
Soln Architecture11.
No ratings yet
Soln Architecture11.
5 pages
Stock Market
No ratings yet
Stock Market
3 pages
Each Stage of A Data Mining Project
No ratings yet
Each Stage of A Data Mining Project
5 pages
LAB01
No ratings yet
LAB01
7 pages
Proposal
No ratings yet
Proposal
8 pages
Phase 2
No ratings yet
Phase 2
6 pages
AIML Internship Report
No ratings yet
AIML Internship Report
53 pages
Tristan Dale Blackwell: Data Scientist Profile
No ratings yet
Tristan Dale Blackwell: Data Scientist Profile
7 pages
ITECH2302 MainAssessment Report
No ratings yet
ITECH2302 MainAssessment Report
8 pages
ML Assignment
No ratings yet
ML Assignment
3 pages
Project ProblemStatements DataScience
No ratings yet
Project ProblemStatements DataScience
7 pages
Final Project DA 11.00
No ratings yet
Final Project DA 11.00
3 pages
Aparna INTERN REPORT 12
No ratings yet
Aparna INTERN REPORT 12
46 pages
Email: - Mobile: +918233337380 - Gurugram, Haryana: B. Tech in Computer and Communication Engineering Intermediate
No ratings yet
Email: - Mobile: +918233337380 - Gurugram, Haryana: B. Tech in Computer and Communication Engineering Intermediate
1 page
Internship Report KUNAL Latest
No ratings yet
Internship Report KUNAL Latest
15 pages
Revised 16 Oct - Project-Guidelines - BA-2020-21 PDF
No ratings yet
Revised 16 Oct - Project-Guidelines - BA-2020-21 PDF
2 pages
Data Science Task List
No ratings yet
Data Science Task List
15 pages
Kumar Nachiket Resume - Updated
No ratings yet
Kumar Nachiket Resume - Updated
3 pages
Predictive Maintenance for Wind Turbines
No ratings yet
Predictive Maintenance for Wind Turbines
5 pages
Ce473 Project - Fall 2024
No ratings yet
Ce473 Project - Fall 2024
8 pages
Harshitha 2 Profile
No ratings yet
Harshitha 2 Profile
2 pages
Portfolio Projects
No ratings yet
Portfolio Projects
187 pages
Sample Project Report
No ratings yet
Sample Project Report
84 pages
Sentiment Analysis Project Overview
No ratings yet
Sentiment Analysis Project Overview
5 pages
Unec 1750681954
No ratings yet
Unec 1750681954
15 pages
Math For AI
No ratings yet
Math For AI
29 pages
Risk Risk Risk
No ratings yet
Risk Risk Risk
22 pages
Marketing Edited
No ratings yet
Marketing Edited
36 pages
Corporme
No ratings yet
Corporme
13 pages
AdaBoost & DIfference Between Adaboost and Random Forest
No ratings yet
AdaBoost & DIfference Between Adaboost and Random Forest
6 pages
Unit 5 Mfds
No ratings yet
Unit 5 Mfds
4 pages
Comparative Analysis of Rock Fragmentation
No ratings yet
Comparative Analysis of Rock Fragmentation
129 pages
Scikit-Learn Python Cheat Sheet
100% (1)
Scikit-Learn Python Cheat Sheet
1 page
BMW Films Campaign Analysis
100% (1)
BMW Films Campaign Analysis
11 pages
Digital Revolution: Impact & Opportunities
No ratings yet
Digital Revolution: Impact & Opportunities
23 pages
Anova Table
No ratings yet
Anova Table
1 page
Module 4 - Assignment Rakesh Thakor
No ratings yet
Module 4 - Assignment Rakesh Thakor
13 pages
CSE 465 Exam: Decision Trees & SVMs
No ratings yet
CSE 465 Exam: Decision Trees & SVMs
2 pages
V2i303 PDF
No ratings yet
V2i303 PDF
15 pages
Data Mining For Intelligence
No ratings yet
Data Mining For Intelligence
4 pages
Pengaruh Model Pembelajaran Question Student Have Dan Minat Beajar Terhadap Hasil Belajar Ips Siswa Kelas Viii SMP Negeri 1 Pematang Siantar
No ratings yet
Pengaruh Model Pembelajaran Question Student Have Dan Minat Beajar Terhadap Hasil Belajar Ips Siswa Kelas Viii SMP Negeri 1 Pematang Siantar
5 pages
Time Series Decomposition Guide
No ratings yet
Time Series Decomposition Guide
32 pages
PS5 Sol
No ratings yet
PS5 Sol
7 pages
Data Warehousing 95-797: Meeting Days, Times, Location: Semester:, Year
No ratings yet
Data Warehousing 95-797: Meeting Days, Times, Location: Semester:, Year
5 pages
Malaysian Private Label Brand Study
No ratings yet
Malaysian Private Label Brand Study
19 pages
Sentinel 2 MultiSpectral Instrument MSI Data Processing - 2017 - Remote Sensin
No ratings yet
Sentinel 2 MultiSpectral Instrument MSI Data Processing - 2017 - Remote Sensin
10 pages
Accident and Survey Report
100% (1)
Accident and Survey Report
19 pages
ECE069
No ratings yet
ECE069
2 pages
Introduction PPNCKH
No ratings yet
Introduction PPNCKH
29 pages
AfDB Existingroads Reactiveapproachesmanual
No ratings yet
AfDB Existingroads Reactiveapproachesmanual
118 pages
Statistics Formulas
100% (7)
Statistics Formulas
8 pages
Modul 1 Biostatistika
No ratings yet
Modul 1 Biostatistika
6 pages
Distributed Machine Learning With PySpark Migrating Effortlessly From Pandas and Scikit-Learn (Abdelaziz Testas) (Z-Library)
No ratings yet
Distributed Machine Learning With PySpark Migrating Effortlessly From Pandas and Scikit-Learn (Abdelaziz Testas) (Z-Library)
381 pages
Assignment 2 Data Analysis Framework
No ratings yet
Assignment 2 Data Analysis Framework
5 pages
SAS - Regression Using JMP
100% (1)
SAS - Regression Using JMP
283 pages
Drill Hole Spacing Analysis 2015
100% (2)
Drill Hole Spacing Analysis 2015
21 pages
ML Mid 1 Solution
No ratings yet
ML Mid 1 Solution
36 pages
Theoritical Framework
50% (2)
Theoritical Framework
4 pages
Psychological Testing in Education
No ratings yet
Psychological Testing in Education
13 pages

Data Analytics TaskList

Uploaded by

Data Analytics TaskList

Uploaded by

INTERN

COMPLETION PLACEMENT NETWORK

1. Data Acquisition and Preparation

Tools: Python (Scikit-learn), Jupyter Notebook, Excel, PowerPoint

Tools: Python (Scikit-learn), Jupyter Notebook, Excel, PowerPoint

Phase 1: Data Collection and Quality Assessment

Phase 1: Data Acquisition and Preprocessing

You might also like