0% found this document useful (0 votes)

30 views7 pages

UNIT-2 Data Preprocessing FullNotes

Data preprocessing is essential for transforming raw data into a clean and usable format for data mining, addressing issues like incompleteness, noise, and inconsistency. Key steps include data cleaning, transformation, and reduction, which enhance accuracy and efficiency. The document outlines various methods and techniques for each preprocessing step, emphasizing their importance in Knowledge Discovery in Databases.

Uploaded by

Varshitha Kn

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

30 views7 pages

UNIT-2 Data Preprocessing FullNotes

Uploaded by

Varshitha Kn

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

UNIT-2: Data Pre-processing

Complete Notes (Text-based with Diagrams & Tables)

Prepared as student-friendly exam study material.

1. Introduction
Data preprocessing is a crucial step in Knowledge Discovery in Databases (KDD). Raw data
collected from real-world sources is often incomplete, inconsistent, and noisy. Before applying data
mining algorithms, data must be cleaned, transformed, integrated, and reduced. Preprocessing
ensures higher accuracy, efficiency, and meaningful results.

2. Need for Preprocessing

• Raw data is often incomplete (missing attributes).
• Contains noise and errors due to faulty measurements.
• Inconsistent formats and redundancies across sources.
• Preprocessing improves accuracy and reduces algorithm complexity.
3. Data Cleaning
Data cleaning removes noise, inconsistencies, and handles missing values.

Handling Missing Values:

Method Description Example
Ignore Record Remove tuples with missing values. Drop student record with missing grade.
Fill Constant Replace with fixed value. Missing city → 'Unknown'.
Mean/Median/Mode Statistical replacement. Income replaced with mean salary.
Predictive Models Use ML models for estimation. Predict missing age using regression.

Handling Noisy Data:

Binning

Noisy Data Regression

Clustering
4. Data Transformation
Transforms data into suitable formats for mining.
Method Formula Example
Min-Max (x - min)/(max - min) Score normalization from 0-100 → 0-1
Z-Score (x - mean)/std Standardize exam scores.
Decimal Scaling Move decimal point Income 12345 → 12.345

• Aggregation: Summarizing daily → monthly data.

• Generalization: Replace values with higher-level concepts.
• Attribute Construction: Creating new attributes (e.g., BMI).
5. Data Reduction
Reduce data volume while preserving analytical value.
• Dimensionality Reduction → PCA, attribute selection.
• Data Compression → encoding (wavelet, Huffman).
• Numerosity Reduction → histograms, regression, clustering.

Original Data Reduced Data

6. Data Mining Perspectives
• Task Relevant Data: Selecting only required attributes.
• Kinds of Knowledge: Predictive (classification, regression), Descriptive (clustering, association).
• Discretization: Continuous → categorical (e.g., Age: Young, Adult, Senior).
• Concept Hierarchy: Levels of abstraction (City → State → Country).

Country

State

City
7. Quick Revision Summary
• Preprocessing = Cleaning + Transformation + Reduction.
• Data Cleaning → Handle missing values, noise, inconsistencies.
• Data Transformation → Normalization, aggregation, generalization.
• Data Reduction → Dimensionality reduction, compression, numerosity reduction.
• Data Mining Perspectives → Task relevant data, knowledge to be mined, discretization,
concept hierarchies.

DWDM Unit 3
No ratings yet
DWDM Unit 3
16 pages
Summer School BDML Data Preprocessing Wroclaw 2015
No ratings yet
Summer School BDML Data Preprocessing Wroclaw 2015
91 pages
Data Mining UNIT II
No ratings yet
Data Mining UNIT II
19 pages
DWDM Unit 2
No ratings yet
DWDM Unit 2
11 pages
Data Preprocessing
No ratings yet
Data Preprocessing
4 pages
Data Preprocessing - #
No ratings yet
Data Preprocessing - #
33 pages
Chap 8 Data Preprocessing - Short
No ratings yet
Chap 8 Data Preprocessing - Short
7 pages
Unit 2
No ratings yet
Unit 2
15 pages
Unit 2: Big Data Analytics
No ratings yet
Unit 2: Big Data Analytics
45 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
11 pages
CS322 - Lec 3 - S25
No ratings yet
CS322 - Lec 3 - S25
42 pages
Data Preprocessing
No ratings yet
Data Preprocessing
5 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Session 2-Data Preprocessing
No ratings yet
Session 2-Data Preprocessing
29 pages
15 Chapter6 PDF
No ratings yet
15 Chapter6 PDF
12 pages
DM Lec04 Data Preprocessing
No ratings yet
DM Lec04 Data Preprocessing
17 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Lecture Notes Data Mining Data Warehousing Unit-2: Data Preprocessing
No ratings yet
Lecture Notes Data Mining Data Warehousing Unit-2: Data Preprocessing
3 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
11 pages
AI351 Lecture 1
No ratings yet
AI351 Lecture 1
32 pages
Unit 3
100% (1)
Unit 3
22 pages
Data Mining for Quality Improvement
100% (1)
Data Mining for Quality Improvement
34 pages
Unit 3 DW&DM Notes Mr. Rohit Pratap Singh
No ratings yet
Unit 3 DW&DM Notes Mr. Rohit Pratap Singh
22 pages
Lecture 3 and 4 - Data Preprocessing
No ratings yet
Lecture 3 and 4 - Data Preprocessing
25 pages
Data Warehousing - CH3
No ratings yet
Data Warehousing - CH3
15 pages
Data Mining Notes
No ratings yet
Data Mining Notes
3 pages
Module 2 - Data Preprocessing
No ratings yet
Module 2 - Data Preprocessing
16 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
Data Pre Processing
No ratings yet
Data Pre Processing
65 pages
Data Mining
No ratings yet
Data Mining
22 pages
A Comprehensive Approach Towards Data Preprocessing Techniques & Association Rules
No ratings yet
A Comprehensive Approach Towards Data Preprocessing Techniques & Association Rules
9 pages
Notes - Unit01 - Data Science and Big Data Analytics
No ratings yet
Notes - Unit01 - Data Science and Big Data Analytics
7 pages
Data Mining Techniques for Recommender Systems
No ratings yet
Data Mining Techniques for Recommender Systems
58 pages
Data Mining
No ratings yet
Data Mining
55 pages
Unit 2
No ratings yet
Unit 2
37 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Data Science Notes
No ratings yet
Data Science Notes
59 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
14 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
Lecture 2 DM
No ratings yet
Lecture 2 DM
11 pages
DMDW Chapter 3
No ratings yet
DMDW Chapter 3
13 pages
Data Preprocessing for Analysts
No ratings yet
Data Preprocessing for Analysts
3 pages
Midterm - Preparation Copy For Print 1
No ratings yet
Midterm - Preparation Copy For Print 1
68 pages
Part-2 Unit-1 Data Preprocessing in Data Mining
No ratings yet
Part-2 Unit-1 Data Preprocessing in Data Mining
3 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
12 pages
DMiningKuliah2A (DPreparation) New
No ratings yet
DMiningKuliah2A (DPreparation) New
28 pages
Data Cleaning and Transformation Overview
No ratings yet
Data Cleaning and Transformation Overview
25 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
Unit 2
No ratings yet
Unit 2
46 pages
Lecture 3 - Data Preprocessing
No ratings yet
Lecture 3 - Data Preprocessing
50 pages
UNIT 2 Data Warehousing
No ratings yet
UNIT 2 Data Warehousing
45 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
IMP Question
No ratings yet
IMP Question
13 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
94 pages
Neuroplasticity in Taxi Drivers
No ratings yet
Neuroplasticity in Taxi Drivers
16 pages
Muscle Deprogramming - An Orthodontist's Perspective: Batra Laxman Ra Angshuman B Llach
No ratings yet
Muscle Deprogramming - An Orthodontist's Perspective: Batra Laxman Ra Angshuman B Llach
5 pages
Recombinant Human Erythropoietin Stimulates Erythropoiesis Via Division and Differentiation of Progenitor Cells in Bone Marrow
No ratings yet
Recombinant Human Erythropoietin Stimulates Erythropoiesis Via Division and Differentiation of Progenitor Cells in Bone Marrow
2 pages
The Tale of Despereaux - Kate DiCamillo
91% (33)
The Tale of Despereaux - Kate DiCamillo
151 pages
Romantic New Orleans Itinerary
No ratings yet
Romantic New Orleans Itinerary
19 pages
Projects List 2020
No ratings yet
Projects List 2020
2 pages
Hvac Presentation
No ratings yet
Hvac Presentation
132 pages
ADE S2022 (Gtustudy - In)
No ratings yet
ADE S2022 (Gtustudy - In)
2 pages
HACCP Thermometer Calibration Log
No ratings yet
HACCP Thermometer Calibration Log
1 page
Mumbai University SYBSc Mathematics Syllabus
No ratings yet
Mumbai University SYBSc Mathematics Syllabus
16 pages
High-Altitude Cake Recipes for NM
100% (1)
High-Altitude Cake Recipes for NM
21 pages
English Exam Paper: Literature & Grammar
No ratings yet
English Exam Paper: Literature & Grammar
3 pages
State Environmental Planning Policy (Exempt and Complying Development Codes) 2008 - NSW Legislation
No ratings yet
State Environmental Planning Policy (Exempt and Complying Development Codes) 2008 - NSW Legislation
2 pages
De VA HD GIAI de Thi Thu TN THPT 2025 THPT Chuyen Nguyen Van Troi Ha Tinh Mon Tieng Anh
No ratings yet
De VA HD GIAI de Thi Thu TN THPT 2025 THPT Chuyen Nguyen Van Troi Ha Tinh Mon Tieng Anh
32 pages
Brief History of The Kombolcha Textile Share Company
No ratings yet
Brief History of The Kombolcha Textile Share Company
7 pages
Aeris Corporate Overview Brochure 2018
No ratings yet
Aeris Corporate Overview Brochure 2018
3 pages
High-Strength Concrete Core Testing
No ratings yet
High-Strength Concrete Core Testing
8 pages
22 Tacheometric Surveying
50% (2)
22 Tacheometric Surveying
28 pages
Chapter 4 - Relative Equilibrium of Liquids (Moving Vessel)
No ratings yet
Chapter 4 - Relative Equilibrium of Liquids (Moving Vessel)
70 pages
Authorized Reseller Certification
No ratings yet
Authorized Reseller Certification
15 pages
Fire Resistance Properties of Concrete
No ratings yet
Fire Resistance Properties of Concrete
7 pages
Exercise On Chap 2 - Diode Circuit
No ratings yet
Exercise On Chap 2 - Diode Circuit
3 pages
Determinates of Maize Production A Case Study in Boreda Woreda
No ratings yet
Determinates of Maize Production A Case Study in Boreda Woreda
47 pages
Form 2 Agriculture
100% (1)
Form 2 Agriculture
8 pages
Semi-Centrifugal Casting Guide
No ratings yet
Semi-Centrifugal Casting Guide
10 pages
L11 Mechanical Fasteners
No ratings yet
L11 Mechanical Fasteners
91 pages
Nps 2017
No ratings yet
Nps 2017
2 pages
Capotorto's Apizza Menu Overview
No ratings yet
Capotorto's Apizza Menu Overview
2 pages
Is 13030 1991
No ratings yet
Is 13030 1991
10 pages
Guidelines For Acceptance Examiantion and Concurrence of Detailed Project Reports For Pumped Storage Schemes
No ratings yet
Guidelines For Acceptance Examiantion and Concurrence of Detailed Project Reports For Pumped Storage Schemes
71 pages

Uploaded by

Uploaded by

UNIT-2: Data Pre-processing

Complete Notes (Text-based with Diagrams & Tables)

Prepared as student-friendly exam study material.

2. Need for Preprocessing

Handling Missing Values:

Handling Noisy Data:

Noisy Data Regression

• Aggregation: Summarizing daily → monthly data.

Original Data Reduced Data

You might also like