Bài giảng Khai phá dữ liệu trong kinh doanh – ĐH Thương Mại

8/15/2017

Giới thiệu học phần

Khai phá dữ liệu trong
kinh doanh (Data Mining
in Business)

học phần: Khai phá dữ liệu trong
kinh doanh (Data Mining in Business)
 2. Mã học phần: INFO1831
 3. Số tín chỉ: 2 (24,6)
 1. Tên

D

Bộ môn Tin học
1

2

TM

H
M

_T
Tài liệu Tham khảo

Tài liệu tham khảo khác

bài giảng Khai phá dữ liệu trong kinh
doanh của Bộ môn Tin học.

U

 [1] Tập

[4] Paolo giudici. Applied data mining statistical methods for
business and industry. Willey. 2003

[5] Jiawei Han and Micheline Kamber, “Data Mining: Concepts
and Techniques”, Morgan Kanfmann Publishers, Second Edition.
[6] Joseph Fong, “Information Systems Reengineering and
Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6.

[7]. SQL server 2008 for BI. Website:
https://atdhebuja.files.wordpress.com/2011/03/sql-server-2008businessintelligence.doc

[2] Vincent Rainard. Building a Data Warehouse
With Examples in SQL. Apress. 2008.

 [3]

ZhaoHui Tang ,Jamie MacLennan. Data
Mining with SQL Server 2005. Wiley. 2005.
3

4

1

8/15/2017

Chương 1: Tổng quan về khai phá dữ liệu
trong kinh doanh

Nội dung

Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

Chương 1: Tổng quan về khai phá dữ liệu trong kinh
doanh
Chương 3: Sử dụng công cụ OLAP trong khai phá dữ
liệu

 Khai

phá dữ liệu là gì

 Khái

niệm kho dữ liệu

 Một

số mẫu dữ liệu trong kinh doanh cần khai phá

Tầm quan trọng của khai phá dữ liệu trong kinh doanh

Chương 4: Một số bài toán khai phá trong kinh doanh

1.2. Quy trình khai phá dữ liệu trong kinh doanh
 Xác

định mục tiêu

 Chuẩn

5

bị và tổ chức dữ liệu

Lựa chọn phương pháp và mô hình khai phá

 Phân

6

tích và đánh giá kết quả trong hỗ trợ kinh doanh

TM

H

D

1.1. Giới thiệu chung

M

_T
1.1 Giới thiệu chung

1.1 Giới thiệu chung

 Ví

U

dữ liệu (Data Warehouse):
một hệ thống thu lượm và hợp nhất dữ liệu một cách định kì
từ các hệ thống nguồn vào một kho lưu trữ dữ liệu nhiều chiều
hoặc thông thường.
 Kho này thường giữ các dữ liệuhàng năm và là nguồn cung cấp
cho các hệ thống kinh doanh thông minh (BI) hoặc các hoạt
động phân tích dữ liệu khác. Việc cập nhật dữ liệu là xử lý theo
lô thay vì cập nhật từng giao dịch ở hệ thống nguồn.

phá dữ liệu: Là việc phân tích dữ
liệu và tìm kiếm các tri thức ẩn giấu
bên trong bằng cách sử dụng các kĩ
thuật của công nghệ thông tin một
cách tự động hoặc bán tự động.

 Kho

 Khai

 Là

dụ: Nếu IQ>=100 Thì????
7

8

2

8/15/2017

Một số bài toán trong Khai phá dữ liệu KD

Kho dữ liệu (Data Warehouse)
 Ví




Phân tích các dữ liệu thị hiếu (Churn analysis): Telecom,
banking, and insurance. Ví dụ: để có 1 sản phầm điện thoại cần
200 USD cho quảng cáo
Phân tích DL tham khảo (Cross-selling). VD: Amazon, các
website TMĐT sẽ gợi ý sản phẩm liên quan khi người dùng
chọn mua sp nào đó
Quản lý rủi ro (Risk management): dùng trong chứng minh tài
chính của user trong ngân hàng.
Phân khúc khách hàng (Customer segmentation): phân tích
thông tin khách hàng để phân loại đối tượng khách hàng
……

9

10

TM

H

D

dụ:

ETL (extract, transform, and
load)
DDS (dimensional data store)
Người dùng trực tiếp truy vấn
dữ liệu từ DDS.
Trường hợp khác: có thể xây
dựng các chương trình ứng dụng
để sử dụng dữ liệu từ DDS
(dùng spreadsheets, pivot
tables,…)

M

_T
1.1 Giới thiệu chung

Đặc biệt nó rất gần gũi với lĩnh vực thống kê (phương
pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,
luật … )

quan trọng của việc khai phá dữ liệu
tìm tri thức trong một lượng dữ liệu lớn
là nhu cầu cấp thiết của nhiều doanh nghiệp.
 Tăng khả năng cạnh tranh trên thị trường
 Sử dụng nhiều công nghệ sẵn có

Liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí
tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song
song và tốc độ cao, thu thập tri thức cho các hệ chuyên
gia, quan sát dữ liệu…

Kho dữ liệu (Data Warehousing) và các công cụ phân
tích trực tuyến (OLAP- On Line Analytical Processing)
cũng liên quan rất chặt chẽ với data mining

 Tầm

 Sự kiếm

11

U

12

3

8/15/2017

Ứng dụng trong thực tế



 1.2.1.

Xác định mục tiêu
Chuẩn bị và tổ chức dữ liệu
 1.2.3. Lựa chọn phương pháp và mô hình
khai phá
 1.2.4. Phân tích và đánh giá kết quả trong
hỗ trợ kinh doanh
 1.2.2.

13

14

TM

H

D

1.2. Quy trình khai phá dữ liệu trong kinh
doanh

Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài
chính và dự báo giá của các loại cổ phiếu trong thị trường chứng
khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện
gian lận, …
Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm
tắt văn bản,…
Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ
gene và một số bệnh di truyền, …
Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, sự cố, chất lượng dịch vụ, …
….

M

_T
1.2.2. Chuẩn bị và tổ chức dữ liệu

1.2.1. Xác định mục tiêu

thập và tiền xử lý dữ liệu

U

 Thu

thập: dữ liệu được lấy từ nhiều nguồn khác
nhau như: giấy, hệ thống khác, website,…

 Thu

 Xác định

mục tiêu chung, cụ thể
 Xác định các nhiệm vụ cần phải hoàn
thành.

 Tiền

xử lý DL: DL không đồng nhất, … có thể
gây ra các nhầm lẫn. Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn và rời rạc hoá

Bước

này sẽ quyết định cho việc rút ra được
các tri thức hữu ích và cho phép chọn các
phương pháp khai phá dữ liệu thích hợp với
mục đích ứng dụng và bản chất của dữ liệu
15

16

4

8/15/2017

1.2.2. Chuẩn bị và tổ chức dữ liệu

1.2.2. Chuẩn bị và tổ chức dữ liệu

 Ví

 Quá

trình chuẩn bị dữ liệu phục vụ khai phá dữ

liệu:
-

Làm sạch dữ liệu

 – Tích

hợp dữ liệu;

-

Biến đổi dữ liệu;

-

Rút gọn dữ liệu

17

18

TM

H

D

dụ, Một Công ty điện tử đưa ra yêu cầu phân tích
dữ liệu bán hàng tại các chi nhánh.
 Phải kiểm tra kỹ lưỡng cơ sở dữ liệu bán hàng của
toàn công ty cũng như kho xưởng để xác định và lựa
chọn các thuộc tính hoặc chiều thông tin đưa vào
phân tích như: Chủng loại mặt hàng, mặt hàng, giá
cả, chi nhánh bán ra.
 Lỗi có thể: không ghi lại thông tin, ghi sai thông tin
so với quy định, quy chuẩn bình thường.
 Nhiệm vụ: kiểm soát và kiểm tra dữ liệu đầu vào

M

_T
1.2.3. Lựa chọn phương pháp và mô hình
khai phá

1.2.3. Lựa chọn phương pháp và mô hình
khai phá

lựa phương pháp và mô hình sẵn có để
trích ra các mẫu hoặc/và các mô hình ẩn dưới các
dữ liệu.
 Phương pháp và mô hình dựa trên bài toán:
 các bài toán mang tính mô tả – đưa ra tính chất
chung nhất của dữ liệu,
 các bài toán dự báo – bao gồm cả việc phát hiện
các suy diễn dựa trên dữ liệu hiện có.
19

 Các phương

U

 Chọn

pháp chính

 Classification: Algorithms:

Decision trees, neural

network, and Naïve Bayes.

20

5

8/15/2017

Giới thiệu học phần

Khai phá dữ liệu trong
kinh doanh (Data Mining
in Business)

học phần: Khai phá dữ liệu trong
kinh doanh (Data Mining in Business)
 2. Mã học phần: INFO1831
 3. Số tín chỉ: 2 (24,6)
 1. Tên

D

Bộ môn Tin học
1

2

TM

H
M

_T
Tài liệu Tham khảo

Tài liệu tham khảo khác

bài giảng Khai phá dữ liệu trong kinh
doanh của Bộ môn Tin học.

U

 [1] Tập

[4] Paolo giudici. Applied data mining statistical methods for
business and industry. Willey. 2003

[5] Jiawei Han and Micheline Kamber, “Data Mining: Concepts
and Techniques”, Morgan Kanfmann Publishers, Second Edition.
[6] Joseph Fong, “Information Systems Reengineering and
Integration”, Springer Verlag, 2006, ISBN 978-1-84628-382-6.

[7]. SQL server 2008 for BI. Website:
https://atdhebuja.files.wordpress.com/2011/03/sql-server-2008businessintelligence.doc

[2] Vincent Rainard. Building a Data Warehouse
With Examples in SQL. Apress. 2008.

 [3]

ZhaoHui Tang ,Jamie MacLennan. Data
Mining with SQL Server 2005. Wiley. 2005.
3

4

1

8/15/2017

Chương 1: Tổng quan về khai phá dữ liệu
trong kinh doanh

Nội dung

Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

Chương 1: Tổng quan về khai phá dữ liệu trong kinh
doanh
Chương 3: Sử dụng công cụ OLAP trong khai phá dữ
liệu

 Khai

phá dữ liệu là gì

 Khái

niệm kho dữ liệu

 Một

số mẫu dữ liệu trong kinh doanh cần khai phá

Tầm quan trọng của khai phá dữ liệu trong kinh doanh

Chương 4: Một số bài toán khai phá trong kinh doanh

1.2. Quy trình khai phá dữ liệu trong kinh doanh
 Xác

định mục tiêu

 Chuẩn

5

bị và tổ chức dữ liệu

Lựa chọn phương pháp và mô hình khai phá

 Phân

6

tích và đánh giá kết quả trong hỗ trợ kinh doanh

TM

H

D

1.1. Giới thiệu chung

M

_T
1.1 Giới thiệu chung

1.1 Giới thiệu chung

 Ví

U

dữ liệu (Data Warehouse):
một hệ thống thu lượm và hợp nhất dữ liệu một cách định kì
từ các hệ thống nguồn vào một kho lưu trữ dữ liệu nhiều chiều
hoặc thông thường.
 Kho này thường giữ các dữ liệuhàng năm và là nguồn cung cấp
cho các hệ thống kinh doanh thông minh (BI) hoặc các hoạt
động phân tích dữ liệu khác. Việc cập nhật dữ liệu là xử lý theo
lô thay vì cập nhật từng giao dịch ở hệ thống nguồn.

phá dữ liệu: Là việc phân tích dữ
liệu và tìm kiếm các tri thức ẩn giấu
bên trong bằng cách sử dụng các kĩ
thuật của công nghệ thông tin một
cách tự động hoặc bán tự động.

 Kho

 Khai

 Là

dụ: Nếu IQ>=100 Thì????
7

8

2

8/15/2017

Một số bài toán trong Khai phá dữ liệu KD

Kho dữ liệu (Data Warehouse)
 Ví




Phân tích các dữ liệu thị hiếu (Churn analysis): Telecom,
banking, and insurance. Ví dụ: để có 1 sản phầm điện thoại cần
200 USD cho quảng cáo
Phân tích DL tham khảo (Cross-selling). VD: Amazon, các
website TMĐT sẽ gợi ý sản phẩm liên quan khi người dùng
chọn mua sp nào đó
Quản lý rủi ro (Risk management): dùng trong chứng minh tài
chính của user trong ngân hàng.
Phân khúc khách hàng (Customer segmentation): phân tích
thông tin khách hàng để phân loại đối tượng khách hàng
……

9

10

TM

H

D

dụ:

ETL (extract, transform, and
load)
DDS (dimensional data store)
Người dùng trực tiếp truy vấn
dữ liệu từ DDS.
Trường hợp khác: có thể xây
dựng các chương trình ứng dụng
để sử dụng dữ liệu từ DDS
(dùng spreadsheets, pivot
tables,…)

M

_T
1.1 Giới thiệu chung

Đặc biệt nó rất gần gũi với lĩnh vực thống kê (phương
pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,
luật … )

quan trọng của việc khai phá dữ liệu
tìm tri thức trong một lượng dữ liệu lớn
là nhu cầu cấp thiết của nhiều doanh nghiệp.
 Tăng khả năng cạnh tranh trên thị trường
 Sử dụng nhiều công nghệ sẵn có

Liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí
tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song
song và tốc độ cao, thu thập tri thức cho các hệ chuyên
gia, quan sát dữ liệu…

Kho dữ liệu (Data Warehousing) và các công cụ phân
tích trực tuyến (OLAP- On Line Analytical Processing)
cũng liên quan rất chặt chẽ với data mining

 Tầm

 Sự kiếm

11

U

12

3

8/15/2017

Ứng dụng trong thực tế



 1.2.1.

Xác định mục tiêu
Chuẩn bị và tổ chức dữ liệu
 1.2.3. Lựa chọn phương pháp và mô hình
khai phá
 1.2.4. Phân tích và đánh giá kết quả trong
hỗ trợ kinh doanh
 1.2.2.

13

14

TM

H

D

1.2. Quy trình khai phá dữ liệu trong kinh
doanh

Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài
chính và dự báo giá của các loại cổ phiếu trong thị trường chứng
khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện
gian lận, …
Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm
tắt văn bản,…
Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ
gene và một số bệnh di truyền, …
Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, sự cố, chất lượng dịch vụ, …
….

M

_T
1.2.2. Chuẩn bị và tổ chức dữ liệu

1.2.1. Xác định mục tiêu

thập và tiền xử lý dữ liệu

U

 Thu

thập: dữ liệu được lấy từ nhiều nguồn khác
nhau như: giấy, hệ thống khác, website,…

 Thu

 Xác định

mục tiêu chung, cụ thể
 Xác định các nhiệm vụ cần phải hoàn
thành.

 Tiền

xử lý DL: DL không đồng nhất, … có thể
gây ra các nhầm lẫn. Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn và rời rạc hoá

Bước

này sẽ quyết định cho việc rút ra được
các tri thức hữu ích và cho phép chọn các
phương pháp khai phá dữ liệu thích hợp với
mục đích ứng dụng và bản chất của dữ liệu
15

16

4

8/15/2017

1.2.2. Chuẩn bị và tổ chức dữ liệu

1.2.2. Chuẩn bị và tổ chức dữ liệu

 Ví

 Quá

trình chuẩn bị dữ liệu phục vụ khai phá dữ

liệu:
-

Làm sạch dữ liệu

 – Tích

hợp dữ liệu;

-

Biến đổi dữ liệu;

-

Rút gọn dữ liệu

17

18

TM

H

D

dụ, Một Công ty điện tử đưa ra yêu cầu phân tích
dữ liệu bán hàng tại các chi nhánh.
 Phải kiểm tra kỹ lưỡng cơ sở dữ liệu bán hàng của
toàn công ty cũng như kho xưởng để xác định và lựa
chọn các thuộc tính hoặc chiều thông tin đưa vào
phân tích như: Chủng loại mặt hàng, mặt hàng, giá
cả, chi nhánh bán ra.
 Lỗi có thể: không ghi lại thông tin, ghi sai thông tin
so với quy định, quy chuẩn bình thường.
 Nhiệm vụ: kiểm soát và kiểm tra dữ liệu đầu vào

M

_T
1.2.3. Lựa chọn phương pháp và mô hình
khai phá

1.2.3. Lựa chọn phương pháp và mô hình
khai phá

lựa phương pháp và mô hình sẵn có để
trích ra các mẫu hoặc/và các mô hình ẩn dưới các
dữ liệu.
 Phương pháp và mô hình dựa trên bài toán:
 các bài toán mang tính mô tả – đưa ra tính chất
chung nhất của dữ liệu,
 các bài toán dự báo – bao gồm cả việc phát hiện
các suy diễn dựa trên dữ liệu hiện có.
19

 Các phương

U

 Chọn

pháp chính

 Classification: Algorithms:

Decision trees, neural

network, and Naïve Bayes.

20

5

5/5 - (1 vote)
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments