TÌM HIỂU CÁC ỨNG DỤNG CỦA DATAMINING TRONG KINH DOANH

TÌM HIỂU CÁC ỨNG DỤNG CỦA DATAMINING TRONG KINH DOANH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (177.2 KB, 19 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

BÀI THU HOẠCH MÔN KHAI PHÁ DỮ LIỆU
ĐỀ TÀI:
TÌM HIỂU CÁC ỨNG DỤNG CỦA
DATAMINING TRONG KINH DOANH
Giáo viên hướng dẫn: PGS. Ts. Đỗ Phúc
Sinh viên thực hiện:
Nguyễn Thị Thanh Thảo – MS: CH1101137
Tp HCM, tháng 11 năm 2012
Mục lục
Lời nói đầu 3
Phần 1 4
I. Giới thiệu 4
II. Khái niệm về Datamining 4
III. Một vài ví dụ cho datamining 5
IV. Các thành phần cơ bản của datamining 6
V. Các chức năng chính của khai phá dữ liệu 7
VI. Các giải thuật/thuật toán của datamining 8
VII. Một số công nghệ dùng trong datamining 8
VIII. Phạm vi ứng dụng 9
Phần 2 11
1. Ứng dụng Datamining trong phân tich rủi ro ở ngân hàng ACB 12
2. Ứng dụng Datamining trong kinh doanh đồ chơi trẻ em 13
3. Ứng dụng trong kinh doanh siêu thị 13
4. Ứng dụng của datamining trong Viễn thông 13
Kết luận 18
Lời nói đầu.
Ngày nay, với sự phát triển của khoa học kỹ thuật, các cơ quan, doanh nghiệp,….
ứng dụng công nghệ thông tin vào công tác quản lý điều hành, sản xuất kinh doanh ngày

càng phổ biến.
Đặc biệt là Datamining được sử dụng ngày càng nhiều và thành công vào các lĩnh
vực khác nhau như: trong kinh doanh, trong chuẩn đoán y học, trong xã hội, trong công
nghiệp,….Việc ứng dụng Datamining giúp cho các cơ quan, doanh nghiệp,… đưa ra các
quyết định đúng đắn, kịp thời, dự đoán được những rủi ro, xác định khách hàng tiềm
năng,… Như vậy, nắm bắt được những kyc thuật về Datamining là rất quan trọng.
Nhận thức được tầm quan trọng và sự ảnh hưởng của Datamining, em tiến hành
nghiên cứu một vài ứng dụng của Datamining trong kinh doanh, trong viễn thông,…
Qua đây, em chân thành cảm ơn Phó Giáo sư – Ts. Đỗ Phúc đã truyền đạt cho em
những kiến thức hữu ích này.
Chân thành cảm ơn !
PHẦN 1: CƠ SỞ LÝ THUYẾT
I. Giới thiệu.
Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai
phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác
vàng từ đá và cát, Dataming được ví như công việc “Đãi cát tìm vàng” trong một tập hợp
lớn các dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có
giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có
nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge
extraction(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data
archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu),
II. Khái niệm về Datamining.
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và
tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức
tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Khai phá dữ liệu là một bước của quá trình khai thác tri thức ( Knowledge Discovery
Process ) bao gồm:
– Làm sạch dữ liệu (data cleaning & preprocessing)s: Loại bỏ nhiễu và các dữ liệu không
cần thiết.
– Tích hợp dữ liệu: (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu

(data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (data cleaning &
preprocessing).
– Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này
bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete
data), .v.v.
– Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp
cho quá trình xử lý
– Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất,
trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
– Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm
được thông qua các độ đo nào đó.
– Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.
III. Một vài ví dụ cho quá trình dataming
Đầu tiên là câu hỏi tại sao kết quả tìm kiếm của Google lại khác nhau khi đăng
nhập và khi không đăng nhập? Tôi nghĩ đọc đến đây, có lẽ bạn đã có thể hình dung được
câu trả lời. Câu trả lời ngắn gọn là: Khi bạn đăng nhập Google biết bạn là ai, biết hành vi
trong quá khứ của bạn như thế nào (thông qua quá trình thu thập dữ liệu hành vi của bạn
trên các site mà Google hiện diện), do đó nó dựa vào sự hiểu biết này nên kết quả trả về
bao giờ cũng là kết quả có độ chính xác với nhu cầu của bạn cao nhất và ngược lại, khi
không đăng nhập, Google chỉ trả về kết quả ranking bình thường mà không có kèm theo
tham số ranking theo user. Và dĩ nhiên để biết được hành vi trong quá khứ của bạn,
Google phải sử dụng đến các công nghệ data mining.
Thứ hai, tại sao Facebook lại có thể gợi ý cho chúng ta toàn những người mà
chúng ta đã quen biết? Để có thể đưa ra gợi ý này đòi hỏi Facebook kết hợp rất nhiều các
tham số, cụ thể là những tham số gì thì là bí mật công nghệ riêng của FB. Tuy nhiên có
thể giải thích tóm lược như sau: Khi bạn đăng ký tài khoản Facebook, thông thường bạn
nhập thêm các thông tin khác như: quá trình làm việc ở các công ty, công ty bạn đang
làm, trường/lớp bạn đã/đang học, các hội bạn tham gia, bạn gái/trai/vợ/chồng của bạn

v.v Đây chính là các thông tin mà Facebook có thể dựa vào để xác định ai là bạn của
bạn. Ở đây, Facebook đã mô hình hóa các tham số có độ liên quan nhất định để đưa ra
những gợi ý mà có xác xuất đúng rất cao, và bạn thấy đó, thực sự là rất đúng :D. News
stream của Facebook còn phức tạp và hay ho hơn nữa. Tất các điều đó Facebook làm
được là quá trình thu thập dữ liệu hoạt động của người dùng trên site, sau đó sử dụng các
công nghệ data mining để cung cấp nội dung, tính năng phù hợp nhất cho người dùng.
Thứ ba, tại sao Amazon lại có thể đưa ra danh sách các quyển sách bán kèm có tỷ
lệ bán được cao như vậy? Để làm được điều này Amazon đã đầu tư phát triển hệ thống
recommendation trong hàng chục năm, thời gian dài đó không chỉ là phát triển thuần túy
công nghệ mà còn là quãng thời gian thu thập và phân tích hành vi người sử dụng trên
site của Amazon, thời gian càng dài, dữ liệu thu thập càng lớn, dẫn đến tập thông tin có
độ tương quan càng nhiều và càng chính xác. Nôm na bạn có thể hiểu là 100 khách hàng
mua quyển sách ABC thì có tới 40 khách hàng đồng thời mua quyển sách DEF, vì thế với
khách hàng 101 xem quyển ABC, hệ thống nhận diện và đưa ra gợi ý mua them quên
DEF, đơn giản là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để tăng độ tương
quan lên nữa. Và đây cũng là một quá trình mining dữ liệu.
IV. Các thành phần cơ bản của Datamining.
Công nghệ data mining là kết quả của quá trình lâu dài nghiên cứu và phát triển
sản phẩm. Quá trình này bắt đầu từ khi những dữ liệu đầu tiên lưu vào máy tính, tiếp đến
là quá trình cải tiến, nâng câp cách thức truy xuất dữ liệu và dần dần cho phép người
dùng có thể duyệt dữ liệu theo thời gian thực. Kết quả của quá trình này cho phép truy
xuất các nguồn dữ liệu quá khứ, tính toán và định vị lại việc truyền tải, cung cấp thông
tin cho hiện tại, tương lai hay đưa ra các dự đoán tình huống có thể sắp diễn ra.
Có ba kỹ thuật cơ bản nhưng rất tổng quát và đầy đủ trong công nghệ data mining:
Thu thập dữ liệu lớn. (Massive data collective).
Nền tảng sức mạnh tính toán. Đây chính là hạ tầng bao gồm cả phần cứng và phần
mềm lõi. (Powerful computing)
V. Các chức năng chính của khai phá dữ liệu.
Data Mining được chia nhỏ thành một số hướng chính như sau:
• Mô tả khái niệm (concept description): thiên về mô tả, tổng hợp và tóm tắt khái niệm.

Ví dụ: tóm tắt văn bản.
• Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản.
Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm
thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin-
sinh, tài chính & thị trường chứng khoán, .v.v.
• Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào một trong
những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp
cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định
(decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Người ta còn gọi phân lớp là
học có giám sát (học có thầy).
• Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng
như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám
sát (học không thầy).
• Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá
luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng
dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo
cao.
VI. Các giải thuật/thuật toán để khai thác dữ liệu.
(Data mining Algorithms)
Để có thể hiểu rõ hơn, tôi lấy ví dụ về hệ thống của VCC. Hệ thống thu thập dữ
liệu: từ các site nội bộ của VCC, lượng dữ liệu thu thập hàng ngày trung bình khoảng gần
200GB data, số bản ghi dao động từ 200 đến 700 triệu, thời điểm cao nhất đạt 1.8 tỷ bản
ghi được ghi nhận trong một ngày. Các dữ liệu thu thập bao gồm thông tin về ads item,
user-agent, user id, url v.v…
Nền tảng tính toán bao gồm hệ thống Hadoop Cluster, Datawarehouse và các
application server. Hệ thống Hadoop ứng dụng để giải các bài toán đòi hỏi phải xử lý
song song trên một khối lượng dữ liệu cực lớn (hàng TB data và chục tỷ bản ghi), hệ
thống DW ứng dụng để tính toán nhanh các dữ liệu nằm ở các khoảng thời gian ngắn,
lượng bản ghi tính toán khoảng dưới 1 tỷ, và cần tính nhanh. Nền tảng này kết hợp với
thành phần thứ ba dưới đây để giải các bài toán phân tích về hành vi người dùng, target,

re-targeting sản phẩm đúng đối tượng, xây dựng hệ thống recommendation v.v
Các thuật toán/giải thuật ứng dụng để khai thác dữ liệu: Hệ thống của VCC ứng
dụng khác nhiều các giải thuật/thuật toán khác nhau, tùy vào từng bài toán cụ thể. Ví dụ
với bài toán chống spam thì ứng dụng thuật toán Cosine Similarity, Bayesian,
Clustering… bài toán detect IP thì ứng dụng một số giải thuật tự nghiên cứu, hay bài toán
tính lượng unique user theo khoảng thời gian bất kỳ ứng dụng giải thuật Bloom filter
v.v…
VII. Một số công nghệ thường áp dụng trong data
mining:
Mạng trí tuệ nhân tạo (Artificial neural networks): Đây là mô hình mà hệ thống có
thể tự học thông qua đào tạo với tập dữ liệu ban đầu, từ đó suy đoán ra các tập kết quả từ
tập dữ liệu mà nó khai thác.
Cây quyết định (Decisions Trees): Một tập các decisions biểu diễn dưới dạng cây,
các decisions này tạo ra các luật cho việc phân loại tập dữ liệu. Nôm na là, nếu tập thông
tin A thõa mãn các luật B thì quyết định C.
Giải thuật di truyền (Generic Algorithms): Kỹ thuật này sử dụng trong các quá
trình phối hợp, biến đổi, chọn lọc tự nhiên kế thừa từ khái niệm tiến hóa.
Phương pháp ông hàng xóm gần nhất (Nearest neighbor method): Đây là kỹ thuật phân
loại từng bản ghi/thông tin trong tập dữ liệu dựa trên sự kết hợp của k records có độ
giống nhau nhất trong tập dữ liệu quá khứ.
Nguyên tắc suy diễn (Rule induction): Kỹ thuật bóc tác dữ liệu dựa trên nguyên
tắc Nếu-Thì từ các tập dữ liệu thống kê.
VIII. Phạm vi và ứng dụng.
Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh vực. Tuy vậy
có thể tóm lược lại phạm vi ứng dụng của data ming trong các bài toán yêu cầu có cần có
các chức năng/nghiệp vụ sau:
Tự động hóa việc dự doán các xu thế và hành vi sẽ diễn ra trong tương lai: Data
mining tự động hóa quá trình tìm kiếm và trích xuất các tập thông tin có mối quan hệ
hoặc tương quan trong một tập dữ liệu cực lớn. Những vấn đề/câu hỏi đặt ra với các cách
truyền thống đòi hỏi một quá trình rất phức tạp và tốn kém cả về tài chính và thời gian để

giải đáp thì giờ có thể trả lời một cách nhanh chóng trong khi giá thành là thấp nhất. Một
ví dụ đơn giản trong quảng cáo online là quá trình targeting, khi một người dùng click
vào một banner quảng cáo bán giầy dành cho nữ giới, thì khả năng người đó là nữ và họ
đang quan tâm đến đôi giầy đó, khi hệ thống nhận diện được điều này thì có thể target
thêm các kiểu dáng giầy khác nhau, kích cỡ khác nhau, giá thành khác nhau với mục tiêu
là người dùng sẽ kết thúc quá trình là mua một đôi giày, ngoài ra bởi vì hệ thống nhận
diện người dùng là phụ nữ nên nó có thể quảng cáo thêm các sản phẩm khác như mỹ
phẩm, quần áo v.v
Tự động hóa việc khám phá/nhận diện ra những tập thông tin quá khứ mà hệ thống
không/chưa biết: Công cụ data mining trong quá trình phân tích dữ liệu sẽ nhận diện ra
nhưng tập thông tin/dữ liệu không có hoặc bị ẩn bởi những mối liên hệ mà được xác định
trước. Ví dụ như trong việc bán hàng, có những sản phẩm không có mối liên hệ gì với
nhau, nhưng lại hay bán được cùng nhau, từ đó đưa ra cơ chế recommendation. Hay cơ
chế nhận diện giao dịch gian lận trong thanh toán điện tử dựa vào việc phân tích các giao
dịch bất thường…
Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty
lấy khách hàng làm trung tâm như truyền thông, tài chính, marketing, bán hàng, các
nghành công nghiệp sản xuất v.v… Nó cho phép các công ty xác định được các mối quan
hệ giữa các yếu tố nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ
năng của nhân viên công ty… các yếu tố bên ngoài như đối thủ cạnh tranh, chính sách
kinh tế hay nhu cầu thị trường v.v Và nó còn hỗ trợ việc xác định được sự tác động của
các chính sách khuyến mại, giảm giá, độ hài lòng của khách hàng và lợi nhuận của doanh
nghiệp…
Bên cạnh những ứng dụng trong kinh doanh, Datamining còn được ứng dụng
trong điều trị y học.
PHẦN 2: ỨNG DỤNG CỦA
DATAMINING.
Ngày nay, hầu hết các cơ quan, doanh nghiệp,… đều ứng dụng CNTT phục vụ
công tác quản lý điều hành, SX-KD. Mỗi đơn vị có thể tự xây dựng, trang bị cho mình
các ứng dụng đặc thù, các hệ thống quản lý, lưu trữ dữ liệu riêng,…Tuy nhiên, các kho

dữ liệu của các cơ quan, doanh nghiệp mới chỉ được sử dụng để lưu trữ, cập nhật, tra cứu
thông tin.
Để khai thác, khai phá các hệ thống dữ liệu hiện có nhằm phục vụ công tác dự
báo, dự đoán các xu thế tương lai,… như ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa
học, … Các công cụ, kỹ thuật data mining có thể trả lời các câu hỏi mà các công cụ
truyền thống đòi hỏi rất nhiều thời gian cần thiết để có thể giải đáp được (thậm chí các
cách truyền thống không thể giải được).
Để có thể data mining một cách hiệu quả, điều đầu tiên cần phải thu thập dữ liệu
và định nghĩa lại theo các tiêu chí cần phân tích. Các kỹ thuật data mining có thể cài đặt
rất nhanh chóng trên các nền tảng phần mềm, phần cứng phổ thông mà không cần đòi hỏi
quá phức tạp, tuy vậy data mining thường gắn liền với việc phân tích một khối lượng dữ
liệu cực lớn trong thời gian rất ngắn nên cần ứng dụng các công nghệ high performance
client/server hoặc xử lý song song (parallel programming).
Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh vực, nó tự
động hóa quá trình tìm kiếm và trích xuất các thông tin có mối quan hệ hoặc tương quan
trong một tập dữ liệu cực lớn; tự động hóa việc khám phá, nhận diện ra những tập thông
tin quá khứ không có hoặc bị ẩn bởi những mối liên hệ mà được xác định trước,… Ngày
nay, data mining được ứng dụng rộng rãi trong các công ty lấy khách hàng làm trung tâm
như truyền thông, tài chính, marketing, bán hàng, các ngành công nghiệp sản xuất v.v…
Nó cho phép các công ty xác định được các mối quan hệ giữa các yếu tố nội tại như giá
thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công ty,… các
yếu tố bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường v.v
Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm
giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp.
1. Ứng dụng Datamining trong phân tich rủi ro ở
ngân hàng ACB
Một ngân hàng ABC có dịch vụ cho vay dành cho người đi làm, trong số những
người vay tiền, tồn tại khả năng một số người không trả nợ (phá sản hay trốn nợ). Ngân
hàng có trong tay các bản ghi về khách hàng, độ tuổi, tình trạng hôn nhân, tình trạng nhà
cửa, mức thu nhập,…có trả nợ hay không trả nợ. Dữ liệu được thể hiện thành bảng như

sau:
Dựa vào bảng số liệu này, các thuật toán Data Mining sẽ phân tích dữ liệu và cho
ra các dự đoán về những yếu tố chính ảnh hưởng đến việc người vay trả tiền hay không
trả tiền, các thuật toán này còn cho ra được các mô hình phân tích rủi ro cho những người
vay tiếp theo, những ai sẽ có xác suất trốn nợ cao để Ngân hàng xiết chặt điều kiện khi
cho vay.
2. Ứng dụng Datamining trong kinh doanh đồ chơi
trẻ em.
Etoys là một ví dụ về khai thác mỏ dữ liệu trực tuyến. www.etoys.com bán các đồ
chơi trực tuyến. Trên web site này, khách tham quan có thể chọn ”toy search” (tìm
đồ chơi). Bằng cách sử dụng một pull down menu, khách tham quan có thể chọn
các tiêu chí cơ bản như tuổi của đứa bé, mức giá, và loại đồ chơi. Site khảo hàng
trực tuyến Etoys.com sau đó cung cấp cho khách hàng một danh sách các đồ chơi
đáp ứng các tiêu chí này, tiết kiệm cho họ thời gian, và sự hối hả khi phải đến cửa
hàng đồ chơi để mua quà cho con.
3. Ứng dụng trong kinh doanh siêu thị.
Trong siêu thị Big C, ngoài những đợt khuyến mãi giảm giá, siêu thị còn thành
công khi đã khai thác triệt để tâm lý khách hàng về những phương diện khác nhau chứ
không đơn thuần ở giá. Có những khách hàng sẵn sàng mua với giá không rẻ vì cho rằng
“ tiền nào của nấy ”. Siêu thị tập trung quan tâm thỏa đáng đến trật tự các mặt hàng trong
siêu thị trong phương châm “ phạm vi mặt hàng nhỏ ( cùng một mức độ giá ), bày biện
khoa học để dễ nhận biết và mua bán, thanh toán nhanh”. Ngoài ra, thanh toán được tổ
chức mau lẹ, thái độ phục vụ chu đáo khiến cho khách hàng có tâm lý thoải mái khi mua
hàng, tạo cho khách hàng tâm lý không ở đâu đáp ứng yêu cầu tốt bằng ở Big C.
4. Ứng dụng của datamining trong Viễn thông.
Dữ liệu chính.
Trong ngành viễn thông có một số dữ liệu chính như sau:
Dữ liệu chi tiết cuộc gọi ( call detail data )
Mỗi một cuộc gọi của khách hàng trên mạng viễn thông đều phát sinh một mẫu tin
chi tiết cuộc gọi. Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của

cuộc gọi như : số gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại. Thông thường
các dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng data mining
mà thường kết hợp với thông tin cá nhân khách hàng để tổng quát hóa thành thông tin về
hành vi sử dụng điện thoại của khách hàng.
Dữ liệu trạng thái mạng ( network data )
Mạng viễn thông có cấu hình rất phức tạp, được cấu trúc bởi hàng ngàn thiết bị
viễn thông kết nối với nhau. Các thông điệp trạng thái (status message) của mỗi thiết bị
phải được lưu trữ thành một kho dữ liệu trạng thái mạng (network data) và chúng được
phân tích theo trình tự để hỗ trợ chức năng quản lý mạng. Mỗi thông điệp trạng thái ít
nhất phải bao gồm thời gian phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiết
bị.
Dữ liệu khách hàng ( customer data )
Cũng như các lĩnh vực kinh doanh lớn khác, các thông tin về khách hàng cần được
lưu trữ để dùng cho các ứng dụng như tính cước, tiếp thị Thông tin về khách hàng bao
gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh
toán nợ, quá trình sử dụng các dịch vụ, thu nhập Thông thường dữ liệu khách hàng phải
được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng
uật data mining.
MỘT SỐ ỨNG DỤNG
Các ứng dụng data mining được phát triển trong ngành viễn thông rất sớm. Chúng
ta sẽ xem xét một vài ứng dụng tiêu biểu, các ứng dụng này được chia thành 3 nhóm ứng
dụng khác nhau : Phát hiện gian lận (fraud detection), các ứng dụng hỗ trợ tiếp thị và
quản lý khách hàng, cuối cùng là các ứng dụng về phát hiện và xử lý lỗi hệ thống mạng.
a. Phát hiện gian lận ( fraud detection ):
Gian lận là một trong những vấn đề nghiêm trọng của các công ty viễn thông, nó
có thể làm thất thoát hàng tỷ đồng mỗi năm. Có thể chia ra làm 2 hình thức gian lận khác
nhau thường xảy ra đối với các công ty viễn thông : Trường hợp thứ nhất xảy ra khi một
khách hàng đăng ký thuê bao với ý định không bao giờ thanh toán khoản chi phí sử dụng
dịch vụ. Trường hợp thứ hai liên quan đến một thuê bao hợp lệ nhưng lại có một số hoạt
động bất hợp pháp gây ra bởi một người khác. Những ứng dụng này sẽ thực hiện theo

thời gian thực bằng cách sử dụng dữ liệu chi tiết cuộc gọi, một khi xuất hiện một cuộc gọi
nghi ngờ gian lận, lập tức hệ thống phải có hành động ứng xử phù hợp, ví dụ như một
cảnh báo xuất hiện hoặc từ chối cuộc gọi nếu biết đó là cuộc gọi gian lận.
Hầu hết các phương thức nhận diện gian lận đều dựa trên hành vi sử dụng điện
thoại khách hàng trước kia so sánh với hành vi hiện tại để xác định xem đó là cuộc gọi
hợp lệ không.
b. Các ứng dụng quản lý và chăm sóc khách hàng
Các công ty viễn thông quản lý một khối lượng lớn dữ liệu về thông tin khách
hàng và dữ liệu về chi tiết cuộc gọi (call detail records). Những thông tin này có thể cho
ta nhận diện được những đặc tính của khách hàng và thông qua đó có thể đưa ra các
chính sách chăm sóc khách hàng thích hợp dựa trên dự đoán hoặc có một chiến lược tiếp
thị hiệu quả.
Một trong các ứng dụng data mining phổ biến dựa trên việc xem xét luật kết hợp
giữa các dịch vụ viễn thông khách hàng sử dụng. Hiện nay trên một đường điện thoại
khách hàng sử dụng rất nhiều dịch vụ khác nhau, ví dụ như : gọi điện thoại, truy cập
internet, tra cứu thông tin từ hộp thư tự động, nhắn tin, gọi 108, .v.v. Dựa trên cơ sở dữ
liệu khách hàng chúng ta có thể khám phá mối liên kết trong việc sử dụng các dịch vụ, có
thể đưa ra các luật như (khách hàng gọi điện thoai quốc tế) => (truy cập internet) .v.v.
Trên cơ sở phân tích được các luật như vậy các công ty viễn thông có thể điều chỉnh việc
bố trí nơi đăng ký các dịch vụ phù hợp, ví dụ điểm đăng ký điện thoại quốc tế nên bố trí
gần với điểm đăng ký Internet chẳng hạn.
Một ứng dụng phục vụ chiến lược marketing khác đó là dựa trên kỹ thuật luật kết
hợp của data mining để tìm ra tập các thành phố, tỉnh nào trong nước thường gọi điện
thoại với nhau. Ví dụ ta có thể tìm ra tập phổ biến ( Cần Thơ, HCM, Hà Nội ) chẳng hạn.
Điều này thật sự hữu dụng trong việc hoạch định chiến lược tiếp thị hoặc xây dựng các
vùng cước phù hợp.

Một vấn đề khá phổ biến ở các công ty viễn thông hiện là sự thay đổi nhà cung cấp
dịch vụ (customer churn) đặc biệt với các công ty điện thoại di động. Đây là vấn đề khá
nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao, cũng như doanh thu của các nhà

cung cấp dịch vụ. Thời gian gần đây các nhà cung cấp dịch vụ di động luôn có chính sách
khuyến mãi lớn để lôi kéo khách hàng. Điều đó dẫn đến một lượng không nhỏ khách
hàng thường xuyên thay đổi nhà cung cấp để hưởng những chính sách khuyến mãi đó. Kỹ
thuật data mining hiện nay có thể dựa trên dữ liệu tiền sử để tìm ra các quy luật, từ đó có
thể tiên đoán trước được khách hàng nào có ý định rời khỏi mạng trước khi họ thực hiện.
Dựa trên các kỹ thuật data mining như cây quyết định (decision tree), mạng nơ ron nhân
tạo (neural nerwork) trên dữ liệu cước (billing data), dữ liệu chi tiết cuộc gọi (call detail
data), dữ liệu khách hàng (customer data) tìm ra các quy luật mà dựa trên đó ta có thể tiên
đoán trước ý định rời khỏi mạng của khách hàng, từ đó công ty viễn thông sẽ có các ứng
xử phù hợp nhằm lôi kéo khách hàng.
Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng
(classifying). Dựa vào kỹ thuật data mining học trên cây quyết định (decision tree) trên
dữ liệu khách hàng và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng. Ví
dụ ta có thể phân biệt được khách hàng nào thuộc đối tượng kinh doanh hay nhà riêng
dựa vào các luật sau :
– Luật 1 : nếu không quá 43% cuộc gọi có thời gian từ 0 đến 10 giây và không đến 13%
cuộc gọi vào cuối tuần thì đó là khách hàng kinh doanh.
– Luật 2 : Nếu trong 2 tháng có các cuộc gọi đến hầu hết từ 3 mã vùng giống nhau và
<56,6% cuộc gọi từ 0-10 giây thì có là khách hàng nhà riêng.
Trên cơ sở tìm ra được các luật tương tự vậy, ta dể dàng phân loại khách hàng, để
từ đó có chính sách phân khúc thị trường hợp lý.
c. Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn
thông (Network fault isolation )
Mạng viễn thông là một cấu trúc cực kỳ phức tạp với nhiều hệ thống phần cứng và
phần mềm khác nhau. Phần lớn các thiết bị trên mạng có khả năng tự chuẩn đoán và cho
ra thông điệp trạng thái, cảnh báo lỗi (status and alarm message). Với mục tiêu là quản lý
hiệu quả và duy trì độ tin cậy của hệ thống mạng, các thông tin cảnh báo phải được phân
tích tự động và nhận diện lỗi trước khi xuất hiện làm giảm hiệu năng của mạng. Bởi vì số
lượng lớn các cảnh báo độc lập và có vẻ như không quan hệ gì với nhau nên vấn đề nhận
diện lỗi không ít khó khăn. Kỹ thuật data mining có vai trò sinh ra các luật giúp hệ thống

có thể phát hiện lỗi sớm hơn khi nó xảy ra. Kỹ thuật khai thác mẫu tuần tự
(sequential/temporal patterns) của data mining thường được ứng dụng trong lĩnh vực này
thông qua việc khai thác cơ sở dữ liệu trạng thái mạng (network data).
Kết luận
Data Mining đã được ứng dụng rất rộng rãi và thành công vào nhiều ngành khác nhau:
Khoa học Tự nhiên & Xã hội, Kinh doanh, Công nghệ thông tin, chuẩn đoán y học…
Trong ngành Công nghiệp, Data Mining cung cấp các công cụ hữu hiệu để giải thích các
hiện tượng cũng như dự đoán chính xác các sự kiện và có thể được dùng để điều tra sai
hỏng máy móc, khảo sát nhu cầu thị trường, thăm dò khách hàng,…
Nắm được các kỹ thuật về Data Mining sẽ giúp Doanh nghiệp có cái nhìn “sâu” hơn về
khách hàng và thị trường của mình, qua đó đưa ra các quyết định đúng đắn hơn nhằm đạt
hiệu quả tối đa.
Tài liệu tham khảo
[1] ĐỖ PHÚC. Giáo trình khai phá dữ liệu và data warehousing. Đại học quốc gia TP
HCM
[2] GARY M. WEISS. Data mining in telecommunicaton. Department of computer and
information science, Fordham university
[3] www. en.wikipedia.org
[4] www.tailieu.vn
các tài liệu khác trên internet
càng thông dụng. Đặc biệt là Datamining được sử dụng ngày càng nhiều và thành công xuất sắc vào những lĩnhvực khác nhau như : trong kinh doanh, trong chuẩn đoán y học, trong xã hội, trong côngnghiệp, …. Việc ứng dụng Datamining giúp cho những cơ quan, doanh nghiệp, … đưa ra cácquyết định đúng đắn, kịp thời, Dự kiến được những rủi ro đáng tiếc, xác lập người mua tiềmnăng, … Như vậy, chớp lấy được những kyc thuật về Datamining là rất quan trọng. Nhận thức được tầm quan trọng và sự ảnh hưởng tác động của Datamining, em tiến hànhnghiên cứu một vài ứng dụng của Datamining trong kinh doanh, trong viễn thông, … Qua đây, em chân thành cảm ơn Phó Giáo sư – Ts. Đỗ Phúc đã truyền đạt cho emnhững kỹ năng và kiến thức hữu dụng này. Chân thành cảm ơn ! PHẦN 1 : CƠ SỞ LÝ THUYẾTI. Giới thiệu. Khai phá dữ liệu ( datamining ) được định nghĩa như thể một quy trình chắt lọc hay khaiphá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thácvàng từ đá và cát, Dataming được ví như việc làm ” Đãi cát tìm vàng ” trong một tập hợplớn những dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ cógiá trị từ một số lượng lớn những dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng cónghĩa tựa như với từ Datamining như Knowledge Mining ( khai phá tri thức ), knowledgeextraction ( chắt lọc tri thức ), data / patern analysis ( nghiên cứu và phân tích dữ liệu / mẫu ), dataarchaeoloogy ( khảo cổ dữ liệu ), datadredging ( nạo vét dữ liệu ), II. Khái niệm về Datamining. Khai phá dữ liệu là một tập hợp những kỹ thuật được sử dụng để tự động hóa khai thác vàtìm ra những mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phứctạp, đồng thời cũng tìm ra những mẫu tiềm ẩn trong tập dữ liệu đó. Khai phá dữ liệu là một bước của quy trình khai thác tri thức ( Knowledge DiscoveryProcess ) gồm có : – Làm sạch dữ liệu ( data cleaning và preprocessing ) s : Loại bỏ nhiễu và những dữ liệu khôngcần thiết. – Tích hợp dữ liệu : ( data integration ) : quy trình hợp nhất dữ liệu thành những kho dữ liệu ( data warehouses và data marts ) sau khi đã làm sạch và tiền giải quyết và xử lý ( data cleaning và preprocessing ). – Trích chọn dữ liệu ( data selection ) : trích chọn dữ liệu từ những kho dữ liệuvà sau đó quy đổi về dạng thích hợp cho quy trình khai thác tri thức. Quá trình nàybao gồm cả việc giải quyết và xử lý với dữ liệu nhiễu ( noisy data ), dữ liệu không không thiếu ( incompletedata ) ,. v.v. – Chuyển đổi dữ liệu : Các dữ liệu được quy đổi sang những dạng phù hợpcho quy trình giải quyết và xử lý – Khai phá dữ liệu ( data mining ) : Là một trong những bước quan trọng nhất, trong đó sử dụng những giải pháp mưu trí để chắt lọc ra những mẫu dữ liệu. – Ước lượng mẫu ( knowledge evaluation ) : Quá trình nhìn nhận những tác dụng tìmđược trải qua những độ đo nào đó. – Biểu diễn tri thức ( knowledge presentation ) : Quá trình này sử dụng những kỹthuật để màn biểu diễn và bộc lộ trực quan cho người dùng. III. Một vài ví dụ cho quy trình datamingĐầu tiên là câu hỏi tại sao hiệu quả tìm kiếm của Google lại khác nhau khi đăngnhập và khi không đăng nhập ? Tôi nghĩ đọc đến đây, có lẽ rằng bạn đã hoàn toàn có thể tưởng tượng đượccâu vấn đáp. Câu vấn đáp ngắn gọn là : Khi bạn đăng nhập Google biết bạn là ai, biết hành vitrong quá khứ của bạn như thế nào ( trải qua quy trình thu thập dữ liệu hành vi của bạntrên những site mà Google hiện hữu ), do đó nó dựa vào sự hiểu biết này nên tác dụng trả vềbao giờ cũng là tác dụng có độ đúng mực với nhu yếu của bạn cao nhất và ngược lại, khikhông đăng nhập, Google chỉ trả về tác dụng ranking thông thường mà không có kèm theotham số ranking theo user. Và đương nhiên để biết được hành vi trong quá khứ của bạn, Google phải sử dụng đến những công nghệ tiên tiến data mining. Thứ hai, tại sao Facebook lại hoàn toàn có thể gợi ý cho tất cả chúng ta toàn những người màchúng ta đã quen biết ? Để hoàn toàn có thể đưa ra gợi ý này yên cầu Facebook phối hợp rất nhiều cáctham số, đơn cử là những tham số gì thì là bí hiểm công nghệ tiên tiến riêng của FB. Tuy nhiên cóthể lý giải tóm lược như sau : Khi bạn ĐK thông tin tài khoản Facebook, thường thì bạnnhập thêm những thông tin khác như : quy trình thao tác ở những công ty, công ty bạn đanglàm, trường / lớp bạn đã / đang học, những hội bạn tham gia, bạn gái / trai / vợ / chồng của bạnv. v Đây chính là những thông tin mà Facebook hoàn toàn có thể dựa vào để xác lập ai là bạn củabạn. Ở đây, Facebook đã quy mô hóa những tham số có độ tương quan nhất định để đưa ranhững gợi ý mà có xác xuất đúng rất cao, và bạn thấy đó, thực sự là rất đúng : D. Newsstream của Facebook còn phức tạp và hay ho hơn nữa. Tất những điều đó Facebook làmđược là quy trình thu thập dữ liệu hoạt động giải trí của người dùng trên site, sau đó sử dụng cáccông nghệ data mining để cung ứng nội dung, tính năng tương thích nhất cho người dùng. Thứ ba, tại sao Amazon lại hoàn toàn có thể đưa ra list những quyển sách bán kèm có tỷlệ bán được cao như vậy ? Để làm được điều này Amazon đã góp vốn đầu tư tăng trưởng hệ thốngrecommendation trong hàng chục năm, thời hạn dài đó không chỉ là tăng trưởng thuần túycông nghệ mà còn là quãng thời hạn tích lũy và nghiên cứu và phân tích hành vi người sử dụng trênsite của Amazon, thời hạn càng dài, dữ liệu tích lũy càng lớn, dẫn đến tập thông tin cóđộ đối sánh tương quan càng nhiều và càng đúng mực. Nôm na bạn hoàn toàn có thể hiểu là 100 khách hàngmua quyển sách ABC thì có tới 40 người mua đồng thời mua quyển sách DEF, vì vậy vớikhách hàng 101 xem quyển ABC, mạng lưới hệ thống nhận diện và đưa ra gợi ý mua them quênDEF, đơn thuần là vậy, tuy nhiên bên dưới còn có nhiều tham số khác để tăng độ tươngquan lên nữa. Và đây cũng là một quy trình mining dữ liệu. IV. Các thành phần cơ bản của Datamining. Công nghệ data mining là hiệu quả của quy trình lâu bền hơn điều tra và nghiên cứu và phát triểnsản phẩm. Quá trình này khởi đầu từ khi những dữ liệu tiên phong lưu vào máy tính, tiếp đếnlà quy trình nâng cấp cải tiến, nâng câp phương pháp truy xuất dữ liệu và từ từ được cho phép ngườidùng hoàn toàn có thể duyệt dữ liệu theo thời hạn thực. Kết quả của quy trình này được cho phép truyxuất những nguồn dữ liệu quá khứ, thống kê giám sát và xác định lại việc truyền tải, phân phối thôngtin cho hiện tại, tương lai hay đưa ra những Dự kiến trường hợp hoàn toàn có thể sắp diễn ra. Có ba kỹ thuật cơ bản nhưng rất tổng quát và vừa đủ trong công nghệ tiên tiến data mining : Thu thập dữ liệu lớn. ( Massive data collective ). Nền tảng sức mạnh đo lường và thống kê. Đây chính là hạ tầng gồm có cả phần cứng và phầnmềm lõi. ( Powerful computing ) V. Các công dụng chính của khai phá dữ liệu. Data Mining được chia nhỏ thành một số ít hướng chính như sau : • Mô tả khái niệm ( concept description ) : thiên về miêu tả, tổng hợp và tóm tắt khái niệm. Ví dụ : tóm tắt văn bản. • Luật kết hợp ( association rules ) : là dạng luật màn biểu diễn tri thứ ở dạng khá đơn thuần. Ví dụ : “ 60 % phái mạnh vào nhà hàng nếu mua bia thì có tới 80 % trong số họ sẽ mua thêmthịt bò khô ”. Luật phối hợp được ứng dụng nhiều trong nghành nghề dịch vụ kính doanh, y học, tin-sinh, kinh tế tài chính và đầu tư và chứng khoán ,. v.v. • Phân lớp và Dự kiến ( classification và prediction ) : xếp một đối tượng người dùng vào một trongnhững lớp đã biết trước. Ví dụ : phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếpcận này thường sử dụng 1 số ít kỹ thuật của machine learning như cây quyết định hành động ( decision tree ), mạng nơ ron tự tạo ( neural network ) ,. v.v. Người ta còn gọi phân lớp làhọc có giám sát ( học có thầy ). • Phân cụm ( clustering ) : xếp những đối tượng người tiêu dùng theo từng cụm ( số lượng cũngnhư tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giámsát ( học không thầy ). • Khai phá chuỗi ( sequential / temporal patterns ) : tương tự như như khai pháluật phối hợp nhưng có thêm tính thứ tự và tính thời hạn. Hướng tiếp cận này được ứngdụng nhiều trong nghành kinh tế tài chính và đầu tư và chứng khoán vì nó có tính dự báocao. VI. Các giải thuật / thuật toán để khai thác dữ liệu. ( Data mining Algorithms ) Để hoàn toàn có thể hiểu rõ hơn, tôi lấy ví dụ về mạng lưới hệ thống của VCC. Hệ thống tích lũy dữliệu : từ những site nội bộ của VCC, lượng dữ liệu tích lũy hàng ngày trung bình khoảng chừng gần200GB data, số bản ghi giao động từ 200 đến 700 triệu, thời gian cao nhất đạt 1.8 tỷ bảnghi được ghi nhận trong một ngày. Các dữ liệu tích lũy gồm có thông tin về ads item, user-agent, user id, url v.v … Nền tảng đo lường và thống kê gồm có mạng lưới hệ thống Hadoop Cluster, Datawarehouse và cácapplication server. Hệ thống Hadoop ứng dụng để giải những bài toán yên cầu phải xử lýsong tuy nhiên trên một khối lượng dữ liệu cực lớn ( hàng TB data và chục tỷ bản ghi ), hệthống DW ứng dụng để đo lường và thống kê nhanh những dữ liệu nằm ở những khoảng chừng thời hạn ngắn, lượng bản ghi đo lường và thống kê khoảng chừng dưới 1 tỷ, và cần tính nhanh. Nền tảng này tích hợp vớithành phần thứ ba dưới đây để giải những bài toán nghiên cứu và phân tích về hành vi người dùng, target, re-targeting loại sản phẩm đúng đối tượng người dùng, kiến thiết xây dựng mạng lưới hệ thống recommendation v.v Các thuật toán / giải thuật ứng dụng để khai thác dữ liệu : Hệ thống của VCC ứngdụng khác nhiều những giải thuật / thuật toán khác nhau, tùy vào từng bài toán đơn cử. Ví dụvới bài toán chống spam thì ứng dụng thuật toán Cosine Similarity, Bayesian, Clustering … bài toán detect IP thì ứng dụng một số ít giải thuật tự nghiên cứu và điều tra, hay bài toántính lượng unique user theo khoảng chừng thời hạn bất kể ứng dụng giải thuật Bloom filterv. v … VII. Một số công nghệ tiên tiến thường vận dụng trong datamining : Mạng trí tuệ tự tạo ( Artificial neural networks ) : Đây là quy mô mà mạng lưới hệ thống cóthể tự học trải qua đào tạo và giảng dạy với tập dữ liệu khởi đầu, từ đó suy đoán ra những tập kết quả từtập dữ liệu mà nó khai thác. Cây quyết định hành động ( Decisions Trees ) : Một tập những decisions màn biểu diễn dưới dạng cây, những decisions này tạo ra những luật cho việc phân loại tập dữ liệu. Nôm na là, nếu tập thôngtin A thõa mãn những luật B thì quyết định hành động C.Giải thuật di truyền ( Generic Algorithms ) : Kỹ thuật này sử dụng trong những quátrình phối hợp, biến hóa, tinh lọc tự nhiên kế thừa từ khái niệm tiến hóa. Phương pháp ông hàng xóm gần nhất ( Nearest neighbor method ) : Đây là kỹ thuật phânloại từng bản ghi / thông tin trong tập dữ liệu dựa trên sự phối hợp của k records có độgiống nhau nhất trong tập dữ liệu quá khứ. Nguyên tắc suy diễn ( Rule induction ) : Kỹ thuật bóc tác dữ liệu dựa trên nguyêntắc Nếu-Thì từ những tập dữ liệu thống kê. VIII. Phạm vi và ứng dụng. Phạm vi ứng dụng của data mining rất rộng, bao trùm hầu hết những nghành nghề dịch vụ. Tuy vậycó thể tóm lược lại khoanh vùng phạm vi ứng dụng của data ming trong những bài toán nhu yếu có cần cócác tính năng / nhiệm vụ sau : Tự động hóa việc dự doán những xu thế và hành vi sẽ diễn ra trong tương lai : Datamining tự động hóa quy trình tìm kiếm và trích xuất những tập thông tin có mối quan hệhoặc đối sánh tương quan trong một tập dữ liệu cực lớn. Những yếu tố / câu hỏi đặt ra với những cáchtruyền thống yên cầu một quy trình rất phức tạp và tốn kém cả về kinh tế tài chính và thời hạn đểgiải đáp thì giờ hoàn toàn có thể vấn đáp một cách nhanh gọn trong khi giá tiền là thấp nhất. Mộtví dụ đơn thuần trong quảng cáo trực tuyến là quy trình targeting, khi một người dùng clickvào một banner quảng cáo bán giầy dành cho phái đẹp, thì năng lực người đó là nữ và họđang chăm sóc đến đôi giầy đó, khi mạng lưới hệ thống nhận diện được điều này thì hoàn toàn có thể targetthêm những mẫu mã giầy khác nhau, kích cỡ khác nhau, giá tiền khác nhau với mục tiêulà người dùng sẽ kết thúc quy trình là mua một đôi giày, ngoài những chính do mạng lưới hệ thống nhậndiện người dùng là phụ nữ nên nó hoàn toàn có thể quảng cáo thêm những loại sản phẩm khác như mỹphẩm, quần áo v.v Tự động hóa việc mày mò / nhận diện ra những tập thông tin quá khứ mà hệ thốngkhông / chưa biết : Công cụ data mining trong quy trình nghiên cứu và phân tích dữ liệu sẽ nhận diện ranhưng tập thông tin / dữ liệu không có hoặc bị ẩn bởi những mối liên hệ mà được xác địnhtrước. Ví dụ như trong việc bán hàng, có những mẫu sản phẩm không có mối liên hệ gì vớinhau, nhưng lại hay bán được cùng nhau, từ đó đưa ra chính sách recommendation. Hay cơchế nhận diện thanh toán giao dịch gian lận trong giao dịch thanh toán điện tử dựa vào việc nghiên cứu và phân tích những giaodịch không bình thường … Ngày nay, những công nghệ tiên tiến data mining được ứng dụng thoáng đãng trong những công tylấy người mua làm TT như truyền thông online, kinh tế tài chính, marketing, bán hàng, cácnghành công nghiệp sản xuất v.v … Nó được cho phép những công ty xác lập được những mối quanhệ giữa những yếu tố nội tại như giá tiền, mẫu mã, phương pháp quảng cáo, thậm chí còn là kỹnăng của nhân viên cấp dưới công ty … những yếu tố bên ngoài như đối thủ cạnh tranh cạnh tranh đối đầu, chính sáchkinh tế hay nhu yếu thị trường v.v Và nó còn tương hỗ việc xác lập được sự ảnh hưởng tác động củacác chủ trương khuyến mại, giảm giá, độ hài lòng của người mua và doanh thu của doanhnghiệp … Bên cạnh những ứng dụng trong kinh doanh, Datamining còn được ứng dụngtrong điều trị y học. PHẦN 2 : ỨNG DỤNG CỦADATAMINING.Ngày nay, hầu hết những cơ quan, doanh nghiệp, … đều ứng dụng CNTT phục vụcông tác quản trị quản lý và điều hành, SX-KD. Mỗi đơn vị chức năng hoàn toàn có thể tự kiến thiết xây dựng, trang bị cho mìnhcác ứng dụng đặc trưng, những mạng lưới hệ thống quản trị, tàng trữ dữ liệu riêng, … Tuy nhiên, những khodữ liệu của những cơ quan, doanh nghiệp mới chỉ được sử dụng để tàng trữ, update, tra cứuthông tin. Để khai thác, khai phá những mạng lưới hệ thống dữ liệu hiện có nhằm mục đích ship hàng công tác làm việc dựbáo, Dự kiến những xu thế tương lai, … như ứng dụng tương hỗ ra quyết định hành động, điều tra và nghiên cứu khoahọc, … Các công cụ, kỹ thuật data mining hoàn toàn có thể vấn đáp những câu hỏi mà những công cụtruyền thống yên cầu rất nhiều thời hạn thiết yếu để hoàn toàn có thể giải đáp được ( thậm chí còn cáccách truyền thống cuội nguồn không hề giải được ). Để hoàn toàn có thể data mining một cách hiệu suất cao, điều tiên phong cần phải tích lũy dữ liệuvà định nghĩa lại theo những tiêu chuẩn cần nghiên cứu và phân tích. Các kỹ thuật data mining hoàn toàn có thể cài đặtrất nhanh gọn trên những nền tảng ứng dụng, phần cứng đại trà phổ thông mà không cần đòi hỏiquá phức tạp, tuy nhiên data mining thường gắn liền với việc nghiên cứu và phân tích một khối lượng dữliệu cực lớn trong thời hạn rất ngắn nên cần ứng dụng những công nghệ tiên tiến high performanceclient / server hoặc giải quyết và xử lý song song ( parallel programming ). Phạm vi ứng dụng của data mining rất rộng, bao trùm hầu hết những nghành nghề dịch vụ, nó tựđộng hóa quy trình tìm kiếm và trích xuất những thông tin có mối quan hệ hoặc tương quantrong một tập dữ liệu cực lớn ; tự động hóa việc mày mò, nhận diện ra những tập thôngtin quá khứ không có hoặc bị ẩn bởi những mối liên hệ mà được xác lập trước, … Ngàynay, data mining được ứng dụng thoáng rộng trong những công ty lấy người mua làm trung tâmnhư truyền thông online, kinh tế tài chính, marketing, bán hàng, những ngành công nghiệp sản xuất v.v … Nó được cho phép những công ty xác lập được những mối quan hệ giữa những yếu tố nội tại như giáthành, mẫu mã, phương pháp quảng cáo, thậm chí còn là kiến thức và kỹ năng của nhân viên cấp dưới công ty, … cácyếu tố bên ngoài như đối thủ cạnh tranh cạnh tranh đối đầu, chủ trương kinh tế tài chính hay nhu yếu thị trường v.v Và nó còn tương hỗ việc xác lập được sự ảnh hưởng tác động của những chủ trương khuyến mại, giảmgiá, độ hài lòng của người mua và doanh thu của doanh nghiệp. 1. Ứng dụng Datamining trong phân tich rủi ro đáng tiếc ởngân hàng ACBMột ngân hàng nhà nước ABC có dịch vụ cho vay dành cho người đi làm, trong số nhữngngười vay tiền, sống sót năng lực 1 số ít người không trả nợ ( phá sản hay trốn nợ ). Ngânhàng có trong tay những bản ghi về người mua, độ tuổi, thực trạng hôn nhân gia đình, thực trạng nhàcửa, mức thu nhập, … có trả nợ hay không trả nợ. Dữ liệu được biểu lộ thành bảng nhưsau : Dựa vào bảng số liệu này, những thuật toán Data Mining sẽ nghiên cứu và phân tích dữ liệu và chora những Dự kiến về những yếu tố chính tác động ảnh hưởng đến việc người vay trả tiền hay khôngtrả tiền, những thuật toán này còn cho ra được những quy mô nghiên cứu và phân tích rủi ro đáng tiếc cho những ngườivay tiếp theo, những ai sẽ có Xác Suất trốn nợ cao để Ngân hàng xiết chặt điều kiện kèm theo khicho vay. 2. Ứng dụng Datamining trong kinh doanh đồ chơitrẻ em. Etoys là một ví dụ về khai thác mỏ dữ liệu trực tuyến. www.etoys.com bán những đồchơi trực tuyến. Trên web site này, khách du lịch thăm quan hoàn toàn có thể chọn ‘ ‘ toy search ‘ ‘ ( tìmđồ chơi ). Bằng cách sử dụng một pull down menu, khách thăm quan hoàn toàn có thể chọncác tiêu chuẩn cơ bản như tuổi của đứa bé, mức giá, và loại đồ chơi. Site khảo hàngtrực tuyến Etoys. com sau đó phân phối cho người mua một list những đồ chơiđáp ứng những tiêu chuẩn này, tiết kiệm chi phí cho họ thời hạn, và sự quay quồng khi phải đến cửahàng đồ chơi để mua quà cho con. 3. Ứng dụng trong kinh doanh nhà hàng. Trong nhà hàng chợ giao thương Big C, ngoài những đợt khuyến mại giảm giá, siêu thị nhà hàng còn thànhcông khi đã khai thác triệt để tâm ý người mua về những phương diện khác nhau chứkhông đơn thuần ở giá. Có những người mua chuẩn bị sẵn sàng mua với giá không rẻ vì cho rằng “ tiền nào của nấy ”. Siêu thị tập trung chuyên sâu chăm sóc thỏa đáng đến trật tự những loại sản phẩm trongsiêu thị trong mục tiêu “ khoanh vùng phạm vi loại sản phẩm nhỏ ( cùng một mức độ giá ), bày biệnkhoa học để dễ phân biệt và mua và bán, giao dịch thanh toán nhanh ”. Ngoài ra, thanh toán giao dịch được tổchức mau lẹ, thái độ Giao hàng chu đáo khiến cho người mua có tâm ý tự do khi muahàng, tạo cho người mua tâm ý không ở đâu phân phối nhu yếu tốt bằng ở Big C. 4. Ứng dụng của datamining trong Viễn thông. Dữ liệu chính. Trong ngành viễn thông có 1 số ít dữ liệu chính như sau : Dữ liệu cụ thể cuộc gọi ( call detail data ) Mỗi một cuộc gọi của người mua trên mạng viễn thông đều phát sinh một mẫu tinchi tiết cuộc gọi. Các mẫu tin này gồm có những thông tin đặc tả thuộc tính quan trọng củacuộc gọi như : số gọi, số bị gọi, thời hạn khởi đầu và thời hạn đàm thoại. Thông thườngcác dữ liệu cụ thể cuộc gọi không được sử dụng trực tiếp cho những ứng dụng data miningmà thường tích hợp với thông tin cá thể người mua để tổng quát hóa thành thông tin vềhành vi sử dụng điện thoại cảm ứng của người mua. Dữ liệu trạng thái mạng ( network data ) Mạng viễn thông có thông số kỹ thuật rất phức tạp, được cấu trúc bởi hàng ngàn thiết bịviễn thông liên kết với nhau. Các thông điệp trạng thái ( status message ) của mỗi thiết bịphải được tàng trữ thành một kho dữ liệu trạng thái mạng ( network data ) và chúng đượcphân tích theo trình tự để tương hỗ công dụng quản trị mạng. Mỗi thông điệp trạng thái ítnhất phải gồm có thời hạn phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiếtbị. Dữ liệu người mua ( customer data ) Cũng như những nghành nghề dịch vụ kinh doanh lớn khác, những thông tin về người mua cần đượclưu trữ để dùng cho những ứng dụng như tính cước, tiếp thị tin tức về người mua baogồm số điện thoại cảm ứng, họ tên, địa chỉ và những thuộc tính quan trọng khác như quy trình thanhtoán nợ, quy trình sử dụng những dịch vụ, thu nhập Thông thường dữ liệu người mua phảiđược phối hợp với những dữ liệu khác, ( ví dụ như dữ liệu cụ thể cuộc gọi ) trong khi sử dụnguật data mining. MỘT SỐ ỨNG DỤNGCác ứng dụng data mining được tăng trưởng trong ngành viễn thông rất sớm. Chúngta sẽ xem xét một vài ứng dụng tiêu biểu vượt trội, những ứng dụng này được chia thành 3 nhóm ứngdụng khác nhau : Phát hiện gian lận ( fraud detection ), những ứng dụng tương hỗ tiếp thị vàquản lý người mua, ở đầu cuối là những ứng dụng về phát hiện và giải quyết và xử lý lỗi mạng lưới hệ thống mạng. a. Phát hiện gian lận ( fraud detection ) : Gian lận là một trong những yếu tố nghiêm trọng của những công ty viễn thông, nócó thể làm thất thoát hàng tỷ đồng mỗi năm. Có thể chia ra làm 2 hình thức gian lận khácnhau thường xảy ra so với những công ty viễn thông : Trường hợp thứ nhất xảy ra khi mộtkhách hàng ĐK thuê bao với dự tính không khi nào giao dịch thanh toán khoản ngân sách sử dụngdịch vụ. Trường hợp thứ hai tương quan đến một thuê bao hợp lệ nhưng lại có một số ít hoạtđộng phạm pháp gây ra bởi một người khác. Những ứng dụng này sẽ thực thi theothời gian thực bằng cách sử dụng dữ liệu cụ thể cuộc gọi, một khi Open một cuộc gọinghi ngờ gian lận, lập tức mạng lưới hệ thống phải có hành vi ứng xử tương thích, ví dụ như mộtcảnh báo Open hoặc khước từ cuộc gọi nếu biết đó là cuộc gọi gian lận. Hầu hết những phương pháp nhận diện gian lận đều dựa trên hành vi sử dụng điệnthoại người mua trước kia so sánh với hành vi hiện tại để xác lập xem đó là cuộc gọihợp lệ không. b. Các ứng dụng quản trị và chăm nom khách hàngCác công ty viễn thông quản trị một khối lượng lớn dữ liệu về thông tin kháchhàng và dữ liệu về chi tiết cụ thể cuộc gọi ( call detail records ). Những thông tin này hoàn toàn có thể chota nhận diện được những đặc tính của người mua và trải qua đó hoàn toàn có thể đưa ra cácchính sách chăm nom người mua thích hợp dựa trên Dự kiến hoặc có một kế hoạch tiếpthị hiệu suất cao. Một trong những ứng dụng data mining phổ cập dựa trên việc xem xét luật kết hợpgiữa những dịch vụ viễn thông người mua sử dụng. Hiện nay trên một đường điện thoạikhách hàng sử dụng rất nhiều dịch vụ khác nhau, ví dụ như : gọi điện thoại thông minh, truy cậpinternet, tra cứu thông tin từ hộp thư tự động hóa, gửi tin nhắn, gọi 108 ,. v.v. Dựa trên cơ sở dữliệu người mua tất cả chúng ta hoàn toàn có thể mày mò mối link trong việc sử dụng những dịch vụ, cóthể đưa ra những luật như ( người mua gọi điện thoai quốc tế ) => ( truy vấn internet ). v.v. Trên cơ sở nghiên cứu và phân tích được những luật như vậy những công ty viễn thông hoàn toàn có thể kiểm soát và điều chỉnh việcbố trí nơi ĐK những dịch vụ tương thích, ví dụ điểm ĐK điện thoại thông minh quốc tế nên bố trígần với điểm ĐK Internet ví dụ điển hình. Một ứng dụng Giao hàng kế hoạch marketing khác đó là dựa trên kỹ thuật luật kếthợp của data mining để tìm ra tập những thành phố, tỉnh nào trong nước thường gọi điệnthoại với nhau. Ví dụ ta hoàn toàn có thể tìm ra tập phổ cập ( Cần Thơ, TP HCM, TP.HN ) ví dụ điển hình. Điều này thật sự hữu dụng trong việc hoạch định kế hoạch tiếp thị hoặc kiến thiết xây dựng cácvùng cước tương thích. Một yếu tố khá thông dụng ở những công ty viễn thông hiện là sự biến hóa nhà cung cấpdịch vụ ( customer churn ) đặc biệt quan trọng với những công ty điện thoại di động. Đây là yếu tố khánghiêm trọng tác động ảnh hưởng đến vận tốc tăng trưởng thuê bao, cũng như lệch giá của những nhàcung cấp dịch vụ. Thời gian gần đây những nhà sản xuất dịch vụ di động luôn có chính sáchkhuyến mãi lớn để lôi kéo người mua. Điều đó dẫn đến một lượng không nhỏ kháchhàng tiếp tục biến hóa nhà phân phối để hưởng những chủ trương khuyến mại đó. Kỹthuật data mining lúc bấy giờ hoàn toàn có thể dựa trên dữ liệu tiền sử để tìm ra những quy luật, từ đó cóthể tiên đoán trước được người mua nào có dự tính rời khỏi mạng trước khi họ triển khai. Dựa trên những kỹ thuật data mining như cây quyết định hành động ( decision tree ), mạng nơ ron nhântạo ( neural nerwork ) trên dữ liệu cước ( billing data ), dữ liệu cụ thể cuộc gọi ( call detaildata ), dữ liệu người mua ( customer data ) tìm ra những quy luật mà dựa trên đó ta hoàn toàn có thể tiênđoán trước dự tính rời khỏi mạng của người mua, từ đó công ty viễn thông sẽ có những ứngxử tương thích nhằm mục đích lôi kéo người mua. Cuối cùng, một ứng dụng cũng rất phổ cập đó là phân lớp người mua ( classifying ). Dựa vào kỹ thuật data mining học trên cây quyết định hành động ( decision tree ) trêndữ liệu người mua và cụ thể cuộc gọi hoàn toàn có thể tìm ra những luật để phân loại người mua. Vídụ ta hoàn toàn có thể phân biệt được người mua nào thuộc đối tượng người tiêu dùng kinh doanh hay nhà riêngdựa vào những luật sau : – Luật 1 : nếu không quá 43 % cuộc gọi có thời hạn từ 0 đến 10 giây và không đến 13 % cuộc gọi vào cuối tuần thì đó là người mua kinh doanh. – Luật 2 : Nếu trong 2 tháng có những cuộc gọi đến hầu hết từ 3 mã vùng giống nhau và < 56,6 % cuộc gọi từ 0-10 giây thì có là người mua nhà riêng. Trên cơ sở tìm ra được những luật tương tự như vậy, ta dể dàng phân loại người mua, đểtừ đó có chủ trương phân khúc thị trường hợp lý. c. Các ứng dụng phát hiện và cô lập lỗi trên mạng lưới hệ thống mạng viễnthông ( Network fault isolation ) Mạng viễn thông là một cấu trúc cực kỳ phức tạp với nhiều mạng lưới hệ thống phần cứng vàphần mềm khác nhau. Phần lớn những thiết bị trên mạng có năng lực tự chuẩn đoán và chora thông điệp trạng thái, cảnh báo nhắc nhở lỗi ( status and alarm message ). Với tiềm năng là quản lýhiệu quả và duy trì độ an toàn và đáng tin cậy của mạng lưới hệ thống mạng, những thông tin cảnh báo nhắc nhở phải được phântích tự động hóa và nhận diện lỗi trước khi Open làm giảm hiệu năng của mạng. Bởi vì sốlượng lớn những cảnh báo nhắc nhở độc lập và có vẻ như như không quan hệ gì với nhau nên yếu tố nhậndiện lỗi không ít khó khăn vất vả. Kỹ thuật data mining có vai trò sinh ra những luật giúp hệ thốngcó thể phát hiện lỗi sớm hơn khi nó xảy ra. Kỹ thuật khai thác mẫu tuần tự ( sequential / temporal patterns ) của data mining thường được ứng dụng trong nghành nghề dịch vụ nàythông qua việc khai thác cơ sở dữ liệu trạng thái mạng ( network data ). Kết luậnData Mining đã được ứng dụng rất thoáng rộng và thành công xuất sắc vào nhiều ngành khác nhau : Khoa học Tự nhiên và Xã hội, Kinh doanh, Công nghệ thông tin, chuẩn đoán y học … Trong ngành Công nghiệp, Data Mining phân phối những công cụ hữu hiệu để lý giải cáchiện tượng cũng như Dự kiến đúng chuẩn những sự kiện và hoàn toàn có thể được dùng để tìm hiểu saihỏng máy móc, khảo sát nhu yếu thị trường, thăm dò người mua, … Nắm được những kỹ thuật về Data Mining sẽ giúp Doanh nghiệp có cái nhìn “ sâu ” hơn vềkhách hàng và thị trường của mình, qua đó đưa ra những quyết định hành động đúng đắn hơn nhằm mục đích đạthiệu quả tối đa. Tài liệu tìm hiểu thêm [ 1 ] ĐỖ PHÚC. Giáo trình khai phá dữ liệu và data warehousing. Đại học vương quốc Thành Phố Hồ Chí Minh [ 2 ] GARY M. WEISS. Data mining in telecommunicaton. Department of computer andinformation science, Fordham university [ 3 ] www. en.wikipedia.org [ 4 ] www.tailieu. vncác tài liệu khác trên internet

Rate this post
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments