嵌入式數(shù)據(jù)挖掘模型及其在銀行卡業(yè)務(wù)中的應(yīng)用

作者：時(shí)間：2013-11-21 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢(xún)

本文引用地址：http://www.butianyuan.cn/article/257004.htm

針對(duì)現(xiàn)有數(shù)據(jù)挖掘體系結(jié)構(gòu)松散揭合、算法運(yùn)行效率不高的問(wèn)題，提出了嵌入式數(shù)據(jù)挖掘模型。該模型實(shí)現(xiàn)了算法的組件化管理，并將整個(gè)數(shù)據(jù)挖掘流程控制在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)中，在簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的同時(shí)，大大提高了數(shù)據(jù)挖掘的效率。通過(guò)對(duì)幾種典型數(shù)據(jù)挖掘算法在銀行卡業(yè)務(wù)數(shù)據(jù)中的試驗(yàn)，證實(shí)了該模型的有效性和實(shí)用性。

數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或者其他信息庫(kù)中的大量數(shù)據(jù)中挖掘有趣知識(shí)的過(guò)程。它是在多種數(shù)據(jù)存儲(chǔ)方式的基礎(chǔ)上，借助有效的分析方法和工具，從傳統(tǒng)的事務(wù)型數(shù)據(jù)庫(kù)功能（增加、刪除、修改、查詢(xún)、統(tǒng)計(jì)等）背后，獲得更深層次的信息。在數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展過(guò)程中，如何將數(shù)據(jù)挖掘（DM）系統(tǒng)與數(shù)據(jù)庫(kù)（DB）系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)（DW）系統(tǒng)緊密耦合（所謂耦合，即是數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)的集成程度）在一起是始終困擾著人們?cè)O(shè)計(jì)一個(gè)好的數(shù)據(jù)挖掘工具的最大問(wèn)題。從最初的不耦合到松散耦合再到半緊密耦合，人們一直尋求著如何將DM系統(tǒng)平滑的集成到DB/DW中（即緊密藕合）。目前眾多數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)挖掘工具中，大部分都是實(shí)現(xiàn)一個(gè)與數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)獨(dú)立開(kāi)來(lái)的數(shù)據(jù)挖掘系統(tǒng)，這樣便使得數(shù)據(jù)挖掘過(guò)程中要花費(fèi)大量的時(shí)間進(jìn)行數(shù)據(jù)加載轉(zhuǎn)換，算法運(yùn)行時(shí)間長(zhǎng)、效率低，特別是面對(duì)當(dāng)前數(shù)據(jù)倉(cāng)庫(kù)中保存的海量數(shù)據(jù)時(shí)，更是效率低下。

文中在已有的數(shù)據(jù)挖掘系統(tǒng)體系基礎(chǔ)上，應(yīng)用數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)緊密耦合的策略，提出了嵌入式數(shù)據(jù)挖模型，把數(shù)據(jù)挖掘系統(tǒng)和整個(gè)數(shù)據(jù)挖掘流程完全控制在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中，從而大大提高數(shù)據(jù)挖掘的效率。并且針對(duì)市面的一些用于銀行卡業(yè)務(wù)的數(shù)據(jù)挖掘系統(tǒng)過(guò)于繁瑣，但是效率不高、針對(duì)性不強(qiáng)等問(wèn)題，本文提出將嵌入式數(shù)據(jù)挖掘應(yīng)用于銀行卡業(yè)務(wù)中，使得應(yīng)用針對(duì)性更強(qiáng)，在節(jié)約了開(kāi)發(fā)成本的同時(shí)也提高了挖掘效率。

1嵌入式數(shù)據(jù)挖掘模型

嵌入式數(shù)據(jù)挖掘模型主要是采用多種數(shù)據(jù)庫(kù)訪問(wèn)技術(shù)把算法嵌入到數(shù)據(jù)挖掘系統(tǒng)中。該模型支持按照一定的標(biāo)準(zhǔn)規(guī)范來(lái)開(kāi)發(fā)挖掘算法，并把算法發(fā)布嵌入到多種數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中，將數(shù)據(jù)挖掘過(guò)程完全控制在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中，將數(shù)據(jù)挖掘功能轉(zhuǎn)換成大家熟悉的、通用的、靈活的、可二次開(kāi)發(fā)的數(shù)據(jù)倉(cāng)庫(kù)功能。

該系統(tǒng)框架主要由數(shù)據(jù)層、算法嵌入層、數(shù)據(jù)挖掘?qū)右约坝脩?hù)層，系統(tǒng)模型如圖1所示。

1.1數(shù)據(jù)層和用戶(hù)層數(shù)據(jù)層

主要包括數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的海量業(yè)務(wù)數(shù)據(jù)以及元數(shù)據(jù)，它是數(shù)據(jù)挖掘過(guò)程中最基礎(chǔ)的部分。

在該模型中，用戶(hù)層包括算法發(fā)布人員、數(shù)據(jù)分析人員、數(shù)據(jù)庫(kù)管理人員，即使得數(shù)據(jù)挖掘面向更多的用戶(hù)，擺脫了以前數(shù)據(jù)挖掘?qū)?zhuān)業(yè)人士的過(guò)多依賴(lài)性。

1.2算法嵌入層

整個(gè)嵌入流程可以分為兩個(gè)過(guò)程：算法發(fā)布和算法調(diào)用。算法發(fā)布過(guò)程主要是把算法發(fā)布到特定的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中，為數(shù)據(jù)挖掘系統(tǒng)在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的執(zhí)行奠下基礎(chǔ)；算法調(diào)用過(guò)程則是在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中進(jìn)行的，主要通過(guò)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中的存儲(chǔ)過(guò)程，讓用戶(hù)傳人相關(guān)參數(shù)，然后調(diào)用第一步發(fā)布的算法對(duì)用戶(hù)指定的數(shù)據(jù)進(jìn)行挖掘。

1）算法發(fā)布算法發(fā)布過(guò)程首先就是把算法封裝成DLL文件，同時(shí)把調(diào)用算法的接口編譯成EXE文件，然后把算法DLL文件和相應(yīng)的EXE文件發(fā)布到數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中，最后在相應(yīng)的數(shù)據(jù)庫(kù)中創(chuàng)建存儲(chǔ)過(guò)程（簡(jiǎn)稱(chēng)SP），流程如圖2所示。

2）算法調(diào)用在調(diào)用過(guò)程中，由于不同數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的存儲(chǔ)過(guò)程的功能大小不同，不同數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)對(duì)EXE文件，DLL文件的調(diào)用方式都有很大的區(qū)別，所以具體的實(shí)現(xiàn)細(xì)節(jié)在不同數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)下還是有很大的區(qū)別的。在該模型中，數(shù)據(jù)倉(cāng)庫(kù)終端調(diào)用存儲(chǔ)過(guò)程（SP），把算法參數(shù)和用戶(hù)參數(shù)傳進(jìn)存儲(chǔ)過(guò)程，然后讓存儲(chǔ)過(guò)程調(diào)用EXE文件，EXE文件主要是處理存儲(chǔ)過(guò)程傳入的參數(shù)，然后調(diào)用DLL算法生成挖掘結(jié)果。具體流程如圖3所示。

1.3數(shù)據(jù)挖掘?qū)?br />
1）預(yù)處理模塊數(shù)據(jù)預(yù)處理在數(shù)據(jù)倉(cāng)庫(kù)（或數(shù)據(jù)庫(kù)）中進(jìn)行，主要有兩個(gè)途徑可以實(shí)現(xiàn)：一種是直接利用數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)（SQL等）來(lái)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)表進(jìn)行加工處理，還有一種就是像挖掘算法一樣，用高級(jí)語(yǔ)言實(shí)現(xiàn)，然后嵌入到數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中，用戶(hù)就可以像一般的存儲(chǔ)過(guò)程一樣調(diào)用相應(yīng)的預(yù)處理方法來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。這兩種預(yù)處理可以相互循環(huán)使用，直到加工滿意的數(shù)據(jù)為止。

2）結(jié)果處理模塊結(jié)果處理流程其實(shí)和算法凋用過(guò)程是同時(shí)進(jìn)行的，在EXE文件中通過(guò)數(shù)據(jù)庫(kù)訪問(wèn)技術(shù)獲取數(shù)據(jù)，在EXE中調(diào)用DLL算法產(chǎn)生文本結(jié)果返回到EXE文件中。這時(shí)候，這個(gè)文本結(jié)果可以經(jīng)過(guò)加工處理寫(xiě)回?cái)?shù)據(jù)倉(cāng)庫(kù)，同時(shí)也可以展示給用戶(hù)。具體如圖4所示。分析處理后，生成結(jié)果表查詢(xún)結(jié)果。

linux操作系統(tǒng)文章專(zhuān)題:linux操作系統(tǒng)詳解（linux不再難懂）

新聞中心

嵌入式數(shù)據(jù)挖掘模型及其在銀行卡業(yè)務(wù)中的應(yīng)用

評(píng)論

相關(guān)推薦

技術(shù)專(zhuān)區(qū)