基于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究
國際互聯(lián)網(wǎng)絡(luò)的日益普及,各種形式的信息大量地產(chǎn)生和收集導(dǎo)致了信息爆炸?,F(xiàn)代社會的競爭趨勢要求對這些信息進行實時的和深層次的分析,雖然現(xiàn)在有了更強大的信息存儲和檢索系統(tǒng).但是用戶在分析和使用所擁有的信息方面卻變得越來越困難。如何對大量信息進行有效組織利用,使用戶能夠從大量繁雜的信息中找出真正有價值的信息和知識,幫助企業(yè)制定更好的營銷策略。信息處理技術(shù)有了新的應(yīng)用研究課題――數(shù)據(jù)挖掘。主要討論采用數(shù)據(jù)挖掘技術(shù)在新興的電子商務(wù)領(lǐng)域的應(yīng)用研究。
2 電子商務(wù)與數(shù)據(jù)挖掘簡介
電子商務(wù)是指個人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購、網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。服務(wù)范圍可歸類為:①商業(yè)一商業(yè)(B2B),②商業(yè)一消費者(B2C),③商業(yè)一政府(B2G)。
數(shù)據(jù)挖掘是通過挖掘數(shù)據(jù)倉庫中存儲的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關(guān)聯(lián)模式和趨勢的過程。從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測模型而不是回顧型的模型。利用功能強大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場競爭中獲得優(yōu)勢地位。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的不同是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和可實用3個特征。
3 數(shù)據(jù)挖掘在電子商務(wù)中的作用
數(shù)據(jù)挖掘技術(shù)之所以可以服務(wù)電子商務(wù),是因為它能夠挖掘出活動過程中的潛在信息以指導(dǎo)電子商務(wù)營銷活動。在電子商務(wù)中其作用有4個方面:
(1)挖掘客戶活動規(guī)律,針對性的在電子商務(wù)平臺下以提供“個性化”的服務(wù)。
(2)可以在瀏覽電子商務(wù)網(wǎng)站的訪問者中挖掘出潛在的客戶。
(3)優(yōu)化電子商務(wù)網(wǎng)站巾的信息導(dǎo)航,方便客戶瀏覽。
(4)通過電子商務(wù)訪問者的活動信息的挖掘,可以更加深入的了解客戶需求。
4 數(shù)據(jù)挖掘過程
電子商務(wù)中的數(shù)據(jù)挖掘的過程一般由3個主要的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評價。
(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對象。即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換f如把連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號歸納;或是把離散性數(shù)據(jù)轉(zhuǎn)換為連續(xù)型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡(luò)計算)以及對數(shù)據(jù)降維f即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘要考慮的變量個數(shù))。
(2)數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識類型。確定挖掘任務(wù)后,根據(jù)挖掘的知識類型選擇合適的挖掘算法;最后實施數(shù)據(jù)挖掘操作,運用選定的挖掘算法從數(shù)據(jù)庫中抽取所需的知識。
(3)結(jié)果的解釋和評價數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識,經(jīng)過評估,可能存在冗余或無關(guān)的知識,這時需要將其剔除:也有可能知識不滿足用戶的要求,需要重復(fù)上述挖掘過程重新進行挖掘。另外,由于數(shù)據(jù)挖掘最終要面臨用戶.因此。還需要對所挖掘的知識進行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。
可以看出,以上整個數(shù)據(jù)挖掘過程是不斷地循環(huán)和反復(fù)的,因而可以對所挖掘出來的知識不斷求精和深化。最終達(dá)到用戶所滿意的結(jié)果。
5 電子商務(wù)中數(shù)據(jù)挖掘的技術(shù)與方法
數(shù)據(jù)挖掘源于人工智能。它利用人工智能中成熟的技術(shù)和方法對經(jīng)過處理的數(shù)據(jù)進行分析,其利用的技術(shù)方法越多,所得到的信息也就越精確。在電子商務(wù)中主要應(yīng)用的數(shù)據(jù)挖掘技術(shù)和方法有:
(1)聚類分析聚類分析可在電子商務(wù)過程中從Web查找信息中聚集出具有相似特性的客戶。劃分出客戶群后,能夠幫助企業(yè)開發(fā)和執(zhí)行其市場策略,Web可根據(jù)客戶群提供特定的服務(wù)。
(2)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫中集之間的關(guān)聯(lián)關(guān)系,這些關(guān)聯(lián)關(guān)系可以幫助許多商務(wù)決策的制定。
(3)分類規(guī)則分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。其目的是把新的記錄分配到預(yù)先定義好的類中。
(4)時間序列模式的發(fā)現(xiàn)按時間順序查看時間事件數(shù)據(jù)庫,從中找出另一個或多個相似的時序事件,通過時間序列搜索出重復(fù)發(fā)生概率較高的模式。發(fā)現(xiàn)序列模式便于進行電子商務(wù)組織預(yù)測客戶的查找模式,從而對客戶進行針對性的服務(wù)。在時序模式中,一個重要影響的方法是相似時序。
(5)偏差分析描述和分析數(shù)據(jù)的異?;驑O端現(xiàn)象,包括不規(guī)則數(shù)據(jù)、反常實例和觀測結(jié)果與期望值的偏離等。主要用于分析客戶異常行為、信用欺詐甄別和數(shù)據(jù)質(zhì)量控制。以及網(wǎng)絡(luò)安全管理和故障檢測等領(lǐng)域。
(6)預(yù)測與評價對歷史數(shù)據(jù)進行綜合分析和歸納.推理出數(shù)據(jù)分布的時效性和規(guī)律性,從而對未來事件發(fā)展的趨勢和結(jié)果進行預(yù)測和評估。
6 電子商務(wù)中挖掘信息的目標(biāo)
(1)幫助企業(yè)確定營銷機制在電子商務(wù)中,商業(yè)信息來自各個渠道,這些數(shù)據(jù)信息經(jīng)過數(shù)據(jù)挖掘處理技術(shù)進行處理后,可從中得到用于特定消費群體或個人定向營銷的決策信息,以確定電子商務(wù)的營銷機制?;跀?shù)據(jù)挖掘的電子商務(wù)營銷,常??梢韵蛳M者發(fā)出與以前的消費行為相關(guān)的推銷材料,數(shù)據(jù)挖掘的電子商務(wù)營銷對于我國當(dāng)前情況下的市場競爭具有啟發(fā)意義。經(jīng)??梢钥匆姺比A商業(yè)街上一些廠商對行人不分對象的散發(fā)大量商品宣傳廣告。其結(jié)果是不需要的人隨手丟棄,而需要的人未必能夠得到。如果家電維修服務(wù)公司向在商店中剛購買家電的消費者郵寄維修服務(wù)廣告。藥品廠商向剛在醫(yī)院門診就醫(yī)的特定病人郵寄廣告,其效果肯定比漫無目的的營銷效果要好很多。
評論