資料探勘是什麼,什麼是資料探勘?

2022-03-02 17:42:07 字數 5490 閱讀 5736

1樓:派可資料

資料探勘(data mining)是指通過大量資料集進行分類的自動化過程,以通過資料分析來識別趨勢和模式,建立關係來解決業務問題。換句話說,資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。

通常我們把資訊轉化為價值,要經歷資訊、資料、知識、價值四個層面,資料探勘就是中間的重要環節,是從資料中發現知識的過程。

2樓:美林資料

分類是在一群已經知道類別標號的樣本中,訓練一種分類器,讓其能夠對某種未知的樣本進行分類。分類演算法的分類過程就是建立一種分類模型來描述預定的資料集或概念集,通過分析由屬性描述的資料庫元組來構造模型。

3樓:尊威天下網路

簡單地說,資料探勘是從大量資料中提取或『挖掘』知識。該術語實際上有點用詞不當。資料探勘應當更正確地命名為『從資料中挖掘知識』,不幸的是它有點長。

許多人把資料探勘視為另一個常用的術語『資料庫中知識發現』或kdd的同義詞。而另一些人只是把數...

4樓:匿名使用者

好比淘金者在河沙裡淘沙獲取金子一個道理,資料探勘就是在大量已知的資料裡找出來有用的資料!資料探勘是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。

5樓:茹翊神諭者

資料探勘的概念如圖所示

什麼是資料探勘?

6樓:cda資料分析師

簡單地說,資料探勘是從大量資料中提取或『挖掘』知識。該術語實際上有點用詞不當。資料探勘應當更正確地命名為『從資料中挖掘知識』,不幸的是它有點長。

許多人把資料探勘視為另一個常用的術語『資料庫中知識發現』或kdd的同義詞。而另一些人只是把資料探勘視為資料庫中知識發現過程的一個基本步驟。

資料探勘是一個用資料發現問題、解決問題的學科。

通常通過對資料的探索、處理、分析或建模實現。

我們可以看到資料探勘具有以下幾個特點:

基於大量資料:並非說小資料量上就不可以進行挖掘,實際上大多數資料探勘的演算法都可以在小資料量上執行並得到結果。但是,一方面過小的資料量完全可以通過人工分析來總結規律,另一方面來說,小資料量常常無法反映出真實世界中的普遍特性。

隱含性:資料探勘是要發現深藏在資料內部的知識,而不是那些直接浮現在資料表面的資訊。常用的bi工具,例如報表和olap,完全可以讓使用者找出這些資訊。

新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。

價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說資料探勘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。

這只是一種誤解,不可否認的 是在一些資料探勘專案中,或者因為缺乏明確的業務目標,或者因為資料質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,資料探勘的確可以變成提升效益的利器。

7樓:野路子產品經理

給你分享一個pdf看看什麼是資料探勘

8樓:風_南

科技的快速發展和資料的儲存技術的快速進步,使得各種行業或組織的資料得以海量積累。但是,從海量的資料當中,提取有用的資訊成為了一個難題。在海量資料面前,傳統的資料分析工具和方法很無力。

由此,資料探勘技術就登上了歷史的舞臺。

資料探勘是一種技術,將傳統的資料分析方法與處理大量資料的複雜演算法相結合(圖1),從大量的、不完全的、有噪聲的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用資訊和知識的過程。

那資料探勘能夠幹什麼?有哪些資料探勘技術?怎麼應用?

資料探勘技術應用廣泛,如:1. 在交通領域,幫助鐵路票價制定、交通流量**等。

2. 在生物學當中,挖掘基因與疾病之間的關係、蛋白質結構**、代謝途徑**等。3.

在金融行業當中,**指數追蹤、稅務稽查等方面有重要運用。4. 在電子商務領域,對顧客行為分析、定向營銷、定向廣告投放、誰是最有價值的使用者、什麼產品搭配銷售等。

可以說,有資料的方法,就有資料探勘的用武之地。

那資料探勘過程是什麼呢?如圖2:

資料探勘的任務主要分為一下四類,如圖3:

1.建模**:用因變數作用目標變數建立模型。

分為兩類:(1)分類,用於**離散的目標變數;(2)迴歸,用於**連續的目標變數。兩項任務目標都是訓練一個模型,使目標變數**值與實際值之間的誤差達到最小。

**建模可以用來判斷病人是否患有某種疾病,可以用於確定顧客是否需要某種產品,**交通流量。

2.關聯分析:用來發現描述資料中強關聯特徵的模式。

所發現的模式通常用特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有用的模式。關聯分析的應用包括使用者購買商品之間的聯絡、找出相關功能的基因組、表單**輸出下拉選單如圖4。

3.聚類分析:發現緊密相關的觀測值群組,使得與屬於不同簇的觀察值相比,同一簇的觀察值相互之間儘可能的類似。

聚類可用來對相關的顧客分組、給不同功能的基因分組、不同的癌症細胞系分組。

4.異常檢測:識別其特徵顯著不同於其他資料的觀測值。

這樣的觀測值稱為異常點或離群點。異常檢測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點。換言之,一個好的異常點檢測模型必須具有高檢測率和低誤報率。

異常檢測的應用包括檢測欺詐、網路攻擊、疾病的不尋常模式。

什麼是資料探勘

9樓:匿名使用者

資料探勘(data mining),就是從大量資料中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。資料探勘的廣義觀點:資料探勘就是從存放在資料庫,資料倉儲或其他資訊庫中的大量的資料中「挖掘」有趣知識的過程。

資料探勘,又稱為資料庫中知識發現(knowledge discovery in database, kdd), 也有人把資料探勘視為資料庫中知識發現過程的一個基本步驟。知識發現過程以下步驟組成:(1)資料清理,(2)資料整合,(3)資料選擇,(4)資料變換,(5)資料探勘,(6)模式評估,(7)知識表示。

資料探勘可以與使用者或知識庫互動。

並非所有的資訊發現任務都被視為資料探勘。例如,使用資料庫管理系統查詢個別的記錄,或通過因特網的搜尋引擎查詢特定的web頁面,則是資訊檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用複雜的演算法和資料結構,但是它們主要依賴傳統的電腦科學技術和資料的明顯特徵來建立索引結構,從而有效地組織和檢索資訊。

儘管如此,資料探勘技術也已用來增強資訊檢索系統的能力。

詳細請參考

10樓:美林資料

分類是在一群已經知道類別標號的樣本中,訓練一種分類器,讓其能夠對某種未知的樣本進行分類。分類演算法的分類過程就是建立一種分類模型來描述預定的資料集或概念集,通過分析由屬性描述的資料庫元組來構造模型。

11樓:海同職座標**

資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。

資料探勘流程:

定義問題:清晰地定義出業務問題,確定資料探勘的目的。

資料準備:資料準備包括:選擇資料–在大型資料庫和資料倉儲目標中 提取資料探勘的目標資料集;資料預處理–進行資料再加工,包括檢查資料的完整性及資料的一致性、去噪聲,填補丟失的域,刪除無效資料等。

資料探勘:根據資料功能的型別和和資料的特點選擇相應的演算法,在淨化和轉換過的資料集上進行資料探勘。

結果分析:對資料探勘的結果進行解釋和評價,轉換成為能夠最終被使用者理解的知識。

12樓:匿名使用者

資料探勘就是從海量資料中挖掘出可能有潛在價值的資訊的技術。這些資訊是可能有潛在價值的,支援決策,可以為企業帶來利益,或者為科學研究尋找突破口。

13樓:柳宜珈藍

步驟組成:(1)資料清理,(2)資料整合,(3)資料選擇,(4)資料變換,(5)資料探勘,(6)模式評估,(7)知識表示。資料探勘可以與使用者或知識庫互動。

俺的研究方向,主要是演算法上

14樓:茹翊神諭者

資料探勘的概念如圖所示

資料探勘的定義是什麼?

15樓:遲新蘭碧黛

資料探勘(data

mining-dm)是從存放在資料庫、資料倉儲、或其它資訊庫中的大量資料中挖掘有趣知識的過程川。資料探勘有時也稱作kdd,

kdd(knowledge

discovery

indatabases-kdd:知識發現)即是基於資料庫的知識發現,指的是從大型資料庫或資料倉儲中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的、易被理解的資訊。實質上,這兩個概念的內涵大致相同,只是從不同的角度認識問題而已。

譬如人工智慧的研究人員傾向於講kdd,而計算機和資訊科技專家通常說資料探勘。

16樓:美林資料

分類是在一群已經知道類別標號的樣本中,訓練一種分類器,讓其能夠對某種未知的樣本進行分類。分類演算法的分類過程就是建立一種分類模型來描述預定的資料集或概念集,通過分析由屬性描述的資料庫元組來構造模型。

資料探勘是做什麼的

17樓:匿名使用者

說的最直白的就是從一堆資料中找出有價值的東西,以便用來賺更多的錢。。。

18樓:前景一片光明

主要就是為了完成資料分析的。

19樓:cda資料分析師

資料探勘的用處有很多,在這裡我只想從技術和應用兩個層面來簡單談談。

1、從技術層面來說,按照資料探勘產出的知識可以粗分為兩大類:描述型挖掘和**型挖掘。

描述型挖掘是對現有資料的進一步精煉和歸納,從中抽取中更巨集觀的反映數 據特徵的概念描述。舉個例子來說,某家銀行有幾百萬客戶,資料倉儲中儲存了每個客戶的人口統計資訊、賬戶資訊、交易資訊、客服聯絡資訊等詳細資料。但是銀 行不可能清楚地瞭解每位客戶是什麼樣的客戶,客戶的消費模式到底是怎樣的?

這時一般需要把全體客戶進行細分,劃分為幾個客戶群,而且這種劃分可以保證具有 相似行為、相似價值的客戶會被放入同一個群組中。有了這些客戶群,銀行就能更容易地發現營銷機會並制定營銷戰略。這個例子中所用的挖掘技術是聚類模型,它 就是一種典型的描述型挖掘。

**型挖掘,顧名思義,就是建立的挖掘模型具備**能力。這種**能力可能包括**哪些客戶下個月會流失,哪些客戶對**活動會積極響應,哪些客戶的未來價值會成長以及成長多少等等。**型挖掘常常對企業運營具有更強的指導作用,從而更快地見效。

2、從應用層面來說,資料探勘可以應用到很多行業中,包括電信、銀行、**、保險、製造、因特網等等。

拋開具體行業的特定應用不談,在各個行業中一般都會把資料探勘應用在客戶關係管理(crm)之中。在crm中的資料探勘應用,包括客戶細分、客戶價值分析、客戶獲取、客戶保持、交叉銷售和提升銷售等等。此外,信用評分、欺詐偵測和文字挖掘等也是常見的應用。

資料探勘中分類和迴歸的區別資料探勘中分類和迴歸的區別是什麼?

單純就這句話而言不能說錯,只是不完全。分類是指一類問題,而回歸是一類工具。分類的目的在於給物件按照其類別打上相應的標籤再分門別類,而回歸則是根據樣本研究其兩個 或多個 變數之間的依存關係,是對於其趨勢的一個分析 分類的標籤如果是表示 離散的 有排序關係的類別時,比如說 好 較好 一般 這樣的時候,也...

資料探勘的關聯規則中,為什麼關聯規則挖掘時字首不同的不能合併

可能是因為挖掘時,都是有個參照,比如字首,所以字首不同沒有辦法合併,你是用python寫的挖掘規則嗎?如果只用一次的話,可以試試用前嗅的爬蟲,我們公司之前跟他們合作過,感覺挖出來的東西還挺完美的,希望對你有用吧,不過你要是學python的話,就可以當我沒說了。資料探勘中的關聯規則主要有什麼作用 資料...

資料探勘對資料來源有什麼要求,在中國的哪些行業被真正的應用起來

一個好的資料來源是做好資料探勘的根本和基礎,否則你分析的再好都是垃圾結果。個人認為資料來源有這麼幾個要求 1 資料規模要大,即資料樣本數 資料時間範圍等要合適,資料規模太小結論木有意義。2 資料要真,這個不用多解釋了吧。3 資料 要權威,一個路邊攤給你統計的資料你敢用嗎,這方面可以看看中科院的科學資...