數據庫分析技術師
一、單選題
1.某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這
種屬于數據挖掘的哪類問題?( )
A. 關聯規則發現
B. 聚類
C. 分類
D. 自然語言處理
答案:A
2.以下兩種描述分別對應哪兩種對分類算法的評價標準?( )
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
A. Precision, Recall
B. Recall, Precision
C. Precision, ROC
D. Recall, ROC
答案:A
3.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任
務?( )
A. 頻繁模式挖掘
B. 分類和預測
C. 數據預處理
D. 數據流挖掘
答案:C
4. 當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與
帶其他標簽的數據相分離?( )
A. 分類
B. 聚類
C. 關聯分析
D. 隱馬爾可夫鏈
答案:B
5. 什么是KDD?( )
A. 數據挖掘與知識發現
B. 領域知識發現
C. 文檔知識發現
D. 動態知識發現
答案:A
6. 使用交互式的和可視化的技術,對數據進行探索屬于數據挖掘的哪一類
任務?( )
A. 探索性數據分析
B. 建模描述
C. 預測建模
D. 尋找模式和規則
答案:A
7. 為數據的總體分布建模;把多維空間劃分成組等問題屬于數據挖掘的哪
一類任務?( )
A. 探索性數據分析
B. 建模描述
C. 預測建模
D. 尋找模式和規則
答案:B
8. 建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值
屬于數據挖掘的哪一類任務?( )
A. 根據內容檢索
B. 建模描述
C. 預測建模
D. 尋找模式和規則
答案:C
9. 用戶有一種感興趣的模式并且希望在數據集中找到相似的模式,屬于數
據挖掘哪一類任務?( )
A. 根據內容檢索
B. 建模描述
C. 預測建模
D. 尋找模式和規則
答案:A
10.檢測一元正態分布中的離群點,屬于異常檢測中的基于( )的離群
點檢測。
A、統計方法
B、鄰近度
C、密度
D、聚類技術
答案:A
11.下面哪種不屬于數據預處理的方法?( )
A.變量代換
B.離散化
C.聚集
D.估計遺漏值
答案:D
12. 假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13,15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻
(等深)劃分時,15在第幾個箱子內?( )
A 第一個
B 第二個
C 第三個
D 第四個
答案:B
13.上題中,等寬劃分時(寬度為50),15又在哪個箱子里?( )
A.第一個
B.第二個
C.第三個
D.第四個
答案:A
14.下面哪個不屬于數據的屬性類型:( )
A.標稱
B.序數
C.區間
D.相異
答案:D
15. 在上題中,屬于定量的屬性類型是:( )
A 標稱
B 序數
C 區間
D 相異
答案:C
16. 只有非零值才重要的二元屬性被稱作:( )
A 計數屬性
B 離散屬性
C非對稱的二元屬性
D 對稱屬性
答案:C
17. 以下哪種方法不屬于特征選擇的標準方法:( )
A 嵌入
B 過濾
C 包裝
D 抽樣
答案:D
18.下面不屬于創建新屬性的相關方法的是:( )
A特征提取
B特征修改
C映射數據到新的空間
D特征構造
答案:D
19. 考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是( )
A 2
B 3
C 3.5
D 5
答案:C
20. 下面哪個屬于映射數據到新的空間的方法?( )
A 傅立葉變換
B 特征加權
C 漸進抽樣
D 維歸約
答案:A
21. 熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:( )
A 1比特
B 2.6比特
C 3.2比特
D 3.8比特
答案:B
22. 假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規范化的方法將屬性的值映射到0至1的范圍內。對屬性income的73600元將被轉化為:( )
A 0.821
B 1.224
C 1.458
D 0.716
答案:D
23.假定用于分析的數據包含屬性age。數據元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,
33,35,35,36,40,45,46,52,70, 問題:使用按箱平均值平滑方法對上述數據進行平滑,箱的深度為3。第二個箱子值為:( )
A 18.3
B 22.6
C 26.8
D 27.9
答案:A
24. 考慮值集{12 24 33 2 4 55 68 26},其四分位數極差是:( )
A 31
B 24
C 55
D 3
答案:A
25. 一所大學內的各年紀人數分別為:一年級200人,二年級160人,三年級130人,四年級110人。則年級屬性的眾數是:( )
A 一年級
B二年級
C 三年級
D 四年級
答案:A
26. 下列哪個不是專門用于可視化時間空間數據的技術:( )
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場圖
答案:B
27. 在抽樣方法中,當合適的樣本容量很難確定時,可以使用的抽樣方法是:( )
A 有放回的簡單隨機抽樣
B 無放回的簡單隨機抽樣
C 分層抽樣
D 漸進抽樣
答案:D
28. 數據倉庫是隨著時間變化的,下面的描述不正確的是( )
A. 數據倉庫隨時間的變化不斷增加新的數據內容;
B. 捕捉到的新數據會覆蓋原來的快照;
C. 數據倉庫隨事件變化不斷刪去舊的數據內容;
D. 數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行重新綜合.
答案:C
29. 關于基本數據的元數據是指: ( )
A. 基本元數據與數據源,數據倉庫,數據集市和應用程序等結構相關的信息;
B. 基本元數據包括與企業相關的管理方面的數據和信息;
C. 基本元數據包括日志文件和簡歷執行處理的時序調度信息;
D. 基本元數據包括關于裝載和更新處理,分析處理以及管理方面的信息.
答案:D
30. 下面關于數據粒度的描述不正確的是:( )
A. 粒度是指數據倉庫小數據單元的詳細程度和級別;
B. 數據越詳細,粒度就越小,級別也就越高;
C. 數據綜合度越高,粒度也就越大,級別也就越高;
D. 粒度的具體劃分將直接影響數據倉庫中的數據量以及查詢質量.
答案:C
31. 有關數據倉庫的開發特點,不正確的描述是: ( )
A. 數據倉庫開發要從數據出發;
B. 數據倉庫使用的需求在開發出去就要明確;
C. 數據倉庫的開發是一個不斷循環的過程,是啟發式的開發;
D. 在數據倉庫環境中,并不存在操作型環境中所固定的和較確切的處理流,數據倉庫中數據分析和處理更靈活,且沒有固定的模式
答案:A
32. 在有關數據倉庫測試,下列說法不正確的是: ( )
A. 在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要包括單元測試和系統測試.
B. 當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試.
C. 系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試.
D. 在測試之前沒必要制定詳細的測試計劃.
答案:D
33. OLAP技術的核心是: ( )
A. 在線性;
B. 對用戶的快速響應;
C. 互操作性.
D. 多維分析;
答案:D
34. 關于OLAP的特性,下面正確的是: ( )(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性
A. (1) (2) (3)
B. (2) (3) (4)
C. (1) (2) (3) (4)
D. (1) (2) (3) (4) (5)
答案:D
35. 關于OLAP和OLTP的區別描述,不正確的是: ( )
A. OLAP主要是關于如何理解聚集的大量不同的數據.它與OTAP應用程序不同.
B. 與OLAP應用程序不同,OLTP應用程序包含大量相對簡單的事務.
C. OLAP的特點在于事務量大,但事務內容比較簡單且重復率高.
D. OLAP是以數據倉庫為基礎的,但其最終數據來源與OLTP一樣均來自底層的數據庫系統,兩者面對的用戶是相同的.
答案:C
36. OLAM技術一般簡稱為”數據聯機分析挖掘”,下面說法正確的是: ( )
A. OLAP和OLAM都基于客戶機/服務器模式,只有后者有與用戶的交互性;
B. 由于OLAM的立方體和用于OLAP的立方體有本質的區別.
C. 基于WEB的OLAM是WEB技術與OLAM技術的結合.
D. OLAM服務器通過用戶圖形借口接收用戶的分析指令,在元數據的知道下,對超級立方體作一定的操作.
答案:D
37. 關于OLAP和OLTP的說法,下列不正確的是: ( )
A. OLAP事務量大,但事務內容比較簡單且重復率高.
B. OLAP的最終數據來源與OLTP不一樣.
C. OLTP面對的是決策人員和高層管理人員.
D. OLTP以應用為核心,是應用驅動的.
答案:A
38. 設X={1,2,3}是頻繁項集,則可由X產生__( )__個關聯規則。
A、4
B、5
C、6
D、7
答案:C
40. 概念分層圖是_( )圖。
A、無向無環
B、有向無環
C、有向有環
D、無向有環
答案:B
41. 頻繁項集、頻繁閉項集、最大頻繁項集之間的關系是:( )
A、頻繁項集頻繁閉項集=最大頻繁項集
B、頻繁項集= 頻繁閉項集最大頻繁項集
C、頻繁項集頻繁閉項集最大頻繁項集
D、頻繁項集= 頻繁閉項集= 最大頻繁項集
答案:C
42. 考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數據集中只有5
個項,采用合并策略,由候選產生過程得到4-項集不包含( )
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
答案:C
43.下面選項中t不是s的子序列的是( )
A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C、s=<{1,2},{3,4}> t=<{1},{2}>
D、s=<{2,4},{2,4}> t=<{2},{4}>
答案:C
44. 在圖集合中發現一組公共子結構,這樣的任務稱為( )
A、頻繁子集挖掘
B、頻繁子圖挖掘
C、頻繁數據項挖掘
D、頻繁模式挖掘
答案:B
45. 下列度量不具有反演性的是( )
A、系數
B、幾率
C、Cohen度量
D、興趣因子
答案:D
46. 下列__( )_不是將主觀信息加入到模式發現任務中的方法。
A、與同一時期其他數據對比
B、可視化
C、基于模板的方法
D、主觀興趣度量
答案:A
47. ( )將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度,
它是一種凝聚層次聚類技術。
A、MIN(單鏈)
B、MAX(全鏈)
C、組平均
D、Ward方法
答案:C
48. 以下哪些算法是分類算法,( )
A,DBSCAN
B,C4.5
C,K-Mean
D,EM
答案:B
49. 以下哪些分類方法可以較好地避免樣本的不平衡問題,( )
A,KNN
B,SVM
C,Bayes
D,神經網絡
答案:A
50. 決策樹中不包含一下哪種結點,( )
A,根結點(root node)
B,內部結點(internal node)
C,外部結點(external node)
D,葉結點(leaf node)
答案:C
51. 不純性度量中Gini計算公式為(其中c是類的個數)( )
A, B, C, D, (A)
答案:A
53. 以下哪項關于決策樹的說法是錯誤的( )
A. 冗余屬性不會對決策樹的準確率造成不利的影響
B. 子樹可能在決策樹中重復多次
C. 決策樹算法對于噪聲的干擾非常敏感
D. 尋找最佳決策樹是NP完全問題
答案:C
54. 在基于規則分類器的中,依據規則質量的某種度量對規則排序,保證每
一個測試記錄都是由覆蓋它的“最好的”規格來分類,這種方案稱為( )
A. 基于類的排序方案
B. 基于規則的排序方案
C. 基于度量的排序方案
D. 基于規格的排序方案。
答案:B
55. 以下哪些算法是基于規則的分類器( )
A. C4.5
B. KNN
C. Na?ve Bayes
D. ANN
答案:A
56. 如果規則集R中不存在兩條規則被同一條記錄觸發,則稱規則集R中
的規則為( );
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
答案:C
57. 如果對屬性值的任一組合,R中都存在一條規則加以覆蓋,則稱規則集
R中的規則為( )
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
答案:B
58. 如果規則集中的規則按照優先級降序排列,則稱規則集是( )
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
答案:D
59. 如果允許一條記錄觸發多條分類規則,把每條被觸發規則的后件看作是對相應類的一次投票,然后計票確定測試記錄的類標號,稱為( )
A, 無序規則
B,窮舉規則
C,互斥規則
D,有序規則
答案:A
60. 考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩余的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為( )
A,0.75
B,0.35
C,0.4678
D, 0.5738
答案:C
二、多選題
1. 通過數據挖掘過程所推倒出的關系和摘要經常被稱為:( )
A. 模型
B. 模式
C. 模范
D. 模具
答案:AB
2 尋找數據集中的關系是為了尋找精確、方便并且有價值地總結了數據的某
一特征的表示,這個過程包括了以下哪些步驟?( )
A. 決定要使用的表示的特征和結構
B. 決定如何量化和比較不同表示擬合數據的好壞
C. 選擇一個算法過程使評分函數最優
D. 決定用什么樣的數據管理原則以高效地實現算法。
答案:ABCD
3. 數據挖掘的預測建模任務主要包括哪幾大類問題?( )
A. 分類
B. 回歸
C. 模式發現
D. 模式匹配
答案:AB
4. 數據挖掘算法的組件包括:( )
A. 模型或模型結構
B. 評分函數
C. 優化和搜索方法
D. 數據管理策略
答案:ABCD
5. 以下哪些學科和數據挖掘有密切聯系?( )
A. 統計
B. 計算機組成原理
C. 礦產挖掘
D. 人工智能
答案:AD
6. 在現實世界的數據中,元組在某些屬性上缺少值是常有的。描述處理該
問題的各種方法有:( )
A忽略元組
B使用屬性的平均值填充空缺值
C使用一個全局常量填充空缺值
D使用與給定元組屬同一類的所有樣本的平均值
答案:ABCD
7.下面哪些屬于可視化高維數據技術( )
A 矩陣
B 平行坐標系
C星形坐標D散布圖
答案:ABC
8. 對于數據挖掘中的原始數據,存在的問題有:( )
A 不一致
B重復
C不完整
D 含噪聲
答案:ABCD
9.下列屬于不同的有序數據的有:( )
A 時序數據
B 序列數據
C時間序列數據
D事務數據
答案:ABC
10.下面屬于數據集的一般特性的有:( )
A 連續性
B 維度
C 稀疏性
D 分辨率
答案:BCD
11. 下面屬于維歸約常用的線性代數技術的有:( )
A 主成分分析
B 特征提取
C 奇異值分解
D 特征加權
答案:AC
12. 下面列出的條目中,哪些是數據倉庫的基本特征:( )
A. 數據倉庫是面向主題的
B. 數據倉庫的數據是集成的
C. 數據倉庫的數據是相對穩定的
D. 數據倉庫的數據是反映歷史變化的
答案:ACD
13. 以下各項均是針對數據倉庫的不同說法,你認為正確的有( )。
A.數據倉庫就是數據庫
B.數據倉庫是一切商業智能系統的基礎
C.數據倉庫是面向業務的,支持聯機事務處理(OLTP)
D.數據倉庫支持決策而非事務處理
答案:BCD
14. 數據倉庫在技術上的工作過程是:( )
A. 數據的抽取
B. 存儲和管理
C. 數據的表現
D. 數據倉庫設計
答案:ABCD
15. 聯機分析處理包括以下哪些基本分析功能?( )
A. 聚類
B. 切片
C. 轉軸
D. 切塊
答案:BCD
16.在評價不平衡類問題分類的度量方法有如下幾種,( )
A,F1度量
B,召回率(recall)
C,精度(precision)
D,真正率(ture positive rate,TPR)
答案:ABCD
17. ( )都屬于簇有效性的監督度量。
A、輪廓系數
B、共性分類相關系數
C、熵
D、F度量
答案:CD
18. Apriori算法的計算復雜度受__( )?__影響。
A、支持度閥值
B、項數(維度)
C、事務數
D、事務平均寬度
答案:ABCD
19. 非頻繁模式__( )__
A、其支持度小于閾值
B、都是不讓人感興趣的
C、包含負模式和負相關模式
D、對異常數據項敏感
答案:AD
20. 以下屬于分類器評價或比較尺度的有: ( )
A,預測準確度
B,召回率
C,模型描述的簡潔度
D,計算復雜度
答案:ACD
三、判斷題
1. 數據挖掘的主要任務是從數據中發現潛在的規則,從而能更好的完成描
述數據、預測數據等任務。(對)
2. 數據挖掘的目標不在于數據采集策略,而在于對于已經存在的數據進行
模式的發掘。(對)3. 圖挖掘技術在社會網絡分析中扮演了重要的角色。(對)
4. 模式為對數據集的全局性總結,它對整個測量空間的每一點做出描述;
模型則對變量變化空間的一個有限區域做出描述。(錯)
5. 尋找模式和規則主要是對數據進行干擾,使其符合某種規則以及模式。
(錯)
6. 離群點可以是合法的數據對象或者值。(對)
7. 離散屬性總是具有有限個值。(錯)
8. 噪聲和偽像是數據錯誤這一相同表述的兩種叫法。(錯)
9. 用于分類的離散化方法之間的根本區別在于是否使用類信息。(對)
10. 特征提取技術并不依賴于特定的領域。(錯)
11. 序列數據沒有時間戳。(對)
12. 定量屬性可以是整數值或者是連續值。(對)
13. 可視化技術對于分析的數據類型通常不是專用性的。(錯)
14. DSS主要是基于數據倉庫.聯機數據分析和數據挖掘技術的應用。(對)
15. OLAP技術側重于把數據庫中的數據進行分析、轉換成輔助決策信息,
是繼數據庫技術發展之后迅猛發展起來的一種新技術。(對)
16. 商業智能系統與一般交易系統之間在系統設計上的主要區別在于:后者
把結構強加于商務之上,一旦系統設計完畢,其程序和規則不會輕易改變;而前
者則是一個學習型系統,能自動適應商務不斷變化的要求。(對)
17. 數據倉庫中間層OLAP服務器只能采用關系型OLAP (錯)
18.數據倉庫系統的組成部分包括數據倉庫,倉庫管理,數據抽取,分析
工具等四個部分. (錯)
19. Web數據挖掘是通過數據庫仲的一些屬性來預測另一個屬性,它在驗證
用戶提出的假設過程中提取信息. (錯)
20. 關聯規則挖掘過程是發現滿足最小支持度的所有項集代表的規則。(錯)