阿里巴巴招募實習生筆試題目

時間：2020-12-16 13:52:53 筆試題目我要投稿

阿里巴巴招募實習生筆試題目

　　導語：以下是來自阿里巴巴招募實習生的一次筆試題，從筆試題的幾個要求我們一起來看看數據分析的職業要求。

阿里巴巴招募實習生筆試題目

　　一、異常值是指什么?請列舉1種識別連續型變量異常值的方法?

　　異常值(Outlier) 是指樣本中的個別值，其數值明顯偏離所屬樣本的其余觀測值。在數理統計里一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值。

　　Grubbs’ test(是以Frank E. Grubbs命名的)，又叫maximum normed residual test，是一種用于單變量數據集異常值識別的統計檢測，它假定數據集來自正態分布的總體。

　　未知總體標準差σ，在五種檢驗法中，優劣次序為：t檢驗法、格拉布斯檢驗法、峰度檢驗法、狄克遜檢驗法、偏度檢驗法。

　　點評：考察的內容是統計學基礎功底。

　　二、什么是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。

　　聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析也叫分類分析(classification analysis)或數值分類(numerical taxonomy)。聚類與分類的不同在于，聚類所要求劃分的類是未知的。

　　聚類分析計算方法主要有：層次的方法(hierarchical method)、劃分方法(partitioning method)、基于密度的方法(density-based method)、基于網格的.方法(grid-based method)、基于模型的方法(model-based method)等。其中，前兩種算法是利用統計學定義的距離進行度量。

　　k-means 算法的工作過程說明如下：首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象，則根據它們與這些聚類中心的相似度(距離)，分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數. k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

　　其流程如下：

　　(1)從 n個數據對象任意選擇 k 個對象作為初始聚類中心;

　　(2)根據每個聚類對象的均值(中心對象)，計算每個對象與這些中心對象的距離;并根據最小距離重新對相應對象進行劃分;

　　(3)重新計算每個(有變化)聚類的均值(中心對象);

　　(4)循環(2)、(3)直到每個聚類不再發生變化為止(標準測量函數收斂)。

　　優點：本算法確定的K 個劃分到達平方誤差最小。當聚類是密集的，且類與類之間區別明顯時，效果較好。對于處理大數據集，這個算法是相對可伸縮和高效的，計算的復雜度為 O(NKt)，其中N是數據對象的數目，t是迭代的次數。一般來說，K<

　　缺點：1. K 是事先給定的，但非常難以選定;2. 初始聚類中心的選擇對聚類結果有較大的影響。

　　點評：考察的內容是常用數據分析方法，做數據分析一定要理解數據分析算法、應用場景、使用過程、以及優缺點。

　　三、根據要求寫出SQL

　　表A結構如下：

　　Member_ID(用戶的ID，字符型)

　　Log_time(用戶訪問頁面時間，日期型(只有一天的數據))