溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

如何分析K-means Clustering

發布時間：2022-01-14 16:08:07 來源：億速云閱讀：177 作者：柒染欄目：云計算

如何分析K-means Clustering ，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

一：算法

K-means 算法是機器學習聚類算法中很常用，也是最基本的一種算法。聚類算法屬于無監督學習算法。算法的步驟分為以下兩步：1，根據分組大小K的值，找出K個中心點，而這時候其他點也根據距離中心點的距離劃分給這個中心點。2，找出每個cluster最優的中心點，重新分配點，并迭代。

二：Spark MLlib

Spark MLlib 提供了K－means算法的實現。

數據來源
數據來源于KDD CUP網站，這些數據是網絡連接的數據，下載

找到data -> kddcup.data.zip 并下載。

數據每行格式如下：

0,tcp,http,SF,215,45076,
    0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,
    0.00,0.00,0.00,0.00,1.00,0.00,0.00,0,0,0.00,
    0.00,0.00,0.00,0.00,0.00,0.00,0.00,normal.

除了最后一個為label外，其余的都是features。label可能并不準確，這些label僅僅標示能發現的異常，但是k-means卻能找到未知的異常。

2.讀取數據

    val rawDataPath = "Your kddcup.data.txt Path"
    val rawData = sc.textFile(rawDataPath)

    val labelsAndData = rawData.flatMap { line =>
      val buffer = line.split(',').toBuffer
      if (buffer.length == 42) {
        buffer.remove(1, 3)
        val label = buffer.remove(buffer.length - 1)
        val vector = Vectors.dense(buffer.map(_.toDouble).toArray)
        Some(label, vector)
      } else {
        None
      }
    }

數據除掉了第2，3，4列，最后一列數據。

3. K-Means算法

     val kmeans = new KMeans()
      kmeans.setK(k)   //默認的K為2
      kmeans.setRuns(10) //找尋中心點運行次數
      kmeans.setEpsilon(1.0e-6) //找尋中心點每次變化距離，越小越遠
      val model = kmeans.run(data)

使用生成的model并聚類

val clusterLabelCount = labelsAndData.map { case (label,datum) =>
    val cluster = model.predict(datum)
    (cluster,label)					
}.countByValue
					
clusterLabelCount.toSeq.sorted.foreach {case ((cluster,label),count) =>
println(f"$cluster%1s$label%18s$count%8s")
}

4.如何選擇K

K的選擇是個問題，正常說來，K值越大，聚類的效果越好。想象下，如果每個點都是單獨的一個類。。

另外，我們可以使用其他點距離中心點的距離來查看聚類的效果：

    def distance(a: Vector, b: Vector) = {
      math.sqrt(a.toArray.zip(b.toArray).map(p => p._1 - p._2).map(p => p*p).sum)
    }

    def distToCentroid(datum: Vector, model: KMeansModel) = {
      val cluster = model.predict(datum)
      val centroid = model.clusterCenters(cluster)
      distance(centroid, datum)
    }

    def clusteringScore(data: RDD[Vector], k: Int) = {
      val kmeans = new KMeans()
      kmeans.setK(k)
      kmeans.setRuns(10)
      kmeans.setEpsilon(1.0e-6)
      val model = kmeans.run(data)
      data.map(datum => distToCentroid(datum, model)).mean()
    }

    (30 to 150 by 10 ).map(k => clusteringScore(data,k)).foreach(println)

有了評估，我們可以依次查看K的大小對聚類的影響。

關于如何分析K-means Clustering 問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
服務器中單個文件上傳百度云盤有大小限制怎么破
下一篇新聞：
springboot整合quartz定時任務框架的方法是什么

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女