溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

storm實時排序TopN怎么使用

發布時間：2021-12-23 14:20:04 來源：億速云閱讀：204 作者：iii 欄目：云計算

# Storm實時排序TopN怎么使用

## 一、Storm與實時計算概述

Apache Storm是一個開源的分布式實時計算系統，由Twitter開發并開源。它能夠可靠地處理無界數據流（即持續不斷產生的數據），廣泛應用于實時分析、在線機器學習、持續計算等場景。與批處理框架（如Hadoop MapReduce）不同，Storm的特點是低延遲（毫秒級響應）和高吞吐量。

### 1.1 Storm核心概念
- **Topology（拓撲）**：Storm作業的抽象表示，由Spout和Bolt組成的有向無環圖(DAG)
- **Spout**：數據源組件，負責從外部數據源（如Kafka、MQ等）讀取數據并發射到拓撲中
- **Bolt**：處理組件，負責對數據進行各種處理（過濾、聚合、連接等）
- **Tuple**：Storm中的基本數據單元，由一組鍵值對組成
- **Stream Grouping**：定義Tuple如何在Bolt之間分發

### 1.2 實時TopN的應用場景
- 電商實時熱銷商品排行
- 社交媒體熱門話題追蹤
- 網絡流量實時監控（TopN攻擊IP）
- 金融交易實時異常檢測

## 二、TopN排序實現原理

### 2.1 基本思路
在Storm中實現TopN排序通常需要：
1. **數據分片處理**：將數據按關鍵字段分組（如商品ID）
2. **局部聚合**：在每個Bolt實例中維護局部TopN
3. **全局聚合**：將局部結果匯總得到全局TopN

### 2.2 數據結構選擇
高效的TopN實現依賴于合適的數據結構：

| 數據結構 | 插入復雜度 | 查詢TopN復雜度 | 適用場景 |
|---------|-----------|---------------|---------|
| 普通List | O(1)      | O(nlogn)       | 小數據量 |
| 二叉堆   | O(logn)   | O(1)獲取Top1   | 中等數據 |
| TreeMap  | O(logn)   | O(logn)        | 大數據量 |

推薦使用`TreeMap`或`PriorityQueue`，因為它們能高效維護有序集合。

## 三、Storm實現TopN的完整示例

### 3.1 項目環境準備
```xml
<!-- Maven依賴 -->
<dependency>
    <groupId>org.apache.storm</groupId>
    <artifactId>storm-core</artifactId>
    <version>2.3.0</version>
    <scope>provided</scope>
</dependency>

3.2 Spout實現（模擬數據源）

public class RandomSpout extends BaseRichSpout {
    private SpoutOutputCollector collector;
    private Random random = new Random();
    private String[] products = {"iPhone", "iPad", "MacBook", "AirPods", "Watch"};

    @Override
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
        this.collector = collector;
    }

    @Override
    public void nextTuple() {
        Utils.sleep(100); // 控制發射速度
        String product = products[random.nextInt(products.length)];
        int count = random.nextInt(100);
        collector.emit(new Values(product, count));
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("product", "count"));
    }
}

3.3 局部TopN Bolt實現

public class PartialRankingBolt extends BaseRichBolt {
    private OutputCollector collector;
    private int topN;
    private TreeMap<Integer, String> localRankings;

    public PartialRankingBolt(int topN) {
        this.topN = topN;
    }

    @Override
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
        this.collector = collector;
        this.localRankings = new TreeMap<>(Collections.reverseOrder());
    }

    @Override
    public void execute(Tuple tuple) {
        String product = tuple.getStringByField("product");
        Integer count = tuple.getIntegerByField("count");
        
        // 更新局部排名
        localRankings.put(count, product);
        
        // 保持只保留TopN
        if (localRankings.size() > topN) {
            localRankings.pollLastEntry();
        }
        
        // 定時發送當前排名（例如每5秒）
        if (System.currentTimeMillis() % 5000 == 0) {
            collector.emit(new Values(new ArrayList<>(localRankings.entrySet())));
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("partialRankings"));
    }
}

3.4 全局TopN Bolt實現

public class GlobalRankingBolt extends BaseRichBolt {
    private int topN;
    private TreeMap<Integer, String> globalRankings;
    
    public GlobalRankingBolt(int topN) {
        this.topN = topN;
    }

    @Override
    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
        this.globalRankings = new TreeMap<>(Collections.reverseOrder());
    }

    @Override
    public void execute(Tuple tuple) {
        List<Map.Entry<Integer, String>> partial = (List<Map.Entry<Integer, String>>) tuple.getValueByField("partialRankings");
        
        // 合并局部結果
        for (Map.Entry<Integer, String> entry : partial) {
            globalRankings.put(entry.getKey(), entry.getValue());
            if (globalRankings.size() > topN) {
                globalRankings.pollLastEntry();
            }
        }
        
        // 打印當前全局TopN
        System.out.println("--- Global Top " + topN + " ---");
        int rank = 1;
        for (Map.Entry<Integer, String> entry : globalRankings.entrySet()) {
            System.out.println(rank++ + ". " + entry.getValue() + ": " + entry.getKey());
        }
    }

    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
        // 無需發射，僅打印
    }
}

3.5 構建Topology

public class TopNTopology {
    public static void main(String[] args) throws Exception {
        TopologyBuilder builder = new TopologyBuilder();
        int topN = 5;
        
        builder.setSpout("spout", new RandomSpout(), 1);
        builder.setBolt("partial", new PartialRankingBolt(topN), 3)
               .shuffleGrouping("spout");
        builder.setBolt("global", new GlobalRankingBolt(topN), 1)
               .globalGrouping("partial");
        
        Config conf = new Config();
        conf.setDebug(true);
        
        // 本地模式運行
        LocalCluster cluster = new LocalCluster();
        cluster.submitTopology("topn-demo", conf, builder.createTopology());
        
        // 生產環境使用StormSubmitter
        // StormSubmitter.submitTopology("topn-prod", conf, builder.createTopology());
    }
}

四、性能優化與注意事項

4.1 性能優化技巧

合理設置并行度：
- Spout和第一個Bolt的并行度可以較高（如3-5個）
- 全局聚合Bolt通常設為1（避免數據分散）

使用高效的序列化：

conf.registerSerialization(ProductCount.class, ProductCountSerializer.class);

批處理優化：

// 在Bolt中積累一定量數據再處理
@Override
public void execute(Tuple tuple) {
   buffer.add(tuple);
   if(buffer.size() >= BATCH_SIZE) {
       processBatch();
       buffer.clear();
   }
}

4.2 常見問題解決

內存溢出：
- 為TreeMap設置大小限制
- 使用LRU策略淘汰舊數據

數據傾斜：

// 使用fieldsGrouping代替shuffleGrouping
builder.setBolt("partial", new PartialRankingBolt(), 3)
      .fieldsGrouping("spout", new Fields("product"));

時間窗口處理：

// 滑動窗口實現示例
private Map<Long, TreeMap<Integer, String>> timeWindows = new HashMap<>();

五、擴展應用：帶時間窗口的TopN

5.1 滑動窗口實現

public class SlidingWindowRankingBolt extends BaseRichBolt {
    private Map<String, SlidingWindowCounter> counters = new HashMap<>();
    private int windowLengthInSeconds;
    private int emitFrequencyInSeconds;
    
    @Override
    public void execute(Tuple tuple) {
        String product = tuple.getStringByField("product");
        counters.computeIfAbsent(product, k -> 
            new SlidingWindowCounter(windowLengthInSeconds))
            .increment();
    }
}

5.2 與外部存儲集成

// 將結果寫入Redis
public void saveToRedis(TreeMap<Integer, String> rankings) {
    Jedis jedis = new Jedis("localhost");
    jedis.del("topn-products");
    rankings.forEach((count, product) -> 
        jedis.zadd("topn-products", count, product));
}

六、總結

Storm實現實時TopN排序的關鍵點： 1. 合理設計拓撲結構（分階段處理） 2. 選擇高效的數據結構（TreeMap/PriorityQueue） 3. 注意內存管理和數據傾斜問題 4. 根據業務需求選擇合適的時間窗口

實際應用中，可以結合Kafka等消息隊列作為數據源，使用Redis存儲最終結果，構建完整的實時分析系統。對于更復雜的場景，可以考慮使用Apache Flink或Spark Streaming等框架，它們內置了更豐富的窗口操作和狀態管理功能。 “`

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Storm如何接收數據
下一篇新聞：
mysql中出現1053錯誤怎么辦

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女