溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python詞云圖怎么生成

發布時間：2021-11-25 10:00:09 來源：億速云閱讀：297 作者：iii 欄目：大數據

# Python詞云圖怎么生成

## 一、什么是詞云圖

詞云圖（Word Cloud）是一種數據可視化形式，通過不同大小、顏色和排列方式的文字來直觀展示文本數據中的高頻詞匯。詞頻越高的詞匯在圖中顯示越大，反之則越小。這種圖表廣泛應用于：

- 文本分析
- 社交媒體輿情監控
- 用戶評論情感分析
- 文檔關鍵詞提取

## 二、Python生成詞云圖的必備工具

### 1. 核心庫介紹

```python
# 主要依賴庫
pip install wordcloud matplotlib jieba pillow numpy

wordcloud：核心詞云生成庫
matplotlib：圖形繪制庫
jieba（中文處理需要）：中文分詞工具
Pillow：圖像處理庫
numpy：數組運算支持

2. 可選工具

stylecloud：簡化版詞云生成
pyecharts：交互式詞云
pandas：數據處理支持

三、基礎詞云生成步驟

1. 英文詞云示例

from wordcloud import WordCloud
import matplotlib.pyplot as plt

text = """Python is an interpreted, high-level and general-purpose programming language. 
Python's design philosophy emphasizes code readability with its notable use of significant whitespace."""

# 生成詞云對象
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)

# 顯示詞云
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 隱藏坐標軸
plt.show()

2. 參數詳解

參數	說明	示例值
width	圖像寬度（像素）	800
height	圖像高度	600
background_color	背景色	‘white’, ‘black’
max_words	最大顯示詞數	200
stopwords	停用詞集合	set([‘the’, ‘and’])
colormap	顏色映射	‘viridis’, ‘plasma’
font_path	字體文件路徑	‘msyh.ttc’（微軟雅黑）

四、中文詞云生成方案

1. 中文處理關鍵點

import jieba

text = "自然語言處理是人工智能的重要方向之一。中文分詞是處理中文文本的基礎步驟。"

# 中文分詞處理
seg_text = " ".join(jieba.cut(text))

2. 完整中文示例

from wordcloud import WordCloud
import jieba
import matplotlib.pyplot as plt

# 準備中文文本
text = """數據分析是指用適當的統計分析方法對收集來的大量數據進行分析...
Python在數據分析領域有pandas、numpy等優秀庫支持"""

# 中文分詞
text_cut = " ".join(jieba.cut(text))

# 配置中文字體（重要?。?font_path = 'msyh.ttc'  # 微軟雅黑字體

# 生成詞云
wc = WordCloud(
    font_path=font_path,
    width=1000,
    height=700,
    background_color='white',
    max_words=100
).generate(text_cut)

# 顯示詞云
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

五、高級定制技巧

1. 使用自定義形狀

from PIL import Image
import numpy as np

# 加載形狀蒙版
mask = np.array(Image.open('cloud_shape.png'))

wc = WordCloud(
    mask=mask,
    contour_width=3,
    contour_color='steelblue'
).generate(text)

2. 顏色自定義方案

from wordcloud import ImageColorGenerator

# 基于圖片的顏色方案
image_colors = ImageColorGenerator(mask)
wc.recolor(color_func=image_colors)

3. 詞頻統計與過濾

from collections import Counter

# 手動統計詞頻
words = jieba.cut(text)
word_counts = Counter(words)

# 過濾低頻詞
filtered_counts = {k:v for k,v in word_counts.items() if v > 2}
wc.generate_from_frequencies(filtered_counts)

六、實際應用案例

1. 分析CSV評論數據

import pandas as pd

# 讀取電商評論數據
df = pd.read_csv('reviews.csv')
all_text = " ".join(df['comment'])

# 生成詞云（略，同上）

2. 微博熱搜分析

# 使用jieba.analyse提取關鍵詞
import jieba.analyse

tags = jieba.analyse.extract_tags(text, topK=100, withWeight=True)
word_freq = {tag[0]: tag[1] for tag in tags}

wc.generate_from_frequencies(word_freq)

七、常見問題解決

中文顯示為方框
- 確保正確設置font_path參數
- 下載中文字體（如微軟雅黑）到項目目錄
詞云形狀不規則
- 檢查蒙版圖片是否背景為純白（RGB 255,255,255）
- 調整mask數組的閾值
性能優化建議
- 對于大文本，先進行詞頻統計再生成
- 降低max_words數量
- 使用scale參數縮小畫布比例

八、完整項目示例

"""
電商評論詞云分析系統
1. 讀取評論數據
2. 清洗與分詞
3. 生成定制化詞云
"""

import pandas as pd
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter

# 1. 數據加載
df = pd.read_csv('product_reviews.csv')

# 2. 文本預處理
def clean_text(text):
    # 去除特殊字符、停用詞等
    return text
    
all_text = " ".join(df['comment'].apply(clean_text))
words = [word for word in jieba.cut(all_text) if len(word) > 1]
word_counts = Counter(words)

# 3. 生成詞云
wc = WordCloud(
    font_path='msyh.ttc',
    width=1200,
    height=800,
    background_color='white',
    colormap='viridis',
    max_words=150
).generate_from_frequencies(word_counts)

# 4. 保存結果
plt.figure(figsize=(15, 10))
plt.imshow(wc)
plt.axis('off')
plt.savefig('wordcloud.png', dpi=300, bbox_inches='tight')

九、擴展學習資源

官方文檔：
- wordcloud官方GitHub
- matplotlib文檔
推薦書籍：
- 《Python數據可視化實戰》
- 《自然語言處理入門》
進階方向：
- 結合機器學習進行情感分析
- 開發交互式動態詞云
- 使用Django/Flask構建詞云Web應用

通過本文介紹的方法，您可以快速掌握使用Python生成各種風格的詞云圖，并根據實際需求進行深度定制。詞云不僅是文本分析的工具，更是數據故事講述的有效手段。 “`

注：實際使用時請注意： 1. 需要根據系統環境配置中文字體 2. 示例中的數據文件路徑需要替換為實際路徑 3. 中文處理建議添加自定義詞典和停用詞表 4. 圖片保存格式支持PNG/JPG/SVG等多種格式

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
Python怎么實現柱形圖顯示各單品銷售達成率
下一篇新聞：
帶TLS認證的Python GRPC怎么調用

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女