溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python中文分詞庫jieba,pkusegwg性能準確度比較

發布時間:2020-10-21 06:37:08 來源:腳本之家 閱讀:741 作者:簡楊君 欄目:開發技術

Python中文分詞庫jieba,pkusegwg性能準確度比較

中文分詞(Chinese Word Segmentation),將中文語句切割成單獨的詞組。英文使用空格來分開每個單詞的,而中文單獨一個漢字跟詞有時候完全不是同個含義,因此,中文分詞相比英文分詞難度高很多。

分詞主要用于NLP 自然語言處理(Natural Language Processing),使用場景有:

  • 搜索優化,關鍵詞提?。ò俣戎笖担?/li>
  • 語義分析,智能問答系統(客服系統)
  • 非結構化文本媒體內容,如社交信息(微博熱榜)
  • 文本聚類,根據內容生成分類(行業分類)

Python的中文分詞

Python的中文分詞庫有很多,常見的有:

  • jieba(結巴分詞)
  • THULAC(清華大學自然語言處理與社會人文計算實驗室)
  • pkuseg(北京大學語言計算與機器學習研究組)
  • SnowNLP
  • pynlpir
  • CoreNLP
  • pyltp

通常前三個是比較經常見到的,主要在易用性/準確率/性能都還不錯。我個人常用的一直都是結巴分詞(比較早接觸),最近使用pkuseg,兩者的使用后面詳細講。

結巴分詞

簡介

“結巴”中文分詞:做最好的 Python 中文分詞組件

  • 支持三種分詞模式:
    • 精確模式,試圖將句子最精確地切開,適合文本分析;
    • 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義;
    • 搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
  • 支持繁體分詞
  • 支持自定義詞典

jieba分詞實例

我們使用京東商場的美的電器評論來看看結巴分詞的效果。如果你沒有安裝結巴分詞庫則需要在命令行下輸入pip install jieba,安裝完之后即可開始分詞之旅。

評論數據整理在文件meidi_jd.csv文件中,讀取數據前先導入相關庫。因為中文的文本或文件的編碼方式不同編碼選擇gb18030,有時候是utf-8、gb2312、gbk自行測試。

# 導入相關庫
import pandas as pd
import jieba

# 讀取數據
data = pd.read_csv('meidi_jd.csv', encoding='gb18030')

# 查看數據
data.head()

Python中文分詞庫jieba,pkusegwg性能準確度比較

# 生成分詞
data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x)))

data.head()

Python中文分詞庫jieba,pkusegwg性能準確度比較

到這里我們僅僅通過一行代碼即可生成中文的分詞列表,如果你想要生成分詞后去重可以改成這樣。

data['cut'] = data['comment'].apply(lambda x : list(set(jieba.cut(x))))

自定義詞典

經過前面的分詞后,我們可以通過查看分詞是否準確,會發現實際上有些詞被分隔成單獨的漢字,例如:

print(data['cut'].loc[14])

['很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好', '很', '好']

這時候我們就需要導入自定義的詞典,以便包含 jieba 詞庫里沒有的詞。雖然 jieba 有新詞識別能力,但是自行添加新詞可以保證更高的正確率。自定義詞典采用一詞一行,為了演示我添加了“很好”并保存在dict.txt文件中,讓我們開始用自定義的詞典吧!

data['cut'] = data['comment'].apply(lambda x : list(jieba.cut(x)))

data.head()

print(data['cut'].loc[14])

['很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好', '很好']

現在已經按照我們計劃的正確分詞出來了!很好!

停用詞

分詞的過程中我們會發現實際上有些詞實際上意義不大,比如:標點符號、嗯、啊等詞,這個時候我們需要將停用詞去除掉。首先我們需要有個停用詞詞組,可以自定義也可以從網上下載詞庫,這里我們使用網上下載的停用詞文件StopwordsCN.txt。

# 讀取停用詞數據
stopwords = pd.read_csv('StopwordsCN.txt', encoding='utf8', names=['stopword'], index_col=False)

stopwords.head()

Python中文分詞庫jieba,pkusegwg性能準確度比較

接下里我們只要適當更改分詞的代碼即可在分詞的時候去掉停用詞:

# 轉化詞列表
stop_list = stopwords['stopword'].tolist()

# 去除停用詞
data['cut'] = data['comment'].apply(lambda x : [i for i in jieba.cut(x) if i not in stop_list])

data.head()

pkuseg

pkuseg簡單易用,支持細分領域分詞,有效提升了分詞準確度。

簡介

pkuseg具有如下幾個特點:

  1. 多領域分詞。不同于以往的通用中文分詞工具,此工具包同時致力于為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。 我們目前支持了新聞領域,網絡文本領域和混合領域的分詞預訓練模型,同時也擬在近期推出更多的細領域預訓練模型,比如醫藥、旅游、專利、小說等等。
  2. 更高的分詞準確率。相比于其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。
  3. 支持用戶自訓練模型。支持用戶使用全新的標注數據進行訓練。

注:pkuseg目前僅支持Python3,目前已經很多主流庫開始不支持Python2,建議使用Python3版本,如需使用Python2可創建虛擬環境來搭建。

Python中文分詞庫jpkuseg實例

pkuseg的使用跟結巴分詞有一點不一樣,pkuseg需要先創建模型實例再使用實例方法cut。前面有提到pkuseg是支持加載與訓練模型的,這也大大提高了分詞準確性,特別是對細分領域數據集進行分詞,詳細查看GitHub文檔。

import pkuseg

# 以默認配置加載模型
seg = pkuseg.pkuseg() 

# 進行分詞
data['cut'] = data['comment'].apply(lambda x: [i for i in seg.cut(x) if i not in stop_list])

data.head()

Python中文分詞庫jieba,pkusegwg性能準確度比較

自定義詞典

同樣的,pkuseg也支持自定義詞典來提高分詞準確率。

# 使用默認模型,并使用自定義詞典
seg = pkuseg.pkuseg(user_dict='dict.txt') 

# 進行分詞
data['cut'] = data['comment'].apply(lambda x: [i for i in seg.cut(x) if i not in stop_list])

print(data['cut'].loc[14])

自定義預訓練模型

分詞模式下,用戶需要加載預訓練好的模型。pkuseg提供三種不同數據類型訓練得到的模型。

  • MSRA: 在MSRA(新聞語料)上訓練的模型。下載地址
  • CTB8: 在CTB8(新聞文本及網絡文本的混合型語料)上訓練的模型。下載地址
  • WEIBO: 在微博(網絡文本語料)上訓練的模型。下載地址
  • MixedModel: 混合數據集訓練的通用模型。隨pip包附帶的是此模型。下載地址
# 下載后解壓出來,并復制文件夾路徑
file_path = '/Users/jan/anaconda3/lib/python3.6/site-packages/pkuseg/ctb8'

# 加載其他預訓練模型
seg = pkuseg.pkuseg(model_name=file_path)

text = seg.cut('京東商城信得過,買的放心,用的省心、安心、放心!')

print(text)

jieba與pkusegwg性能對比

結巴的分詞速度說明比較簡單,描述中也沒有性能對比,更像是分詞內容和環境。。

  • 1.5 MB / Second in Full Mode
  • 400 KB / Second in Default Mode
  • 測試環境: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《圍城》.txt

相比之下pkuseg選擇jieba、THULAC等國內代表分詞工具包與pkuseg做性能比較。以下是在不同數據集上的對比結果:

Python中文分詞庫jieba,pkusegwg性能準確度比較

從結果看pkuseg在精確度、召回率和F分數上表現得相當不錯。性能方面我使用jupyter notebook進行簡單測試。

%%timeit
data['cut'] = data['comment'].apply(lambda x : [i for i in jieba.cut(x) if i not in stop_list])
%%timeit
data['cut'] = data['comment'].apply(lambda x: [i for i in seg.cut(x) if i not in stop_list])

輸出結果:

結巴:2.54 s ± 3.77 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

pkuseg:7.45 s ± 68.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

從數據結果上看,pkuseg分詞的時間要高于結巴分詞的時間,當然pkuseg提供多進程來進行分詞,性能方面也是可以提高的。

詞頻統計

到這里我們基本是已經學會用Python庫進行分詞,關于詞頻統計的方式也很多,我們先將所有分詞合并在一起方便統計。

# 將所有的分詞合并
words = []

for content in data['cut']:
 words.extend(content)

方式一:

# 創建分詞數據框
corpus = pd.DataFrame(words, columns=['word'])
corpus['cnt'] = 1

# 分組統計
g = corpus.groupby(['word']).agg({'cnt': 'count'}).sort_values('cnt', ascending=False)

g.head(10)

Python中文分詞庫jieba,pkusegwg性能準確度比較

方式二:

# 導入相關庫
from collections import Counter
from pprint import pprint
counter = Counter(words)

# 打印前十高頻詞
pprint(counter.most_common(10))

[('不錯', 3913),

('安裝', 3055),

('好', 2045),

('很好', 1824),

('買', 1634),

('熱水器', 1182),

('挺', 1051),

('師傅', 923),

('美', 894),

('送貨', 821)]

結尾

我個人的使用建議,如果想簡單快速上手分詞可以使用結巴分詞,但如果追求準確度和特定領域分詞可以選擇pkuseg加載模型再分詞。另外jieba和THULAC并沒有提供細分領域預訓練模型,如果想使用自定義模型分詞需使用它們提供的訓練接口在細分領域的數據集上進行訓練,用訓練得到的模型進行中文分詞。

更多關于Python中文分詞庫jieba,pkusegwg的相關文章可以點擊下面的相關鏈接

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女