溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

深入淺析Python中的 jieba分詞的原理

發布時間：2020-11-06 15:13:04 來源：億速云閱讀：344 作者：Leah 欄目：開發技術

深入淺析Python中的 jieba分詞的原理？相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

1、簡要說明

結巴分詞支持三種分詞模式，支持繁體字，支持自定義詞典

2、三種分詞模式

全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非?？?，但是不能解決歧義

精簡模式：把句子最精確的分開，不會添加多余單詞，看起來就像是把句子分割一下

搜索引擎模式：在精簡模式下，對長詞再度切分

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '我去北京天安門廣場跳舞'
  a = jieba.lcut(str1, cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) # 精簡模式
  print('精簡模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜索引擎模式
  print('搜索引擎模式:{}'.format(c))

運行

深入淺析Python中的 jieba分詞的原理

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  str1 = '桃花俠大戰菊花怪'
  b = jieba.lcut(str1, cut_all=False) # 精簡模式
  print('精簡模式:{}'.format(b))
  # 如果不把桃花俠分開
  jieba.add_word('桃花俠')
  d = jieba.lcut(str1) # 默認是精簡模式
  print(d)

運行

深入淺析Python中的 jieba分詞的原理

4、某個單詞必須被分開

# -*- encoding=utf-8 -*-

import jieba

if __name__ == '__main__':
  # HMM參數，默認為True
  '''HMM 模型，即隱馬爾可夫模型（Hidden Markov Model, HMM），是一種基于概率的統計分析模型，
  用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。
  在 jieba 中，對于未登錄到詞庫的詞，使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法，
  其大致原理是：
  采用四個隱含狀態，分別表示為單字成詞，詞組的開頭，詞組的中間，詞組的結尾。
  通過標注好的分詞訓練集，可以得到 HMM 的各個參數，然后使用 Viterbi 算法來解釋測試集，得到分詞結果。
  '''
  str1 = '桃花俠大戰菊花怪'
  b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式，且不使用HMM模型
  print('精簡模式:{}'.format(b))
  # 分開大戰為大和戰
  jieba.suggest_freq(('大', '戰'), True)
  e = jieba.lcut(str1, HMM=False) # 不使用HMM模型
  print('分開:{}'.format(e))

運行

深入淺析Python中的 jieba分詞的原理

看完上述內容，你們掌握深入淺析Python中的 jieba分詞的原理的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

推薦閱讀：

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
在VMware中如何實現安裝蘋果虛擬機
下一篇新聞：
Maven項目中沒有Maven Dependencies的解決方法

猜你喜歡

AI
助
手

產品服務

地區劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網站二維碼

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女