深入淺析Python中的 jieba分詞的原理?相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。
1、簡要說明
結巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典
2、三種分詞模式
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義
精簡模式:把句子最精確的分開,不會添加多余單詞,看起來就像是把句子分割一下
搜索引擎模式:在精簡模式下,對長詞再度切分
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安門廣場跳舞' a = jieba.lcut(str1, cut_all=True) # 全模式 print('全模式:{}'.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print('搜索引擎模式:{}'.format(c))
運行
3、某個詞語不能被分開
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '桃花俠大戰菊花怪' b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) # 如果不把桃花俠分開 jieba.add_word('桃花俠') d = jieba.lcut(str1) # 默認是精簡模式 print(d)
運行
4、 某個單詞必須被分開
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': # HMM參數,默認為True '''HMM 模型,即隱馬爾可夫模型(Hidden Markov Model, HMM),是一種基于概率的統計分析模型, 用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。 在 jieba 中,對于未登錄到詞庫的詞,使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法, 其大致原理是: 采用四個隱含狀態,分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結尾。 通過標注好的分詞訓練集,可以得到 HMM 的各個參數,然后使用 Viterbi 算法來解釋測試集,得到分詞結果。 ''' str1 = '桃花俠大戰菊花怪' b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式,且不使用HMM模型 print('精簡模式:{}'.format(b)) # 分開大戰為大和戰 jieba.suggest_freq(('大', '戰'), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print('分開:{}'.format(e))
運行
看完上述內容,你們掌握深入淺析Python中的 jieba分詞的原理的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。