在python環境下使用結巴分詞自動匯入文字分

2021-03-05 11:50:01 字數 5587 閱讀 4760

1樓:無敵小綿羊啊

# -*- coding: utf-8 -*-import jieba

import jieba.posseg as psegimport jieba.analyse#jieba.

load_userdict('userdict.txt')#jieba預設有一個dict.txt詞庫,但可以根據自己需要加入自己的詞條

2樓:匿名使用者

# -*- coding: utf-8 -*-

import jieba

__author__ = 'lpe234'

seg_list = jieba.cut("我來到北京天安門", cut_all=true)

print ','.join(seg_list)

building prefix dict from the default dictionary ...

loading model from cache /var/folders/sv/cbmmknss3zx9rg7s3wsqgdsc0000gn/t/jieba.cache

我,來到,北京,天安,天安門

loading model cost 0.433 seconds.

prefix dict has been built succesfully.

process finished with exit code 0

3樓:上外培訓中心點

這個是要監控敏感詞嗎???

4樓:匿名使用者

python**

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學

",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #預設模式

seg_list = jieba.cut("他來到了網易杭研大廈")

print ", ".join(seg_list)

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #預設模式

seg_list = jieba.cut("他來到了網易杭研大廈")

print ", ".join(seg_list)

輸出full mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學

default mode: 我/ 來到/ 北京/ 清華大學

他, 來到, 了, 網易, 杭研, 大廈    (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)

怎麼是用python 語言 使用結巴分詞 呢

5樓:匿名使用者

基於trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(dag)

採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合

對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了viterbi演算法

功能 1):分詞

jieba.cut方法接受兩個輸入引數: 1) 第一個引數為需要分詞的字串 2)cut_all引數用來控制是否採用全模式

jieba.cut_for_search方法接受一個引數:需要分詞的字串,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細

注意:待分詞的字串可以是gbk字串、utf-8字串或者unicode

jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator,可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode),也可以用list(jieba.

cut(...))轉化為list

**示例( 分詞 )

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=true)

print "full mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=false)

print "default mode:", "/ ".join(seg_list) # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式

print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式

print ", ".join(seg_list)

output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】:他, 來到, 了, 網易, 杭研, 大廈 (此處,「杭研」並沒有在詞典中,但是也被viterbi演算法識別出來了)

【搜尋引擎模式】: 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

功能 2) :新增自定義詞典

開發者可以指定自己自定義的詞典,以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識別能力,但是自行新增新詞可以保證更高的正確率

用法: jieba.load_userdict(file_name) # file_name為自定義詞典的路徑

詞典格式和dict.txt一樣,一個詞佔一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最後為詞性(可省略),用空格隔開

範例:之前: 李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /

載入自定義詞庫後: 李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲端計算 / 方面 / 的 / 專家 /

自定義詞典

用法示例

"通過使用者自定義詞典來增強歧義糾錯能力

功能 4) : 詞性標註

標註句子分詞後每個詞的詞性,採用和ictclas相容的標記法

用法示例

>>> import jieba.posseg as pseg

>>> words = pseg.cut("我愛北京天安門")

>>> for w in words:

... print w.word, w.flag

...我 r

愛 v北京 ns

天安門 ns

功能 5) : 並行分詞

原理:將目標文字按行分隔後,把各行文字分配到多個python程序並行分詞,然後歸併結果,從而獲得分詞速度的可觀提升

基於python自帶的multiprocessing模組,目前暫不支援windows

用法:jieba.enable_parallel(4) # 開啟並行分詞模式,引數為並行程序數

jieba.disable_parallel() # 關閉並行分詞模式

例子

實驗結果:在4核3.4ghz linux機器上,對金庸全集進行精確分詞,獲得了1mb/s的速度,是單程序版的3.3倍。

功能 6) : tokenize:返回詞語在原文的起始位置

注意,輸入引數只接受unicode

預設模式

result = jieba.tokenize(u'永和服裝飾品****')

for tk in result:

print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和 start: 0 end:2

word 服裝 start: 2 end:4

word 飾品 start: 4 end:6

word **** start: 6 end:10

搜尋模式

result = jieba.tokenize(u'永和服裝飾品****',mode='search')

for tk in result:

print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和 start: 0 end:2

word 服裝 start: 2 end:4

word 飾品 start: 4 end:6

word 有限 start: 6 end:8

word 公司 start: 8 end:10

word **** start: 6 end:10

功能 7) : chineseanalyzer for whoosh搜尋引擎

引用: from jieba.analyse import chineseanalyzer

用法示例

其他詞典

佔用記憶體較小的詞典檔案

支援繁體分詞更好的詞典檔案

Android SDK環境下如何使用adb軟體

adb軟體是在後臺執行的,要想sdk中的adb.exe被eclipse發現,必須將其放在tools資料夾中,新版的sdk中的adb.exe一般放在platform中。android sdk adb怎麼安裝 您只需要找到eclipse或者androidstudio安裝目錄下的platform tool...

在Windows環境中,如何使用「畫圖」程式將桌面上「我的電

用qq截圖就行 另存為選jpg window7電腦桌面圖示格式是什麼?我如何把自己設計的 做為新建資料夾的圖示?那是因為系統文來件夾圖源標是有要求的,格式是ico,大小是64px 64px,按照下面的來做吧,第一步 找一個你喜歡的圖案儲存為bmp格式,然後更改副檔名 將後面的 bmp 改為 ico ...

macbookair在蘋果系統下怎麼使用

採用mac os x的蘋果電腦,其自帶的辦公軟體pages是可以直接開啟.doc 格式的word文件的。如果覺得效果不夠理想,可以自行搜尋或購買微軟為蘋果開發的microsoft office for mac,最新版是2011,基本完美處理所有office文件。如圖所示,為office的三個軟體,目...