在python環境下使用結巴分詞自動匯入文字分

1樓：無敵小綿羊啊

# -*- coding: utf-8 -*-import jieba

import jieba.posseg as psegimport jieba.analyse#jieba.

load_userdict('userdict.txt')#jieba預設有一個dict.txt詞庫，但可以根據自己需要加入自己的詞條

2樓：匿名使用者

# -*- coding: utf-8 -*-

import jieba

__author__ = 'lpe234'

seg_list = jieba.cut("我來到北京天安門", cut_all=true)

print ','.join(seg_list)

building prefix dict from the default dictionary ...

loading model from cache /var/folders/sv/cbmmknss3zx9rg7s3wsqgdsc0000gn/t/jieba.cache

我,來到,北京,天安,天安門

loading model cost 0.433 seconds.

prefix dict has been built succesfully.

process finished with exit code 0

3樓：上外培訓中心點

這個是要監控敏感詞嗎？？？

4樓：匿名使用者

python**

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學

",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #預設模式

seg_list = jieba.cut("他來到了網易杭研大廈")

print ", ".join(seg_list)

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=true)

print "full mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=false)

print "default mode:", "/ ".join(seg_list) #預設模式

seg_list = jieba.cut("他來到了網易杭研大廈")

print ", ".join(seg_list)

輸出full mode: 我/ 來/ 來到/ 到/ 北/ 北京/ 京/ 清/ 清華/ 清華大學/ 華/ 華大/ 大/ 大學/ 學

default mode: 我/ 來到/ 北京/ 清華大學

他, 來到, 了, 網易, 杭研, 大廈 (此處，「杭研」並沒有在詞典中，但是也被viterbi演算法識別出來了)

怎麼是用python 語言使用結巴分詞呢

5樓：匿名使用者

基於trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（dag)

採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合

對於未登入詞，採用了基於漢字成詞能力的hmm模型，使用了viterbi演算法

功能 1)：分詞

jieba.cut方法接受兩個輸入引數: 1) 第一個引數為需要分詞的字串 2）cut_all引數用來控制是否採用全模式

jieba.cut_for_search方法接受一個引數：需要分詞的字串,該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細

注意：待分詞的字串可以是gbk字串、utf-8字串或者unicode

jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator，可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.

cut(...))轉化為list

**示例( 分詞 )

#encoding=utf-8

import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=true)

print "full mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=false)

print "default mode:", "/ ".join(seg_list) # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式

print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造") # 搜尋引擎模式

print ", ".join(seg_list)

output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈 (此處，「杭研」並沒有在詞典中，但是也被viterbi演算法識別出來了)

【搜尋引擎模式】：小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

功能 2) ：新增自定義詞典

開發者可以指定自己自定義的詞典，以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識別能力，但是自行新增新詞可以保證更高的正確率

用法： jieba.load_userdict(file_name) # file_name為自定義詞典的路徑

詞典格式和dict.txt一樣，一個詞佔一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最後為詞性（可省略），用空格隔開

範例：之前：李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /

載入自定義詞庫後：　李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲端計算 / 方面 / 的 / 專家 /

自定義詞典

用法示例

"通過使用者自定義詞典來增強歧義糾錯能力

功能 4) : 詞性標註

標註句子分詞後每個詞的詞性，採用和ictclas相容的標記法

用法示例

>>> import jieba.posseg as pseg

>>> words = pseg.cut("我愛北京天安門")

>>> for w in words:

... print w.word, w.flag

...我 r

愛 v北京 ns

天安門 ns

功能 5) : 並行分詞

原理：將目標文字按行分隔後，把各行文字分配到多個python程序並行分詞，然後歸併結果，從而獲得分詞速度的可觀提升

基於python自帶的multiprocessing模組，目前暫不支援windows

用法：jieba.enable_parallel(4) # 開啟並行分詞模式，引數為並行程序數

jieba.disable_parallel() # 關閉並行分詞模式

例子

實驗結果：在4核3.4ghz linux機器上，對金庸全集進行精確分詞，獲得了1mb/s的速度，是單程序版的3.3倍。

功能 6) : tokenize：返回詞語在原文的起始位置

注意，輸入引數只接受unicode

預設模式

result = jieba.tokenize(u'永和服裝飾品****')

for tk in result:

print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和 start: 0 end:2

word 服裝 start: 2 end:4

word 飾品 start: 4 end:6

word **** start: 6 end:10

搜尋模式

result = jieba.tokenize(u'永和服裝飾品****',mode='search')

for tk in result:

print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和 start: 0 end:2

word 服裝 start: 2 end:4

word 飾品 start: 4 end:6

word 有限 start: 6 end:8

word 公司 start: 8 end:10

word **** start: 6 end:10

功能 7) : chineseanalyzer for whoosh搜尋引擎

引用： from jieba.analyse import chineseanalyzer

用法示例

其他詞典

佔用記憶體較小的詞典檔案

支援繁體分詞更好的詞典檔案

Android SDK環境下如何使用adb軟體

adb軟體是在後臺執行的，要想sdk中的adb.exe被eclipse發現，必須將其放在tools資料夾中，新版的sdk中的adb.exe一般放在platform中。android sdk adb怎麼安裝您只需要找到eclipse或者androidstudio安裝目錄下的platform tool...

在Windows環境中，如何使用「畫圖」程式將桌面上「我的電

用qq截圖就行另存為選jpg window7電腦桌面圖示格式是什麼？我如何把自己設計的做為新建資料夾的圖示？那是因為系統文來件夾圖源標是有要求的，格式是ico，大小是64px 64px，按照下面的來做吧，第一步找一個你喜歡的圖案儲存為bmp格式，然後更改副檔名將後面的 bmp 改為 ico ...

macbookair在蘋果系統下怎麼使用

採用mac os x的蘋果電腦，其自帶的辦公軟體pages是可以直接開啟.doc 格式的word文件的。如果覺得效果不夠理想，可以自行搜尋或購買微軟為蘋果開發的microsoft office for mac，最新版是2011，基本完美處理所有office文件。如圖所示，為office的三個軟體，目...

在python環境下使用結巴分詞自動匯入文字分

Android SDK環境下如何使用adb軟體

在Windows環境中，如何使用「畫圖」程式將桌面上「我的電

macbookair在蘋果系統下怎麼使用

相關推薦