如何用Python中的NLTK對中文進行分析和處理

1樓：匿名使用者

一、nltk進行分詞

用到的函式：

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、nltk進行詞性標註

用到的函式：

nltk.pos_tag(tokens)#tokens是句子分詞後的結果，同樣是句子級的標註

三、nltk進行命名實體識別（ner）

用到的函式：

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果，同樣是句子級

上例中，有兩個命名實體，一個是xi,這個應該是per，被錯誤識別為gpe了；另一個事china，被正確識別為gpe。

四、句法分析

nltk沒有好的parser，推薦使用stanfordparser

但是nltk有很好的樹類，該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

2樓：匿名使用者

買本書看 ……

3樓：令梅函靖巧

有很多好用的中文處理包：

jieba：可以用來做分詞，詞性標註，textrankhanlp：分詞，命名實體識別，依存句法分析，還有fudannlp，nlpir

個人覺得都比nltk好用～

如何用 python 中的 nltk 對中文進行分析和處理

4樓：蛋包飯配冰紅茶

我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文字表達的形式。

中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文字進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。

中文分詞之後，文字就是一個由每個片語成的長陣列：[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文字了。

比如用freqdist 統計文字詞頻，用bigrams 把文字變成雙片語的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。

如何用 python 中的 nltk 對中文進行分析和處理

5樓：匿名使用者

一、nltk進行分bai

詞用到的函式：

nltk.sent_tokenize(text) #對文字

du按照句子zhi進行dao分割

nltk.word_tokenize(sent) #對句子進行分詞

二、nltk進行詞內性標註容

用到的函式：

nltk.pos_tag(tokens)#tokens是句子分詞後的結果，同樣是句子級的標註

三、nltk進行命名實體識別（ner）

用到的函式：

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果，同樣是句子級

上例中，有兩個命名實體，一個是xi,這個應該是per，被錯誤識別為gpe了；另一個事china，被正確識別為gpe。

四、句法分析

nltk沒有好的parser，推薦使用stanfordparser

但是nltk有很好的樹類，該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

如何用 python 中的 nltk 對中文進行分析和處理

6樓：匿名使用者

有很多好用的中文處理包：

jieba：可以用來做分詞，詞性標註，textrankhanlp：分詞，命名實體識別，依存句法分析，還有fudannlp，nlpir

個人覺得都比nltk好用～

如何用 python 中的 nltk 對中文進行分析和處理

7樓：浮生甲天下

用到的函式：

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

如何用 python 中的 nltk 對中文進行分析和處理

8樓：育知同創教育

一、nltk進行分

詞用到的函式：

nltk.sent_tokenize(text) #對文字按照句子進行分割

nltk.word_tokenize(sent) #對句子進行分詞

二、版nltk進行詞性標註

用到的函權數：

nltk.pos_tag(tokens)#tokens是句子分詞後的結果，同樣是句子級的標註

三、nltk進行命名實體識別（ner）

用到的函式：

nltk.ne_chunk(tags)#tags是句子詞性標註後的結果，同樣是句子級

上例中，有兩個命名實體，一個是xi,這個應該是per，被錯誤識別為gpe了；另一個事china，被正確識別為gpe。

四、句法分析

nltk沒有好的parser，推薦使用stanfordparser

但是nltk有很好的樹類，該類用list實現

可以利用stanfordparser的輸出構建一棵python的句法樹

如何使用python中的nltk對哈薩克語或阿拉伯語進行句法分析

9樓：

如果是英語和西班牙語可以用

使用這個模組可以對名詞的單複數進行版轉換及字元操作。權

python nltk 怎麼樣使用中文?

10樓：匿名使用者

nltk裡面提供的函式應該不可能用於中文吧。

分詞就沒法分，剩下的就都做不了了

即使設定一下編碼什麼的，也沒什麼意義啊

如果我說錯了就錯了吧，留個名，看看其他人怎麼回答。哈哈

11樓：匿名使用者

在開始寫上

#!-*- coding:utf8 -*-如果其中讀取的檔案有中文可以用

s="你好回"

s.decode('gbk'),encode('utf8')s.decode('gb2312'),encode('utf8')這樣的方式來嘗試一下答

如何用python將標籤檔案裡的座標對對應資料夾的影象

可以通過python核心類庫來操作網頁表單，但有些時候更友好的可以讓生活更美好。當你開始使用urllib類庫的get請求做更多事情的時候，放眼python核心庫之外也許更有幫助。如何在python中從呼叫cv2.imread 後得到的中擷取一塊矩形部分？參考 python使用matplotlib...

作業系統如何用python批量修改檔案建立時間

import os.path,time import exceptions class typeerror exception pass if name main if len os.sys.argv 1 raise typeerror else print os.sys.argv 0 s os.s...

python如何讀取網頁中的資料

就是屬於網頁抓取，可參考如何用python，c 等語言去實現抓取靜態網頁模擬登陸裡面有邏輯解釋和此處不能貼地址，可以通過google搜標題，即可找到帖子地址不知道你說的網頁是指的什麼，如果你說的是我儲存了一網頁在你的電腦上，那就直接用open函式開啟，read函式讀就行了。如果你說的是某個...

如何用Python中的NLTK對中文進行分析和處理

如何用python將標籤檔案裡的座標對對應資料夾的影象

作業系統如何用python批量修改檔案建立時間

python如何讀取網頁中的資料

相關推薦