久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

「Python實戰項目」針對醫療數據進行命名實體識別

一.什么是命名實體識別

二.基于NLTK的命名實體識別

三.基于Stanford的NER

四.【實戰案例】醫學糖尿病數據命名實體識別

一 、什么是命名實體識別?

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。通常包括兩部分:(1)實體邊界識別;(2) 確定實體類別(人名、地名、機構名或其他)。

命名實體識別通常是知識挖掘、信息抽取的第一步,被廣泛應用在自然語言處理領域。接下來,我們將介紹常用的兩種命名實體識別的方法。

二 、基于NLTK的命名實體識別:

NLTK:由賓夕法尼亞大學計算機和信息科學使用python語言實現的一種自然語言工具包,其收集的大量公開數據集、模型上提供了全面、易用的接口,涵蓋了分詞、詞性標注(Part-Of-Speech tag, POS-tag)、命名實體識別(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各項NLP領域的功能。

使用前需要先下載NLTK,下載地址為:http://pypi.python.org/pypi/nltk,安裝完成后,在python環境下輸入import nltk測試是否安裝成功,然后輸入nltk.download()下載nltk所需要的數據包,完成安裝。

Python代碼實現(注意文件的編碼格式為utf-8無BOM格式):

-- coding: utf-8 --

import sys

reload(sys)

sys.setdefaultencoding(‘utf8’) #讓cmd識別正確的編碼

import nltk

newfile = open(‘news.txt’)

text = newfile.read() #讀取文件

tokens = nltk.word_tokenize(text) #分詞

tagged = nltk.pos_tag(tokens) #詞性標注

entities = nltk.chunk.ne_chunk(tagged) #命名實體識別

a1=str(entities) #將文件轉換為字符串

file_object = open(‘out.txt’, ‘w’)

file_object.write(a1) #寫入到文件中

file_object.close( )

print entities

具體的方法可參考NLTK官網介紹:http://www.nltk.org/,輸出的結果為:

>>> entities = nltk.chunk.ne_chunk(tagged)

>>> entities

Tree(‘S’, [(‘At’, ‘IN’), (‘eight’, ‘CD’), (“o’clock”, ‘JJ’),

(‘on’, ‘IN’), (‘Thursday’, ‘NNP’), (‘morning’, ‘NN’),

Tree(‘PERSON’, [(‘Arthur’, ‘NNP’)]),

(‘did’, ‘VBD’), (“n’t”, ‘RB’), (‘feel’, ‘VB’),

(‘very’, ‘RB’), (‘good’, ‘JJ’), (‘.’, ‘.’)])

當然為了方便查看,我們可以以樹結構的形式把結果繪制出來:

>>> from nltk.corpus import treebank

>>> t = treebank.parsed_sents(‘wsj_0001.mrg’)[0]

>>> t.draw()

三 、基于Stanford的NER:

Stanford Named Entity Recognizer (NER)是斯坦福大學自然語言研究小組發布的成果之一,主頁是:http://nlp.stanford.edu/software/CRF-NER.shtml。Stanford NER 是一個Java實現的命名實體識別(以下簡稱NER))程序。NER將文本中的實體按類標記出來,例如人名,公司名,地區,基因和蛋白質的名字等。

NER基于一個訓練而得的Model(模型可識別出 Time, Location, Organization, Person, Money, Percent, Date)七類屬性,其用于訓練的數據即大量人工標記好的文本,理論上用于訓練的數據量越大,NER的識別效果就越好。

因為原始的NER是基于java實現的,所以在使用Python編程之前,要確保自己電腦上已經安裝了jar1.8的環境(否則會報關于Socket的錯誤)。

然后我們使用Pyner使用python語言實現命名實體識別。下載地址為:https://github.com/dat/pyner

安裝Pyner:解壓下載的Pyner,命令行中將工作目錄切換到Pyner文件夾下, 輸入命令 :python setup.py install 完成安裝.

接下來,還需要下載StanfordNER工具包,下載地址為:http://nlp.stanford.edu/software/stanford-ner-2014-01-04.zip,然后在解壓后的目錄打開cmd命令窗體,執行,java -mx1000m -cp stanford-ner.jar edu.stanford.nlp.ie.NERServer -loadClassifier classifiers/english.muc.7class.distsim.crf.ser.gz -port 8080 -outputFormat inlineXML,直到結果為:Loading classifier from classifiers/english.muc.7class.distsim.crf.ser.gz … done [1.2 sec].

以上操作是因為斯坦福的命名實體識別是基于java的socket寫的,所以必要保證有一個窗題與我們執行的命令通信。最后,我們終于可以使用python編程實現NER了:

import ner

import sys

import nltk

reload(sys)

sys.setdefaultencoding(‘utf8’)

newfile = open(‘news.txt’)

text = newfile.read()

tagger = ner.SocketNER(host=’localhost’, port=8080)#socket編程

result=tagger.get_entities(text) #stanford實現NER

a1=str(result)

file_object = open(‘outfile.txt’, ‘w’)

file_object.write(a1)

file_object.close( )

print result

今天的分享到這里就結束了,希望大家持續關注馬哥教育官網,每天都會有大量優質內容與大家分享!聲明;文章轉載于網絡,版權歸原作者所有,如有侵權請及時聯系刪除!

相關新聞

歷經多年發展,已成為國內好評如潮的Linux云計算運維、SRE、Devops、網絡安全、云原生、Go、Python開發專業人才培訓機構!

    1. 主站蜘蛛池模板: 涪陵区| 祁门县| 鹿泉市| 东乡县| 红河县| 姚安县| 仲巴县| 确山县| 汪清县| 合川市| 蒙城县| 德保县| 屏东县| 北票市| 定陶县| 四会市| 芒康县| 鸡西市| 吉安市| 沂南县| 淮滨县| 丰顺县| 兴宁市| 郓城县| 鄱阳县| 元阳县| 兴义市| 石阡县| 册亨县| 长海县| 南木林县| 松滋市| 通州区| 衡阳县| 嵊泗县| 双鸭山市| 瑞昌市| 五莲县| 石首市| 郎溪县| 沭阳县|