Python文本预处理的基本步骤,讨论文本预处理过程所需要的工具

本文将讨论文本预处理的基本步骤,旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外,本文还将进一步讨论文本预处理过程所需要的工具。
当拿到一个文本后,首先从文本正则化(text normalization)处理开始。常见的文本正则化步骤包括:
将文本中出现的所有字母转换为小写或大写
将文本中的数字转换为单词或删除这些数字
删除文本中出现的标点符号、重音符号以及其他变音符号
删除文本中的空白区域
扩展文本中出现的缩写
删除文本中出现的终止词、稀疏词和特定词
文本规范化(text canonicalization)
下面将详细描述上述文本正则化步骤。
将文本中出现的字母转化为小写
示例1:将字母转化为小写
python 实现代码:
input_str=”the5biggestcountriesbypopulationin2017arechina,india,unitedstates,indonesia,andbrazil.”input_str=input_str.lower()print(input_str)
输出:
the5biggestcountriesbypopulationin2017arechina,india,unitedstates,indonesia,andbrazil.
删除文本中出现的数字
如果文本中的数字与文本分析无关的话,那就删除这些数字。通常,正则化表达式可以帮助你实现这一过程。
示例2:删除数字
python 实现代码:
importreinput_str=’boxacontains3redand5whiteballs,whileboxbcontains4redand2blueballs.’result=re.sub(r’d+’,‘’,input_str)print(result)
输出:
boxacontainsredandwhiteballs,whileboxbcontainsredandblueballs.
删除文本中出现的标点
以下示例代码演示如何删除文本中的标点符号,如[!”#$%&’()*+,-./:;?@[]^_`{|}~] 等符号。
示例3:删除标点
python 实现代码:
importstringinput_str=“this&is[an]example?{of}string.with.?punctuation!!!!”#samplestringresult=input_str.translate(string.maketrans(“”,””),string.punctuation)print(result)
输出:
thisisanexampleofstringwithpunctuation
删除文本中出现的空格
可以通过 strip()函数移除文本前后出现的空格。
示例4:删除空格
python 实现代码:
input_str=“ astringexample “input_str=input_str.strip()input_str
输出:
‘astringexample’
符号化(tokenization)
符号化是将给定的文本拆分成每个带标记的小模块的过程,其中单词、数字、标点及其他符号等都可视为是一种标记。在下表中(tokenization sheet),罗列出用于实现符号化过程的一些常用工具。
删除文本中出现的终止词
终止词(stop words)指的是“a”,“a”,“on”,“is”,“all”等语言中最常见的词。这些词语没什么特别或重要意义,通常可以从文本中删除。一般使用natural language toolkit(nltk)来删除这些终止词,这是一套专门用于符号和自然语言处理统计的开源库。
示例7:删除终止词
实现代码:
input_str=“nltkisaleadingplatformforbuildingpythonprogramstoworkwithhumanlanguagedata.”stop_words=set(stopwords.words(‘english’))fromnltk.tokenizeimportword_tokenizetokens=word_tokenize(input_str)result=[iforiintokensifnotiinstop_words]print(result)
输出:
[‘nltk’,‘leading’,‘platform’,‘building’,‘python’,‘programs’,‘work’,‘human’,‘language’,‘data’,‘.’]
此外,scikit-learn也提供了一个用于处理终止词的工具:
fromsklearn.feature_extraction.stop_wordsimportenglish_stop_words
同样,spacy也有一个类似的处理工具:
fromspacy.lang.en.stop_wordsimportstop_words
删除文本中出现的稀疏词和特定词
在某些情况下,有必要删除文本中出现的一些稀疏术语或特定词。考虑到任何单词都可以被认为是一组终止词,因此可以通过终止词删除工具来实现这一目标。
词干提取(stemming)
词干提取是一个将词语简化为词干、词根或词形的过程(如books-book,looked-look)。当前主流的两种算法是porter stemming算法(删除单词中删除常见的形态和拐点结尾)和lancaster stemming算法。
示例8:使用 nlyk 实现词干提取
实现代码:
fromnltk.stemimportporterstemmerfromnltk.tokenizeimportword_tokenizestemmer=porterstemmer()input_str=”thereareseveraltypesofstemmingalgorithms.”input_str=word_tokenize(input_str)forwordininput_str:print(stemmer.stem(word))
输出:
therearesevertypeofstemalgorithm.
词形还原(lemmatization)
词形还原的目的,如词干过程,是将单词的不同形式还原到一个常见的基础形式。与词干提取过程相反,词形还原并不是简单地对单词进行切断或变形,而是通过使用词汇知识库来获得正确的单词形式。
当前常用的词形还原工具库包括:nltk(wordnet lemmatizer),spacy,textblob,pattern,gensim,stanford corenlp,基于内存的浅层解析器(mbsp),apache opennlp,apache lucene,文本工程通用架构(gate),illinois lemmatizer和dkpro core。
示例 9:使用 nlyk 实现词形还原
实现代码:
fromnltk.stemimportwordnetlemmatizerfromnltk.tokenizeimportword_tokenizelemmatizer=wordnetlemmatizer()input_str=”beenhaddonelanguagescitiesmice”input_str=word_tokenize(input_str)forwordininput_str:print(lemmatizer.lemmatize(word))
输出:
behavedolanguagecitymouse
词性标注(pos)
词性标注旨在基于词语的定义和上下文意义,为给定文本中的每个单词(如名词、动词、形容词和其他单词)分配词性。当前有许多包含pos标记器的工具,包括nltk,spacy,textblob,pattern,stanford corenlp,基于内存的浅层分析器(mbsp),apache opennlp,apache lucene,文本工程通用架构(gate),freeling,illinois part of speech tagger和dkpro core。
示例 10:使用 textblob 实现词性标注
实现代码:
input_str=”partsofspeechexamples:anarticle,towrite,interesting,easily,and,of”fromtextblobimporttextblobresult=textblob(input_str)print(result.tags)
输出:
[(‘parts’,u’nns’),(‘of’,u’in’),(‘speech’,u’nn’),(‘examples’,u’nns’),(‘an’,u’dt’),(‘article’,u’nn’),(‘to’,u’to’),(‘write’,u’vb’),(‘interesting’,u’vbg’),(‘easily’,u’rb’),(‘and’,u’cc’),(‘of’,u’in’)]
词语分块(浅解析)
词语分块是一种识别句子中的组成部分(如名词、动词、形容词等),并将它们链接到具有不连续语法意义的高阶单元(如名词组或短语、动词组等)的自然语言过程。常用的词语分块工具包括:nltk,treetagger chunker,apache opennlp,文本工程通用架构(gate),freeling。
示例 11:使用 nlyk 实现词语分块
第一步需要确定每个单词的词性。
实现代码:
input_str=”ablacktelevisionandawhitestovewereboughtforthenewapartmentofjohn.”fromtextblobimporttextblobresult=textblob(input_str)print(result.tags)
输出:
[(‘a’,u’dt’),(‘black’,u’jj’),(‘television’,u’nn’),(‘and’,u’cc’),(‘a’,u’dt’),(‘white’,u’jj’),(‘stove’,u’nn’),(‘were’,u’vbd’),(‘bought’,u’vbn’),(‘for’,u’in’),(‘the’,u’dt’),(‘new’,u’jj’),(‘apartment’,u’nn’),(‘of’,u’in’),(‘john’,u’nnp’)]
第二部就是进行词语分块
实现代码:
reg_exp=“np:{
?*}”rp=nltk.regexpparser(reg_exp)result=rp.parse(result.tags)print(result) 输出:
(s(npa/dtblack/jjtelevision/nn)and/cc(npa/dtwhite/jjstove/nn)were/vbdbought/vbnfor/in(npthe/dtnew/jjapartment/nn)of/injohn/nnp)
也可以通过result.draw()函数绘制句子树结构图,如下图所示。
命名实体识别(named entity recognition)
命名实体识别(ner)旨在从文本中找到命名实体,并将它们划分到事先预定义的类别(人员、地点、组织、时间等)。
常见的命名实体识别工具如下表所示,包括:nltk,spacy,文本工程通用架构(gate) -- annie,apache opennlp,stanford corenlp,dkpro核心,mitie,watson nlp,textrazor,freeling等。
示例12:使用textblob实现词性标注
实现代码:
fromnltkimportword_tokenize,pos_tag,ne_chunkinput_str=“billworksforapplesohewenttobostonforaconference.”printne_chunk(pos_tag(word_tokenize(input_str)))
输出:
(s(personbill/nnp)works/vbzfor/inapple/nnpso/inhe/prpwent/vbdto/to(gpeboston/nnp)for/ina/dtconference/nn./.)
共指解析coreference resolution(回指分辨率anaphora resolution)
代词和其他引用表达应该与正确的个体联系起来。coreference resolution在文本中指的是引用真实世界中的同一个实体。如在句子“安德鲁说他会买车”中,代词“他”指的是同一个人,即“安德鲁”。常用的coreference resolution工具如下表所示,包括stanford corenlp,spacy,open calais,apache opennlp等。
搭配提取(collocation extraction)
搭配提取过程并不是单独、偶然发生的,它是与单词组合一同发生的过程。该过程的示例包括“打破规则break the rules”,“空闲时间free time”,“得出结论draw a conclusion”,“记住keep in mind”,“准备好get ready”等。
示例 13:使用ice实现搭配提取
实现代码:
input=[“heandchazzduelwithallkeysontheline.”]fromiceimportcollocationextractorextractor=collocationextractor.with_collocation_pipeline(“t1”,bing_key=“temp”,pos_check=false)print(extractor.get_collocations_of_length(input,length=3))
输出:
[“ontheline”]
关系提取(relationship extraction)
关系提取过程是指从非结构化的数据源(如原始文本)获取结构化的文本信息。严格来说,它确定了命名实体(如人、组织、地点的实体)之间的关系(如配偶、就业等关系)。例如,从“昨天与mark和emily结婚”这句话中,我们可以提取到的信息是mark是emily的丈夫。
总结
本文讨论文本预处理及其主要步骤,包括正则化、符号化、词干化、词形还原、词语分块、词性标注、命名实体识别、共指解析、搭配提取和关系提取。还通过一些表格罗列出常见的文本预处理工具及所对应的示例。在完成这些预处理工作后,得到的结果可以用于更复杂的nlp任务,如机器翻译、自然语言生成等任务。

一位开发工程师的创业经历 是如何在两年时间从3万到300万的
《人工智能技术的实践与创新》的分享
智芯传感ZXP0电容式大气压力传感器 拓展多领域创新应用
热电偶测温仪工作原理_热电偶测温仪优缺点
忆联SSD多款产品成功通过PCI-SIG、UNH-IOL等多项权威认证
Python文本预处理的基本步骤,讨论文本预处理过程所需要的工具
紫光展锐5G样机达到可商用水平,全面验证通过
PCB印制电路基础及关键注意事项
相约上海·百度Apollo Park,成为AI超凡玩家,一起为热爱加速!
选择实用型扫地机器人 首先考虑国际化口碑大品牌
11种常用模块电路分享
5G将加持人工智能迎来最好的黄金时间
共模电感的感量会随着频率变化吗
ADI推出NatureVue超高清视频信号处理器
创世纪(Genesis)宣布推出HOLM 510 RGB游戏桌
一种大电荷处理能力红外探测器读出电路像素设计
倍捷连接器携各知名连接器品牌亮相慕尼黑华南电子展
NTC热敏电阻的封装形式有哪些呢?
NTC和PAN系列热敏电阻温度传感器的特性
Linear推出LT3958升压SEPIC和正负输出dcdc转换器