Python文本预处理的基本步骤，讨论文本预处理过程所需要的工具

本文将讨论文本预处理的基本步骤，旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外，本文还将进一步讨论文本预处理过程所需要的工具。
当拿到一个文本后，首先从文本正则化（text normalization）处理开始。常见的文本正则化步骤包括：
将文本中出现的所有字母转换为小写或大写
将文本中的数字转换为单词或删除这些数字
删除文本中出现的标点符号、重音符号以及其他变音符号
删除文本中的空白区域
扩展文本中出现的缩写
删除文本中出现的终止词、稀疏词和特定词
文本规范化（text canonicalization）
下面将详细描述上述文本正则化步骤。
将文本中出现的字母转化为小写
示例1：将字母转化为小写
python 实现代码：
input_str=”the5biggestcountriesbypopulationin2017arechina,india,unitedstates,indonesia,andbrazil.”input_str=input_str.lower()print(input_str)
输出：
the5biggestcountriesbypopulationin2017arechina,india,unitedstates,indonesia,andbrazil.
删除文本中出现的数字
如果文本中的数字与文本分析无关的话，那就删除这些数字。通常，正则化表达式可以帮助你实现这一过程。
示例2：删除数字
python 实现代码：
importreinput_str=’boxacontains3redand5whiteballs,whileboxbcontains4redand2blueballs.’result=re.sub(r’d+’,‘’,input_str)print(result)
输出：
boxacontainsredandwhiteballs,whileboxbcontainsredandblueballs.
删除文本中出现的标点
以下示例代码演示如何删除文本中的标点符号，如[!”#$%&’()*+,-./:;?@[]^_`{|}~] 等符号。
示例3：删除标点
python 实现代码：
importstringinput_str=“this&is[an]example?{of}string.with.?punctuation!!!!”#samplestringresult=input_str.translate(string.maketrans(“”,””),string.punctuation)print(result)
输出：
thisisanexampleofstringwithpunctuation
删除文本中出现的空格
可以通过 strip()函数移除文本前后出现的空格。
示例4：删除空格
python 实现代码：
input_str=“ astringexample “input_str=input_str.strip()input_str
输出：
‘astringexample’
符号化（tokenization）
符号化是将给定的文本拆分成每个带标记的小模块的过程，其中单词、数字、标点及其他符号等都可视为是一种标记。在下表中（tokenization sheet），罗列出用于实现符号化过程的一些常用工具。
删除文本中出现的终止词
终止词（stop words）指的是“a”，“a”，“on”，“is”，“all”等语言中最常见的词。这些词语没什么特别或重要意义，通常可以从文本中删除。一般使用natural language toolkit（nltk）来删除这些终止词，这是一套专门用于符号和自然语言处理统计的开源库。
示例7：删除终止词
实现代码：
input_str=“nltkisaleadingplatformforbuildingpythonprogramstoworkwithhumanlanguagedata.”stop_words=set(stopwords.words(‘english’))fromnltk.tokenizeimportword_tokenizetokens=word_tokenize(input_str)result=[iforiintokensifnotiinstop_words]print(result)
输出：
[‘nltk’,‘leading’,‘platform’,‘building’,‘python’,‘programs’,‘work’,‘human’,‘language’,‘data’,‘.’]
此外，scikit-learn也提供了一个用于处理终止词的工具：
fromsklearn.feature_extraction.stop_wordsimportenglish_stop_words
同样，spacy也有一个类似的处理工具：
fromspacy.lang.en.stop_wordsimportstop_words
删除文本中出现的稀疏词和特定词
在某些情况下，有必要删除文本中出现的一些稀疏术语或特定词。考虑到任何单词都可以被认为是一组终止词，因此可以通过终止词删除工具来实现这一目标。
词干提取（stemming）
词干提取是一个将词语简化为词干、词根或词形的过程（如books-book，looked-look）。当前主流的两种算法是porter stemming算法（删除单词中删除常见的形态和拐点结尾）和lancaster stemming算法。
示例8：使用 nlyk 实现词干提取
实现代码：
fromnltk.stemimportporterstemmerfromnltk.tokenizeimportword_tokenizestemmer=porterstemmer()input_str=”thereareseveraltypesofstemmingalgorithms.”input_str=word_tokenize(input_str)forwordininput_str:print(stemmer.stem(word))
输出：
therearesevertypeofstemalgorithm.
词形还原（lemmatization）
词形还原的目的，如词干过程，是将单词的不同形式还原到一个常见的基础形式。与词干提取过程相反，词形还原并不是简单地对单词进行切断或变形，而是通过使用词汇知识库来获得正确的单词形式。
当前常用的词形还原工具库包括：nltk（wordnet lemmatizer），spacy，textblob，pattern，gensim，stanford corenlp，基于内存的浅层解析器（mbsp），apache opennlp，apache lucene，文本工程通用架构（gate），illinois lemmatizer和dkpro core。
示例 9：使用 nlyk 实现词形还原
实现代码：
fromnltk.stemimportwordnetlemmatizerfromnltk.tokenizeimportword_tokenizelemmatizer=wordnetlemmatizer()input_str=”beenhaddonelanguagescitiesmice”input_str=word_tokenize(input_str)forwordininput_str:print(lemmatizer.lemmatize(word))
输出：
behavedolanguagecitymouse
词性标注（pos）
词性标注旨在基于词语的定义和上下文意义，为给定文本中的每个单词（如名词、动词、形容词和其他单词）分配词性。当前有许多包含pos标记器的工具，包括nltk，spacy，textblob，pattern，stanford corenlp，基于内存的浅层分析器（mbsp），apache opennlp，apache lucene，文本工程通用架构（gate），freeling，illinois part of speech tagger和dkpro core。
示例 10：使用 textblob 实现词性标注
实现代码：
input_str=”partsofspeechexamples:anarticle,towrite,interesting,easily,and,of”fromtextblobimporttextblobresult=textblob(input_str)print(result.tags)
输出：
[(‘parts’,u’nns’),(‘of’,u’in’),(‘speech’,u’nn’),(‘examples’,u’nns’),(‘an’,u’dt’),(‘article’,u’nn’),(‘to’,u’to’),(‘write’,u’vb’),(‘interesting’,u’vbg’),(‘easily’,u’rb’),(‘and’,u’cc’),(‘of’,u’in’)]
词语分块（浅解析）
词语分块是一种识别句子中的组成部分（如名词、动词、形容词等），并将它们链接到具有不连续语法意义的高阶单元（如名词组或短语、动词组等）的自然语言过程。常用的词语分块工具包括：nltk，treetagger chunker，apache opennlp，文本工程通用架构（gate），freeling。
示例 11：使用 nlyk 实现词语分块
第一步需要确定每个单词的词性。
实现代码：
input_str=”ablacktelevisionandawhitestovewereboughtforthenewapartmentofjohn.”fromtextblobimporttextblobresult=textblob(input_str)print(result.tags)
输出：
[(‘a’,u’dt’),(‘black’,u’jj’),(‘television’,u’nn’),(‘and’,u’cc’),(‘a’,u’dt’),(‘white’,u’jj’),(‘stove’,u’nn’),(‘were’,u’vbd’),(‘bought’,u’vbn’),(‘for’,u’in’),(‘the’,u’dt’),(‘new’,u’jj’),(‘apartment’,u’nn’),(‘of’,u’in’),(‘john’,u’nnp’)]
第二部就是进行词语分块
实现代码：
reg_exp=“np:{
?*}”rp=nltk.regexpparser(reg_exp)result=rp.parse(result.tags)print(result) 输出：
(s(npa/dtblack/jjtelevision/nn)and/cc(npa/dtwhite/jjstove/nn)were/vbdbought/vbnfor/in(npthe/dtnew/jjapartment/nn)of/injohn/nnp)
也可以通过result.draw(）函数绘制句子树结构图，如下图所示。
命名实体识别（named entity recognition）
命名实体识别（ner）旨在从文本中找到命名实体，并将它们划分到事先预定义的类别（人员、地点、组织、时间等）。
常见的命名实体识别工具如下表所示，包括：nltk，spacy，文本工程通用架构（gate） -- annie，apache opennlp，stanford corenlp，dkpro核心，mitie，watson nlp，textrazor，freeling等。
示例12：使用textblob实现词性标注
实现代码：
fromnltkimportword_tokenize,pos_tag,ne_chunkinput_str=“billworksforapplesohewenttobostonforaconference.”printne_chunk(pos_tag(word_tokenize(input_str)))
输出：
(s(personbill/nnp)works/vbzfor/inapple/nnpso/inhe/prpwent/vbdto/to(gpeboston/nnp)for/ina/dtconference/nn./.)
共指解析coreference resolution（回指分辨率anaphora resolution）
代词和其他引用表达应该与正确的个体联系起来。coreference resolution在文本中指的是引用真实世界中的同一个实体。如在句子“安德鲁说他会买车”中，代词“他”指的是同一个人，即“安德鲁”。常用的coreference resolution工具如下表所示，包括stanford corenlp，spacy，open calais，apache opennlp等。
搭配提取（collocation extraction）
搭配提取过程并不是单独、偶然发生的，它是与单词组合一同发生的过程。该过程的示例包括“打破规则break the rules”，“空闲时间free time”，“得出结论draw a conclusion”，“记住keep in mind”，“准备好get ready”等。
示例 13：使用ice实现搭配提取
实现代码：
input=[“heandchazzduelwithallkeysontheline.”]fromiceimportcollocationextractorextractor=collocationextractor.with_collocation_pipeline(“t1”,bing_key=“temp”,pos_check=false)print(extractor.get_collocations_of_length(input,length=3))
输出：
[“ontheline”]
关系提取（relationship extraction）
关系提取过程是指从非结构化的数据源（如原始文本）获取结构化的文本信息。严格来说，它确定了命名实体（如人、组织、地点的实体）之间的关系（如配偶、就业等关系）。例如，从“昨天与mark和emily结婚”这句话中，我们可以提取到的信息是mark是emily的丈夫。
总结
本文讨论文本预处理及其主要步骤，包括正则化、符号化、词干化、词形还原、词语分块、词性标注、命名实体识别、共指解析、搭配提取和关系提取。还通过一些表格罗列出常见的文本预处理工具及所对应的示例。在完成这些预处理工作后，得到的结果可以用于更复杂的nlp任务，如机器翻译、自然语言生成等任务。

一位开发工程师的创业经历是如何在两年时间从3万到300万的
《人工智能技术的实践与创新》的分享
智芯传感ZXP0电容式大气压力传感器拓展多领域创新应用
热电偶测温仪工作原理_热电偶测温仪优缺点
忆联SSD多款产品成功通过PCI-SIG、UNH-IOL等多项权威认证
Python文本预处理的基本步骤，讨论文本预处理过程所需要的工具
紫光展锐5G样机达到可商用水平，全面验证通过
PCB印制电路基础及关键注意事项
相约上海·百度Apollo Park，成为AI超凡玩家，一起为热爱加速！
选择实用型扫地机器人首先考虑国际化口碑大品牌
11种常用模块电路分享
5G将加持人工智能迎来最好的黄金时间
共模电感的感量会随着频率变化吗
ADI推出NatureVue超高清视频信号处理器
创世纪（Genesis）宣布推出HOLM 510 RGB游戏桌
一种大电荷处理能力红外探测器读出电路像素设计
倍捷连接器携各知名连接器品牌亮相慕尼黑华南电子展
NTC热敏电阻的封装形式有哪些呢？
NTC和PAN系列热敏电阻温度传感器的特性
Linear推出LT3958升压SEPIC和正负输出dcdc转换器