趣文网 > 作文大全

小叮当深度学习:自然语言处理(二)文本处理流程

2020-12-06 04:55:01
相关推荐

在”小叮当深度学习:自然语言处理(一)“中,想必大家已经基本了解了什么是自然语言处理,今天,小叮当接着为大家分享自然语言处理中的文本处理流程。

在自然语言处理过程中,计算机是不认识我们的文本信息的,它所认识的只有0和1。

于是,我们便可知道,想要使用计算机进行文本处理,首先我们得让计算机认识我们的文本信息。

那么,如何让计算机认识我们的文本信息呢?通常我们会对文本信息进行预处理,分词,特征化,将文本信息转化为计算机能够识别的0和1之后,再进行机器学习、深度学习等对计算机识别出的文本进行处理。

(1)预处理(Preprocess)

我们通常使用的文本信息中,包含了标点,特殊字符等,在大部分的文本处理任务中,我们认为文本中,携带的这些信息是无效的。预处理的目的就是去除这些无效的噪声。(有的地方也把预处理这步称之为”数据清洗“。)

(2) 分词(Tokenize)

分词是指,将我们预处理后的文本信息,以词为单位进行划分。这样,计算机便可以按词来分配存储单元。计算机凭借不同的存储位置,便可以识别出不同的词。

(3) 特征化(Make Features )

特征化,简单来说就是向量化。在这步,计算机会根据已知的一些算法将不同的词转化为对应的数字信息,从而使计算机能够识别。

(4)机器学习(Machine learning)

在文本处理过程中,机器学习,通常根据标签,对文本进行分类处理。例如对电商评论的情感分析,分析这句话是积极的还是消极的。对邮件的识别,判断文本邮件是否是垃圾邮件等。简单来理解就是,我们已知特征化后的x1,x2,以及对应的标签y1,y2;现在给我们一个x3,我们通过机器学习就可以预测出y3的值。

经过上面的介绍,想必大家已经基本了解文本处理的流程。那么,文本处理中,上面各步究竟是怎么实现的呢?贪多嚼不烂,小叮当下次再为大家继续分享~

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

本领作文 思维导图作文 夕阳作文 勇敢的作文 邻居作文 生日小作文 风 作文 博物馆作文 价值作文 作文帮 科学作文 作文写事 英语作文怎么写 美景作文 大学作文 有关作文 范文作文 这样的人让我感动作文600字 给女朋友写的小作文 家国情怀的作文素材 传统文化类作文 我爱秋 季作文 作文 说明文 我的家庭英语作文50字带翻译 夜空中最亮的星作文600字初中 走过那一个拐角600字作文 彼岸并不遥远作文600字 howtokeephealthy英语作文 一件难忘的事作文300字三年级 黑板上的记忆作文600字