文本挖掘：情感分析详细步骤（基础+源码）

发布时间：2021-02-18 13:36:39 所属栏目：大数据来源：网络整理

导读：副标题#e# 词典型情感分析大致有以下几个步骤：训练数据集、neg/pos情感词典、分词+数据清洗清洗（一、二、三级清洗步骤）、计算情感得分、模型评价（1）在分析过程中，难免会产生很多中间变量，它们会占用大量内存。书中提到通常会将所有的临时中间变量

副标题[/!--empirenews.page--]

词典型情感分析大致有以下几个步骤：

训练数据集、neg/pos情感词典、分词+数据清洗清洗（一、二、三级清洗步骤）、计算情感得分、模型评价

（1）在分析过程中，难免会产生很多中间变量，它们会占用大量内存。书中提到通常会将所有的临时中间变量命名为temp，只需要保证下一个temp出现之前，临时变量不会再延用就可以了。

（2）毫无疑问，如果不追求高大上的算法的话，词典法不失为一种好方法，其实有时候我们使用了很多方法，结果发现并没有什么质变，也浪费了大量时间；

比如在优化词典的时候，我希望使用高大上的算法解决问题，自动分辨出情感词，结果浪费了大量的时间，尝试了卡方统计量、各种分类器等等，结果可想而知，最后还是使用人工的方法将词典优化了一遍，是的，是用肉眼。
其实有时候看起来最笨的方法也许是现阶段最有效最合适最省事的方法，只是它看起来很low，这也许就是笨方法的高深之处，“聪明人”是不屑于使用这些方法的。

（3）仅仅使用词汇并不能非常准确的识别一条文本所表达的情感倾向。一些修辞手法例如反讽、欲扬先抑等等也会给基于词典的情感分析造成困难。

回复此公众号“情感分析”获取源码，以及word版原文查看。向小编咨询问题，联系微信：hai299014

一、训练数据集

文本作为非结构化数据，在构造训练集的时候，很少会发给你完整的数据集，可能需要批量读取txt字符。

批量读取txt字符文件

如何导入？

如何用函数批量导入文本，并且能够留在R的环境之中?循环用read.table，怎么解决每个文本文件命名问题？

list函数能够有效的读入，并且存放非结构化数据。

reviewpath?<-?"F:/R语言/train2"??

completepath?<-?list.files(reviewpath,?pattern?=?"*.txt$",?full.names?=?TRUE)??

代码解读：reviewpath为文件夹的目录名字，completepath为读取文件夹中所有的文件，生成字符串（character）格式。

如何读取单文本内容？

前面文档导入，相当于是给每个文档定了位，现在需要读入单个文档内的文本信息。

文本文档读取的时候会出现很多问题，比如分隔符、制表符等，而出现乱码，需要逐行读取。

[plain]?view plain?copy?print

######批量读入文本??

read.txt?<-?function(x)?{??

??des?<-?readLines(x)???????????????????#每行读取??

??return(paste(des,?collapse?=?""))?????#没有return则返回最后一个函数对象??

}??

review?<-?lapply(completepath,?read.txt)??

#如果程序警告，这里可能是部分文件最后一行没有换行导致，不用担心。??

代码解读：read.txt是一个简单的逐行读取的函数，readLines函数，是将一段文字分成以下的形式，需要粘贴起来；

[plain]?print?

[1]?""??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

[2]?"刚买的这款电脑，在自提点打开的，就发现键盘已经坏了，有个按键都快掉了，自提点不管，让去联系退换货部门，退换货部门说键盘坏了不管退换，让去惠普自己更换新键盘。"??

[3]?""??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

[4]?"在京东刚买的东西出现问题就要四处跑去修理，他们把责任推的一干二净，现在除非你出具惠普的质检报告，他们才给受理。"????????????????????????????????????????????????

[5]?""??????

（编辑：武汉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

在云中实施大数据的详	2022年实时数据管理趋
大数据在互联网业界的	数据编织，大数据之新