文本分析作为一种新兴的基于定性研究的定量分析方法,可以揭示文本的变化和特征,为经典问题的研究提供新的思路。
文本分析应用于许多领域,例如在旅游中,文本分析可用于研究旅游形象的感知,例如,在经济学中,文本分析可用于研究当前的保险政策等,还有其他领域将应用于文本分析。
文本分析中常见的步骤有五个,包括数据采集、分词、数据清洗、特征提取、建模等分析,如下图所示
1. 数据收集
文本分析的第一步需要数据采集,获取文本数据的方式一般包括网络平台、**平台、新闻、CNKI、论坛等。
2. 分词
计算机将对导入的字符串进行分割以进行进一步分析。
3. 数据清洗
在文本分析过程中,需要先对文本进行预处理,这是非常重要的一步,直接影响后续分析的准确性和可靠性。 标点符号和停用词去除是预处理中常见的操作,可以有效地去除文本中的不相关信息,提高分析效率。 同时,对文本上的停用词进行分词和删除,也有助于提取更准确的关键词和主题。 此外,还会通过关键词的频率、分布等方式分析文本的主题,有的研究者还会通过分析情感词来分析文本的情感倾向。
4. 特征提取
例如,数据清洗后的特征提取可以在可视化部分使用TF-IDF,这是一种常用的特征提取方法,它考虑了单词在文本中的重要性及其在语料库中的普遍性。 tf-idf 值越高,单词在文本中的重要性越大,还有其他方法可以做到这一点。
5. 后续分析
使用文本数据进行后续分析,如可视化图形显示、主题分析、聚类等,将在下一模块中讲解。
文本分析演示:单击SPSSAU主系统左侧仪表板上的“文本分析模块”。
进入文本分析模块后,研究人员可以选择上传数据,包括粘贴文本上传或上传TXT Excel文件(大小限制在5M以内)。 如下图所示:
然后你可以根据自己的需要选择分析方法,进行分析:
文本分析的应用有很多,以SPSSAU为例,它可以进行文本可视化(词云分析)、文本情感分析、文本聚类分析、社交网络关系图、LDA主题分析、语义分析等。
文本可视化
在文本分析模块中,最重要和最基本的是显示分词结果,通常使用词云来显示。 在“词云分析等”中,SPSSAU提供了词云分析、自定义词云、词定位和TF-IDF四个功能。
词云分析
词云地图直观展示2023年12月共41条新闻内容的关键词信息,户、城市、发展、建设都是关键信息。 默认显示前100个高频关键词,数量可独立设置。 您还可以修改词云样式和词云地图。
自定义词云
如果你对词云分析不满意,也可以使用自定义词云,研究者可以将排序后的信息,包括关键词及其词频,直接粘贴(或编辑)在**中,然后会出现对应的词云图。
词语定位
通过词位可以观察到一个词,通过行号可以查看这些行中的具体外观。
tf-idf
在文本分析中,TF-IDF是反映一个关键词在整体数据中重要性的重要指标,TF-IDF越高,其重要性越高。 它与词频的含义不同,词频是指出现的次数,而 TF-IDF 更侧重于关键字的重要性。 其中:tf-idf = tf * idf; 其中tf:tf=n n,其中n为一个关键词的词频,n为整个数据关键词的词频之和,n为固定值,当n为词频越高时,tf越高,关键词越重要; idf = log(d (1+d)),log 是对数,d 是数据的行数,d 是数据中的行数。 D值是固定值,D值越大,随处可见时IDF越小,D值越小,不随处可见时IDF越高,IDF越高,一个关键词的重要性越高。
文本情感分析
目前主流的文本情感分析方法可分为情感字典、机器学习和深度学习三大类。 基于情感字典的方法是一种传统的情感分析方法,它利用情感字典中的情感极性来计算目标语句的情感值。 基于词典的分析方法虽然实现简单,但也存在缺点,其准确性很大程度上取决于词典构建的质量,而情感词典的构建需要大量的人力物力,对新词的适应性也很差。
在文本分析模块中,SPSSAU提供了两种情感分析方式,即单词情感分析和**情感分析。 按词的情感分析是指对提取的关键词进行分析并进行视觉展示; 感性分析是指以“行”为单位对分析的原始数据进行分析,可以使用特定的情感得分值信息。
文本聚类
文本聚类就是对需要分析的关键词进行聚类分析,并直观地展示出来,SPSSAU提供了两种文本聚类方法,即逐词聚类和逐行聚类。
社交网络关系图
社交网络关系图显示了关键词之间的关系,这里的关系指的是“共词矩阵”,即两个关键词同时出现的频率,“共词矩阵”信息以可视化的方式呈现。
共词矩阵它主要用于表示关键字之间的关联强度。 它是行和列的矩阵,矩阵中的元素指示关键字的相关性。 在共词矩阵中,元素的值越大,两个关键词之间的相关性越强,即它们共现的频率越高。
社交网络关系图社交网络关系图在文本分析中的应用主要是揭示文本中各个实体之间的相关性。 这种图表可以帮助我们更好地理解文本的主题和内容,并发现文本中隐藏的信息和模式。
lda主题分析
主题模型是指用于统计一系列文档中主题数量的统计模型,LDA可以通过无监督学习方法发现文本中隐藏的主题信息。 LDA将主题视为文档内容的浓缩,因此我们可以通过LDA从大型语料库中的信息生成文档,生成的文档可以看作是由多个主题组成的,构成主题的每个单词都是无序的,从而达到降低文档维度的效果, 大大降低了问题的复杂性,并且还具有语义特征。spssau 结果如下(气泡的大小表示主题的重要性,条形的长度表示主题较小时单词的权重)。
发现新词
词典无法识别的新词涉及两个关键指标:信息熵和互信息。 信息熵越高意味着一个词更容易与其他词组合成一个词,而信息熵越低意味着一个词不太可能与其他词组合。
停用词:情绪化词
停用词:停用词是指文本中出现频率高但对文本主题和内容贡献较小的词,去掉停用词可以提高分析的效率和准确性。
情感词:情感词是指表达情感或情感倾向的词,对情感词的识别和分析可以帮助我们更好地理解文本的情感内涵;
这个冬天,哈尔滨着火了。 进入12月以来,从全国各地飞到哈尔滨赏冰雪的游客络绎不绝,很多朋友去“尔滨”都会提前看一下攻略,但看了几篇文章后,大家都有了自己的攻略。 共选取10篇携程最新策略文章进行文本分析(结论不作为参考,仅供案例参考
1. 搜索数据
在 Ctrip.com 搜索“哈尔滨”相关攻略文字,收集最新旅游小贴士。
2. 上传SPSSAU平台
以文本粘贴的形式上传到SPSSAU平台。
3. 数据清洗
数据在上传之前就已经过处理,包括标点符号、特殊字符等。
4.开始文本分析
从文本中提取了100个关于哈尔滨出行策略的高频词。 如下表所示:
首先,从词性来看,高频词汇中有很多地名和形容词来形容旅游感受,具体集中在景区和美食体验上。 词频越高,游客的关注度越高。 通过上表中的高频词汇分析可以看出,**街、雪城、教堂、松花江等旅游景点的顺序更高,说明游客对上述景区的关注度更高。
同时,哈尔滨旅游战略的高频词可以以词云图的形式可视化,在词云图中,高频的词会以较大的形式呈现,低频的词会以较小的形式呈现。
而如果研究者想知道一个词出现在哪里,也可以用“词位”来查看,比如说,如果他对“**街道”更感兴趣,点击“**街道”,看看他出现在哪里。
而如果你想看看关键词在整个数据中的重要性,我发现在几种策略中,“Malatang”更重要。
您还可以使用文本聚类:
从第1类集群可以看出,吃占比很大,比如“巧克力”、“秋林”等(结果有点牵强,可能与数据太少有关,案例仅供演示)。
您可以在 spssau** 上找到更多信息。