文本分析知识梳理

小夏 财经 更新 2024-02-29

文本分析作为一种新兴的基于定性研究的定量分析方法,可以揭示文本的变化和特征,为经典问题的研究提供新的思路。

文本分析应用于许多领域,例如在旅游中,文本分析可用于研究旅游形象的感知,例如,在经济学中,文本分析可用于研究当前的保险政策等,还有其他领域将应用于文本分析。

文本分析中常见的步骤有五个,包括数据采集、分词、数据清洗、特征提取、建模等分析,如下图所示

1. 数据收集

文本分析的第一步需要数据采集,获取文本数据的方式一般包括网络平台、**平台、新闻、CNKI、论坛等。

2. 分词

计算机将对导入的字符串进行分割以进行进一步分析。

3. 数据清洗

在文本分析过程中,需要先对文本进行预处理,这是非常重要的一步,直接影响后续分析的准确性和可靠性。 标点符号和停用词去除是预处理中常见的操作,可以有效地去除文本中的不相关信息,提高分析效率。 同时,对文本上的停用词进行分词和删除,也有助于提取更准确的关键词和主题。 此外,还会通过关键词的频率、分布等方式分析文本的主题,有的研究者还会通过分析情感词来分析文本的情感倾向。

4. 特征提取

例如,数据清洗后的特征提取可以在可视化部分使用TF-IDF,这是一种常用的特征提取方法,它考虑了单词在文本中的重要性及其在语料库中的普遍性。 tf-idf 值越高,单词在文本中的重要性越大,还有其他方法可以做到这一点。

5. 后续分析

使用文本数据进行后续分析,如可视化图形显示、主题分析、聚类等,将在下一模块中讲解。

文本分析演示:单击SPSSAU主系统左侧仪表板上的“文本分析模块”。

进入文本分析模块后,研究人员可以选择上传数据,包括粘贴文本上传或上传TXT Excel文件(大小限制在5M以内)。 如下图所示:

然后你可以根据自己的需要选择分析方法,进行分析:

文本分析的应用有很多,以SPSSAU为例,它可以进行文本可视化(词云分析)、文本情感分析、文本聚类分析、社交网络关系图、LDA主题分析、语义分析等。

文本可视化

在文本分析模块中,最重要和最基本的是显示分词结果,通常使用词云来显示。 在“词云分析等”中,SPSSAU提供了词云分析、自定义词云、词定位和TF-IDF四个功能。

词云分析

词云地图直观展示2023年12月共41条新闻内容的关键词信息,户、城市、发展、建设都是关键信息。 默认显示前100个高频关键词,数量可独立设置。 您还可以修改词云样式和词云地图。

自定义词云

如果你对词云分析不满意,也可以使用自定义词云,研究者可以将排序后的信息,包括关键词及其词频,直接粘贴(或编辑)在**中,然后会出现对应的词云图。

词语定位

通过词位可以观察到一个词,通过行号可以查看这些行中的具体外观。

tf-idf

在文本分析中,TF-IDF是反映一个关键词在整体数据中重要性的重要指标,TF-IDF越高,其重要性越高。 它与词频的含义不同,词频是指出现的次数,而 TF-IDF 更侧重于关键字的重要性。 其中:tf-idf = tf * idf; 其中tf:tf=n n,其中n为一个关键词的词频,n为整个数据关键词的词频之和,n为固定值,当n为词频越高时,tf越高,关键词越重要; idf = log(d (1+d)),log 是对数,d 是数据的行数,d 是数据中的行数。 D值是固定值,D值越大,随处可见时IDF越小,D值越小,不随处可见时IDF越高,IDF越高,一个关键词的重要性越高。

文本情感分析

目前主流的文本情感分析方法可分为情感字典、机器学习和深度学习三大类。 基于情感字典的方法是一种传统的情感分析方法,它利用情感字典中的情感极性来计算目标语句的情感值。 基于词典的分析方法虽然实现简单,但也存在缺点,其准确性很大程度上取决于词典构建的质量,而情感词典的构建需要大量的人力物力,对新词的适应性也很差。

在文本分析模块中,SPSSAU提供了两种情感分析方式,即单词情感分析和**情感分析。 按词的情感分析是指对提取的关键词进行分析并进行视觉展示; 感性分析是指以“行”为单位对分析的原始数据进行分析,可以使用特定的情感得分值信息。

文本聚类

文本聚类就是对需要分析的关键词进行聚类分析,并直观地展示出来,SPSSAU提供了两种文本聚类方法,即逐词聚类和逐行聚类。

社交网络关系图

社交网络关系图显示了关键词之间的关系,这里的关系指的是“共词矩阵”,即两个关键词同时出现的频率,“共词矩阵”信息以可视化的方式呈现。

共词矩阵它主要用于表示关键字之间的关联强度。 它是行和列的矩阵,矩阵中的元素指示关键字的相关性。 在共词矩阵中,元素的值越大,两个关键词之间的相关性越强,即它们共现的频率越高。

社交网络关系图社交网络关系图在文本分析中的应用主要是揭示文本中各个实体之间的相关性。 这种图表可以帮助我们更好地理解文本的主题和内容,并发现文本中隐藏的信息和模式。

lda主题分析

主题模型是指用于统计一系列文档中主题数量的统计模型,LDA可以通过无监督学习方法发现文本中隐藏的主题信息。 LDA将主题视为文档内容的浓缩,因此我们可以通过LDA从大型语料库中的信息生成文档,生成的文档可以看作是由多个主题组成的,构成主题的每个单词都是无序的,从而达到降低文档维度的效果, 大大降低了问题的复杂性,并且还具有语义特征。spssau 结果如下(气泡的大小表示主题的重要性,条形的长度表示主题较小时单词的权重)。

发现新词

词典无法识别的新词涉及两个关键指标:信息熵和互信息。 信息熵越高意味着一个词更容易与其他词组合成一个词,而信息熵越低意味着一个词不太可能与其他词组合。

停用词:情绪化词

停用词:停用词是指文本中出现频率高但对文本主题和内容贡献较小的词,去掉停用词可以提高分析的效率和准确性。

情感词:情感词是指表达情感或情感倾向的词,对情感词的识别和分析可以帮助我们更好地理解文本的情感内涵;

这个冬天,哈尔滨着火了。 进入12月以来,从全国各地飞到哈尔滨赏冰雪的游客络绎不绝,很多朋友去“尔滨”都会提前看一下攻略,但看了几篇文章后,大家都有了自己的攻略。 共选取10篇携程最新策略文章进行文本分析(结论不作为参考,仅供案例参考

1. 搜索数据

在 Ctrip.com 搜索“哈尔滨”相关攻略文字,收集最新旅游小贴士。

2. 上传SPSSAU平台

以文本粘贴的形式上传到SPSSAU平台。

3. 数据清洗

数据在上传之前就已经过处理,包括标点符号、特殊字符等。

4.开始文本分析

从文本中提取了100个关于哈尔滨出行策略的高频词。 如下表所示:

首先,从词性来看,高频词汇中有很多地名和形容词来形容旅游感受,具体集中在景区和美食体验上。 词频越高,游客的关注度越高。 通过上表中的高频词汇分析可以看出,**街、雪城、教堂、松花江等旅游景点的顺序更高,说明游客对上述景区的关注度更高。

同时,哈尔滨旅游战略的高频词可以以词云图的形式可视化,在词云图中,高频的词会以较大的形式呈现,低频的词会以较小的形式呈现。

而如果研究者想知道一个词出现在哪里,也可以用“词位”来查看,比如说,如果他对“**街道”更感兴趣,点击“**街道”,看看他出现在哪里。

而如果你想看看关键词在整个数据中的重要性,我发现在几种策略中,“Malatang”更重要。

您还可以使用文本聚类:

从第1类集群可以看出,吃占比很大,比如“巧克力”、“秋林”等(结果有点牵强,可能与数据太少有关,案例仅供演示)。

您可以在 spssau** 上找到更多信息。

相似文章

    采用文本分类训练样本扩充方法,自动扩充数据质量

    中新赛克技术。该技术由中新赛克交付,并参与 数据猿年度金猿策划活动 大数据产业年度创新技术突破榜暨奖项 评选。设计并实现了一种基于词嵌入的文本训练样本增强方法。该技术所述的基于词嵌入的文本训练样本富集方法发明了一种类,该类利用现有样本数据在现有样本中自动高效地丰富样本量较小的类。该方法的主要创新点是...

    知识梳理:为学生构建完整的知识网络

    梳理 是复习课程的核心环节,既是对所学知识的梳理,也是知识体系的构建和完善。通过梳理,学生可以将分散的知识点串联起来,形成清晰的知识线,进而构建完整的知识网络。这个过程有助于学生加深对知识点的理解和记忆,更好地把握知识之间的联系,提高解决问题思路的清晰度和解决问题的效率。在 梳理 的过程中,教师需要...

    洛江石,详细分析梳理

    洛江石是一种常见的石材,广泛用于道路建设和工程石材。具有硬度 耐磨 耐压等特点,因此在建筑工程中起着重要作用。本文将介绍洛江石材在道路建设和工程中的特点 用途和应用。矿山砾石直销,点击我咨询 首先,洛江石材的特性主要体现在其物理性能上。具有高硬度 高密度 高强度等特点,因此在使用过程中不易磨损和断裂...

    企业人工成本分析与控制策略

    众所周知,人工成本是每个企业成本中占很大比例的!人力资源是商业伙伴,应该有财务意识和成本意识,以便以业务为导向。这与人力资源的发展变化以及决策科学的发展和现状是一致的。从企业发展目标出发,如何科学预算劳动力总数 人员结构 劳动力总成本?如何节约人工成本,善用人力资源?从财务和管理的角度来看,为什么要...

    对于Word中隐藏文本的知识,阅读本文就足够了

    Word 允许您隐藏文本,以便您可以阅读或打印文档,就好像文本不存在一样。这似乎毫无意义,因为如果你不想让别人阅读它,为什么不删除文本呢?但隐藏文本确实有一些有趣的用途。让我们来看看什么是隐藏文本 什么不是 为什么要隐藏它,以及如何隐藏它。Word 使用格式标记隐藏文本,就像设置粗体或斜体文本的格式...