WordStat 9文本分析与挖掘软件在WordStat的帮助下,数据分析师可以从大量文档中快速提取有价值的文本分析结果,包括客户反馈、电子邮件、公开回复、采访记录、事件报告、专利、法律文件、博客、网站等。以下是WordStat的内容分析和文本挖掘功能列表:
从许多来源进口
WordStat允许您直接从许多来源导入多语言内容:
导入文档:word,pdf,html,PowerPoint,rtf,txt,XPS,epub,ODT,WordPerfect。
导入数据文件:Excel、CSV、TSV、Access
从统计软件导入:Stata,SPSS
从社交媒体导入:脸书、Twitter、Reddit、YouTube、RSS
从邮件导入:Outlook、Gmail、MBox
从网络调查导入:Qualtrics,SurveyMonkey,SurveyIzmo,QuestionPro,Voxco,Triple-S。
从参考管理工具导入:Endnote、Mendeley、Zotero、RIS
导入图片:BMP、WMF、JPG、GIF、PNG自动提取与这些图片相关的任何信息,如地理位置、标题、描述、作者、评论等。并将它们转换成变量。
从XML数据库导入
ODBC数据库连接可用
从定性软件导入项目:NVivo、Atlas.ti、Qdpx文件
导入和分析多语言文档包括从右向左语言。
监控特定文件夹并自动导入存储在该文件夹中的所有文档和图像,或者监控对原始源文件或在线服务的更改。
组织您的数据
各种函数使您能够以一种使分析过程简单明了的方式轻松组织数据:
快速分组、标记、排序、添加、删除文档或查找副本。
使用文档转换向导为您的文档手动或自动分配变量,即日期、作者或人口统计数据,如年龄、性别或位置。
轻松地重新排序,添加,删除,编辑和重新编码变量。
根据变量值筛选案例。
使用资源管理器模式快速提取意思。
使用Explorer模式可以快速方便地从大量文本数据中提取含义,这是专门为那些对文本挖掘没有什么经验的人设计的。
使用主题建模工具来识别最常用的单词和短语,并提取文档中最重要的主题。您可以随时切换到专家模式,使用WordStat的所有功能。
使用文本挖掘浏览文档内容
在几秒钟内,浏览大量非结构化数据的内容并提取有见地的信息:
提取最常用的单词、短语和表达。
对单词或短语使用聚类或2D和3D多维标度来快速提取主题。
使用邻近图可以轻松识别与目标关键字同时出现的所有关键字。
使用链接分析功能探索单词或概念之间的关系。
通过应用关键词的共现条件(在一个案例中,一个句子,一个段落,N个单词的窗口,一个用户定义的段落)和聚类方法(一阶和二阶接近度,选择相似性指标)。
使用层次聚类、多维标度、链接分析和邻近图来探索概念或文档之间的相似性。
使用主题建模来提取最突出的主题。
通过将自然语言处理与统计分析(NNMF或因子分析)相结合,您可以使用最新的自动主题提取功能,不仅针对单词,还针对短语,从非常大的文本集中快速浏览最重要的主题和相关单词(包括拼写错误)。
在层次聚类分析中,一个词可能只出现在一个聚类中,主题建模可能导致一个词与多个主题相关联。这个特征更真实地表现了一些词的多义性和用词。
浏览联系人
使用网络图探索单词或概念之间的联系。三种布局类型用于检测共现的基本模式和结构:多维缩放、基于力的图形和圆形布局。
图形是交互式的,可用于探索关系和检索与特定连接相关的文本段。
将文本与结构化数据相关联
探索非结构化文本和结构化数据之间的关系;
确定时间趋势,亚组间的差异,或者使用统计和图形工具(偏差表,对应分析,热图,气泡图等。)来评估与等级或其他种类的分类或数字数据的关系。
使用不同的相关性度量来评估单词出现与名词性或有序变量之间的关系:卡方、似然比、Tau-a、Tau-b、Tau-c、对称Somers'D、非对称Somers'Dxy和Dyx、Gamma、Pearson r、Spearman Rho。
使用字典对文本数据进行分类。
使用现有词典自动进行全文分析,或者创建自己的单词和短语分类模型。
在字典中,可以实现布尔值(AND、OR、NOT)和邻近规则(NEAR、AFTER、BEFORE),可以使用正则表达式公式从文本数据中快速提取特定信息。
字典中的条目修改和词干支持多种语言,自动单词替换选项使您能够用目标关键字替换多个单词。可以提供多种语言的用户定义的停用词列表,以避免不必要的常用词(例如,他、她、它等)。)在分析中使用。
获得字典构建方面的独特帮助。
通过提取文本集合中的常用短语和专业术语,快速识别拼写错误和相关词(同义词、反义词、全名、部分词、上位词、下位词)的工具,可以获得真正唯一的计算机辅助,帮助建立分类标准。
使用机器学习对文本数据进行自动分类
朴素贝叶斯和K-最近邻被用来开发和优化自动文档分类模型。用户可以选择多种验证方法:留一法、N重交叉验证、样本分割。该模块可用于容易地比较预测模型和精细分类模型。
分类模型可以保存到磁盘,并在以后应用于独立的文件分类实用程序,命令行程序或编程库在QDA矿工。
一键返回原始文档
通过使用关键字搜索或上下文中的关键字来搜索句子、段落或整个文档,您可以从几乎所有函数、图表或图形中返回文本,以进行验证或深入分析。这在建立分类或消除词义歧义时特别有用。
检索到的文本段可以按关键字或任何自变量排序。您可以将QDA矿工代码附加到检索到的段,或者以表格格式(Excel、CSV等)导出到磁盘。)或文字报告(MS Word、RTF等。).
执行定性编码
将WordStat与最新的定性编码工具(QDA矿工)结合使用,可以更准确地浏览数据,或者在需要时对特定文档或提取的文本片段进行更深入的分析。
将非结构化文本转换为交互式地图(GIS制图)
将非结构化文本数据与地理信息相关联,并创建数据点、专题地图和热图的交互式图表,以及用于将位置名称、邮政编码和ip地址转换为纬度和经度的地理编码Web服务。
自动提取姓名和拼写错误。
自动提取命名实体(名称、技术术语、产品和公司名称),可以通过简单的拖放操作将其添加到分类词典中。
拼写错误和未知单词将被自动提取并与用户词典中的现有条目进行匹配,并可以快速添加到词典中。
导出结果
将文本分析结果导出为常见的行业文件格式(如Excel、SPSS、ASCII、HTML、XML、MS Word)、流行的统计分析工具(如SPSS和STATA)和图形(如PNG、BMP和JPEG)。
使用Python脚本转换文本
使用Python脚本及其所有开源库来预处理或转换文本文档,以便在WordStat中进行分析。