预测模型建立需要哪些数据,数据模型设计是在哪个阶段

业务越来越多,信息化系统越来越多,许多公司都有大量的数据,但分布式的数据、隔离的系统又形成了一个个数据孤岛。 因此,为了利用数据,各大公司纷纷建设数据仓库,或最近升级到大数据平台。 但是,不同线不同场景的数据如何合并到同一个仓库呢?

由此产生数据模型,通过高度抽象的数据模型,将各源系统的数据进行集成,最终形成统一、规范、易用的数据仓库,实现数据集市、数据挖掘、报表展示、即席010 – 数据模型可以促进业务与技术的有效沟通,形成对主流业务定义和术语的统一认识,具有跨部门、中性的特点,能够表达和覆盖所有业务。 无论是操作型数据库,还是数据仓库,数据模型都需要组织数据结构,指导数据表的设计。

综上所述,我们认为数据建模很重要。 数据建模过程需要专业建模人员、业务人员和潜在的信息系统用户密切配合工作。 数据建模是识别数据的过程,数据模型是数据建模的输出模型,有企业数据模型、物理模型、逻辑模型、业务模型、数据使用模型等多种类型。 数据模型中既描述了业务关系,也描述了物理数据库的设计,是企业数据资产的核心。 通过数据模型管理,可以清晰地表达企业内不同业务主体之间的关系,使不同部门的业务人员、APP应用程序开发人员和系统管理员获得系统的统一完整视图。

创建数据模型的步骤是什么呢

一.制定目标

制定目标的前提是了解业务,明确需要解决的业务现实问题吗?

例如,在社交平台KOL上,如果有伪粉,如何识别伪粉是要解决的现实问题。

二.数据理解和准备

要根据需要解决的现实问题来理解和准备数据,一般需要解决以下问题。

需要什么样的数据指标(即特征提取)? 例如,哪些指标能区分真粉和假粉? )

数据的意思是什么?

数据的质量是? 例如,有缺失的值吗? )

数据能满足需求吗?

数据需要如何加工? 例如,变换数据指针,将类型变量变换为0-1虚拟变量,或者将连续型数据变换为顺序变量)

探索数据中的规律和模式,进而形成假设。

需要注意的是,数据准备工作需要多次尝试。 因为在复杂的大型数据中,很难发现数据中存在的模式,初步形成的假设可能很快被推翻。 那个时候,必须静静地钻研,继续试行错误。

数据建模后,需要评估模型的效果,因此需要将数据分为训练集和测试集。

三.制作模型

根据准备的数据,构筑既是机器学习模型,又不需要机器学习等高级算法的数据模型。 选择什么样的模型是根据需要解决的问题(目标)决定的。

当然,也可以选择两个或多个模型的比较,并相应地调整参数以优化模型的效果。

四.模型评估

模型效果的评价有两个方面。 一是模型是否解决了需要解决的问题,是否需要解决没有注意考虑的潜在问题。 二是模型精度(误差率或残差是否符合正态分布等)。

例如,在识别KOL假粉的问题上,需要评估的是:

模型能识别假粉吗?

识别的误差率是多少? 风扇识别误差率=(将假粉误认为真粉的数量将真粉误认为假粉的数量) /风扇总数

五.结果显现

结果主要关注以下三个方面

模型解决了什么问题?

解决效果怎么样?

怎么解决问题? 具体的操作步骤是什么?

六.模式部署

必须通过大量数据解决一个或多个重要的现实问题,并执行解决方案。 通常需要通过部署在线技术环境来执行,不断优化模型,为更好地解决问题奠定基础。

必须使用专业软件来帮助构建数据逻辑和物理模型、生成DDL、生成描述模型的报告以及与其他合作伙伴共享。 文末推荐使用方便的数据建模工具——Smartbi。

除了主要的算法和建模功能外,Smartbi还提供了必不可少的数据预处理功能。 这包括字段划分、行筛选器和映射、列选择、随机采样、筛选器null值、合并列、合并行、JOIN、行选择、消除重复、排序、添加序列号、添加计算字段等。 只需创建适合您的业务和基本数据存储环境的模型,即可快速创建查询所需的数据,并减少数据I/o吞吐量。 可以大大减少不必要的数据冗余,实现计算结果的复用,大大降低大数据系统的存储和计算成本。 还可以改善用户使用数据的体验。提高使用数据的效率。

动态分享

未来5年流浪地球的前景,为什么流浪地球能大获成功

2022-12-8 6:14:58

动态分享

2023年视频怎么恢复?推荐这四种方法。

2022-12-8 6:17:27

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索