大数据监控和数据保证

待你幼稚完 · · 1736 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

野子电竞数据官网改版https://www.xxe.io/ 全新登场
我们目前的数据流程是:数据源数据 经过挖掘处理转换等操作生成中间数据,入宽表 ,然后 提取宽表数据 入PDC,数据停留的地方有 数据源–>中间数据–>宽表–>PDC。

目前我们的监控措施如下:
(1) 数据源 –>中间数据–>宽表 每个数据流有监控,监控的是每个数据的总量
(2) 每天运行监控 监控 宽表每个数据的变化
(3) 宽表–>PDC有对最终每种数据总量的监控 和 对 数据的简单校验(如 太大的数据,太小的数据,数据解密异常等的校验)

虽然在总概上能够保证数据的准确性,但是具体到每一个数据的准确性上需要加强,目前想到的加强措施如下:
(1)针对得到的PDC数据,另起一套代码反向匹配校验 宽表 和 数据源 数据。
(2)加强Code Review,确保代码逻辑不出问题;加强沟通,确保对数据的处理理解不产生歧义。
(3) 开发一套注重隐私安全的简单校验系统,让每个人能够核对一下自己的PDC数据,以发现 数据挖掘 的不足,并进行优化。


有疑问加站长微信联系(非本文作者)

本文来自:Segmentfault

感谢作者:待你幼稚完

查看原文:大数据监控和数据保证

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

1736 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传