提示:本文共有 2384 个字,阅读大概需要 5 分钟。
本章还是关于数据科学的具体技术,与上篇不同的是,前面主要谈了数据可视化,指标类型以及挑选供应商时的问题等等。本篇会更关注具体应用,包括创建数据字典,隐形决策树,nosql的哈希连接,以及分析桥第一定理。
一,数据字典:
在进行探索分析时,最有价值的工具就是数据字典,建立数据字典能确定高维数据集里密集与稀疏部分,确定数据异常点及数据小差错,能更好了解数据包含的内容,明确后续值得挖掘的部分。
数据字典是一个有3列或4列的表。第1列是标签,指一个变量名;2列标签的对应值;3列是频率统计,衡量值出现的次数;还可以添加第4列,注明标签对应的维度,标明变量的个数。
通常,数据字典包含所有维度1和2且频频大于某个阈值如5的标签,通常不包含维度是3或以上的,除非有比较高的频率。例如:
标签 值 频率 维度
类别-关键词 旅游-东京 756 2
对于数据字典,首先要做的是按三维索引进行排序:先按第4列,然后按第1列,接着是第3列。然后再分析数据寻找模式。
关于建立数据字典:按顺序查看数据集,讲所有1维和2维的k-v作为哈希表的键保存下来,并将这些标签/值对应的频率+1;如果哈希表变得很大,则应停止程序运行,将哈希表保存到文件中,在内存中清楚哈希表变量。然后创建一个新的哈希表,从停止的地方继续,最后忽略那些频率太小的记录,将哈希表合并。
二,隐性决策树HDT:
实际应用于海量交易数据打分。 隐性决策树混合了健壮逻辑回归和成百上千个小决策树,相比于逻辑回归和决策树,它更健壮,易解释,无须剪枝,无须节点分裂准则。
HDT属于统计与数据挖掘方法,可用于处理数据量很大,非线性,变量强相关的问题。
HDT的潜在应用领域:
欺诈及垃圾信息检测网络分析(关键词打分/竞价;点击欺诈检测;交易打分;网站/广告评分;协同过滤;相关性算法)文本挖掘(打分及排序;侵权及垃圾信息检测;情感分析)
三,与模型无关的置信区间:
寻找易计算,分布无关,精确到小数点的置信区间值。
比如,想预测某个参数p方法:
将观测值划分为N个随机区间为每个随机区间计算一个估计值对估计值排序,从p_1(最小)到p_n(最大)假设p_k是参数p的置信区间最低值,k小于n/2假设p_(n-k+1)是参数p的置信区间最大值那么[p_k,p_(n-k+1)]是参数p的非参数置信区间置信度是2k/(n+1)
通常,通过尝试多个k值,可以插值出任意置信水平的置信区间值。
分析桥第一定理:简而言之,就是数据不需要任何统计分布,才能使得置信区间有效。
四,随机数:
随机数广泛应用于许多统计应用和蒙特卡洛模拟算法之中。不过许多人还是依赖有缺陷的技术来生成随机数,典型的是调用rand()函数,这类函数是会有周期的。
所以,高质量的随机性就成了随机数生成器的核心,这里有个简单而先进的思路,就是基于某个无理数的小数部分来模拟生成随机数,如pi。这样的生成器是拥有无限周期的,也就是不会循环,因为它的基础是无理数。
五,解决问题的4个办法:
对于数据科学家而言,总有几个办法可以解决任何问题。
拥有超强直觉能力的业务分析师的直观法软件工程师的蒙特卡洛模拟法:利用高质量的良好的随机数生成器统计学家的统计建模方法:基于泊松过程和厄兰分布计算机科学家的大数据方法
六,因果关系和相关性:
相关性并不意味着因果关系。在任何情况下,使用直接因果关系的预测有助于减少模型中的方差和得到更多有效的解决办法。
检测因果关系:
区分相关性和巧合的唯一方法,对照实验使用贝叶斯网络分析在时间序列的问题上,可以尝试运行VAR模型,然后做Granger因果分析测试。
七,数据科学项目的生命周期:
辨别问题所在确定可用数据源如需要,确定额外数据源进行统计分析确保正确的实施和开发成果交流维护系统
八,预测模型的错误:
按照前面的步骤分析时,还需要避免一些陷阱。
数据预处理阶段的错误:
将ID字段作为自变量使用非同步的变量允许重复的记录在过小的群体上建模未考虑异常值和缺失值将两个编码稍不同的表格关联到一个域使用混合字段可视化程度太低
建模错误包括:
没有考虑足够多的变量没有手工添加一些额外的变量选择错误的Y因变量没有足够的Y因变量响应在错误的群体上建立模型只使用一个衡量方法去判断一个模型的质量
从尽可能多的变量开始,把范围缩小到一个有效的子集,是个有效途径 ,但切勿过渡拟合。
逻辑回归是统计科学的核心利器之一,适用于二进制或概率的响应值的问题,逻辑回归在临床试验,评分模型和欺诈检测中十分受欢迎。
九,实验设计:以临床试验为例子--测试戒除酒瘾的策略。
定指标:喝酒的时间间隔;喝酒的持续时间;喝酒的强度把患者分群,进行治理:想喝醉的(生活正常的酗酒者;生活紊乱的酗酒者;生活正常的饮酒障碍者;生活紊乱的饮酒障碍者);不想喝醉的(生活正常的酗酒者;生活紊乱的酗酒者;生活正常的饮酒障碍者;生活紊乱的饮酒障碍者)私人定制的治理:使用马尔可夫链模型来创建一个8X8转换概率矩阵,评估未来6个月中,患者从一类转到另一类的概率。可以在马尔科夫链中添加治愈和死亡两项重要状态。
分析即服务和应用程序接口:利用现代网络平台提供分析解决方案。
十,数据专题:
当数据库改变时,保存好数值:数据的保存是非常重要的,还要兼顾不同来源不同时期的数据的统合优化网络爬虫:使用云计算;在每个服务器上并行运行;缩短超时阈值从2秒到0.5秒;设定数据最大值的阈值,如不超过24kb;建立不爬取的黑名单;不要重复访问同一页面。哈希连接:效率高,尤其处理稀疏数据时用于模拟簇的简单源代码:涉及具体代码,在此不表,有兴趣的可以自行翻阅。分析桥第二定理:用在随机排列问题。一个随机排列的非独立数据构成一个独立数据序列分析桥第三定理:用于证明一个新定义的相关性的值在-1到1之间
看到此处说明本文对你还是有帮助的,关于“读书笔记:数据天才·数据科学家修炼之道05”留言是大家的经验之谈相信也会对你有益,推荐继续阅读下面的相关内容,与本文相关度极高!