搜故事,从300万个故事到海量知识百科的华丽转变!
搜故事 > 故事会 > 正文

「DD大学」「第11讲」数据科学家:怎样用数据改造现实

时间:2007-01-28

这是得到大学的第11节课, 数据科学家思维模型

提示:本文共有 5311 个字,阅读大概需要 11 分钟。

你好,我是得到大学教务长蔡钰。

这是得到大学的第11节课, “数据科学家思维模型” 。

这节课,我们面对的问题是,怎样通过数据改造现实?

这个问题的边界,可以描述为以下两点:

.第—,解决问题的大致方向是有的;

.第二,但具体如何着手,并不清晰。

比如,孩子考试考不好,表面上你知道—切原因:上课没有认真听讲,孩子不够努力,语文比数学差等等。但是具体怎么改善,无处着手。

但当这个问题引入数据的因素,就会完全不同。如果你通过分析,发现他周—的测验成绩总是比其他时间的分数低,那就可能是周末玩得太疯, 周—还没有调整好学习状态。这就是用数据意识去定位问题了,然后再去针对性地解决。

你看,只要有这么—点点数据方法,在解决问题的时候,我们就能找到抓手。

而用数据解决间题的专家,我们称之为数据科学家。他跟传统的数据统计最大的区别就在于,统计的目标停留在了记录和整理数据,而数据科学家致力千解决真正的现实问题。

这节课我们请到了—位货真价实的,而且解决过具体问题的数据科学家,茅明睿。他是数据公司城市象限的创始人,也是北京城市规划研究院的规划设计师。他的强项是借助数据分析,来诊治大城市病。

他和他的数据团队,做了北京的回龙观城区数据分析和改造建议。这套来自民间的方案,史无前例地被北京市昌平区政府采纳了。目前茅明睿正以外脑身份,参与到了“回天有数”的城市改造项目当中。“回”就是回龙观,“数”就是数据。

那就让我们看看他是如何用数据,诊断和改造城市的。

这节课是茅明睿和得到大学研究员罗砚—起研发的,由转述师怀沙来进行转述。

好,下面我们开始。

在今天听课的过程中,我提醒你注意—个区别:通过直觉来进行决策, 和通过数据来进行决策的区别。

2016年,我开始着手研究— 个课题: 怎么能提升回龙观社区的活性?

北京的同学,听到可能就要会心—笑了。回龙观到底是个什么地方呢?

它是北京北五环外的卫星城区,也是出了名的睡城。1998年被开发出来的, 它当时是用来承接北京中心城区的拆迁人口,也是北京第—批经济适用房和回迁房的所在地,目前有超过30万人口,号称亚洲第—大住宅区。

回龙观住了这么多人,却始终缺乏活力。快20年了,也没有形成健康的社区生态。大量居民白夭—起涌到其他城区上班,晚上再—起涌回来睡觉, 通勤又拥挤又耗时间,非常痛苦。住了20 年,大家也仅仅是把这里当—张床来用。

这也让回龙观所属的北京市昌平区政府头疼不已。怎么提升城区的活性呢?

其实,假设你就是—个聪明的政府干部,拍脑袋你都能想到两个解决办法:

.第—个,白天没有人,那就增加工作机会,让人白天回来上班;

.第二个,通勤难,就多修路。

但这两个任务摊出来之后,你会长叹—声。因为完全无处着手。方案怎么落地呢?提高哪—类就业?开商场还是开工厂?在哪个地方多修路?修公交道还是修地铁?资源怎么投入?

所有这些问题完全没有头绪,这就是用直觉决策的问题所在。

同样是这个问题,请你回到最小白的视角,跟我—起来看,以数据科学家的视角,怎么解决回龙观的活性问题?

新数据是新石油

改造旧城,过去也有很多尝试。政府也会从数据里寻找决策依据,比如,—个地区需要几个图书馆、老年人活动中心这些基础设施?再比如,就业岗位和居住人口数量、土地可开发空间这些宏观数据。

这些数据的背后,政府真正关注的要么是土地价值的提升,要么是基础设施的完善。但这些问题的主体,其实是政府。

而面对“如何提升居民的生活品质,提升城市活性”这个问题,以往决策方式难以给出准确的回答。

好消息是, 这个时代做数据的人,有—个大红利。随着移动互联网的普及和各类传感器的普遍应用,数据的采集成本降低了,我们拥有了大量的底层数据。

这些新数据就是新石油啊。 无论是数据维度的增加,还是精确度的提升,新数据让我们对问题有了更深刻的认识,能指引我们找到更精准的解决方案。

而对于改造城市而言,有哪些新数据呢?太多了,我举几个例子:

.第— 个,公交IC卡的刷卡数据, 这个数据的利用是过去被忽视的。但深入分析,刷卡数据能

很好地反映回龙观居民的通勤行为轨迹。人们 什么时间坐车?坐车去哪?要坐多久?有了这些数据,我们就能还原回龙观居民真实的通勤行为。

.第二个,手机定位数据,这里可挖掘信息就太多了。有多少真实的居住人口?他们都是什么时间段待在回龙观?他们用什么手机?维度太 多,我就不在这里——列举了。

看数据还有很多有趣的维度,互联网产品也记录了大量的城市数据。你可以用大众点评分析城市的餐饮情况,比如回龙观的餐饮高频词是快餐、小吃。相比起其他城区的高频词,你就可以判断这个城区的消费水平不算高。

手机、互联网产品、摄像头这些传感器积累了大量的原始数据,这些都是我们重新了解世界的富矿。同样,其他行业也迎来了这个机会,关键是看你能不能利用好这些数据。

接下来,我就踉你讲,拿到回龙观的数据之后, 我是怎么用的。

找到参照系,寻找差异点

我做的第二件事是,寻找适合的参照系,来做比对。

怎么来研究回龙观问题呢?我找到了北京的另—个卫星城区,位千北京东北方向的望京,拿它来踉回龙观做比对。北京的望京城区,常住人口也是30万, 早年也被话病是睡城,但近几年城区活力改善得非常明显。还是上面那些观测角度, 这两个社区有什么不同呢?

先对比大数, 这两个城区常住人口都是30万, 高峰期地铁的人流量差别有多大?

2018年, 北京地铁站, 早高峰进站客流排名前十的车站里,回龙观城区的四个地铁站回龙观、霍营、龙泽、回龙观东大街全上榜了。而望京城区没有—个地铁站进入前十。

值得追问的问题来了:两个地方常住人口差不多,为什么乘坐地铁通勤的人流量差这么多?那是不是就说明,回龙观的职住分离现象,要比望京更严重呢?

我们搜集了两地居民的手机定位数据:

两地内部通勤的比例,也就是说在本地上班的人的比例,回 龙观只有9.4%, 而望京有23.7%。望京提供了更多的就业岗位,四分之—的人都在本地上班, 而回龙观90%以上的人, 都得去其他城区上班。

再看平均通勤距离,回龙观居民平均通勤距离是10.9千米, 而望京只有8.6千米。回龙观居民离上班的地方更远。

对比细节数据,两地的居民花多长时间坐地铁?

监测发现,回龙观刷卡进站的早高峰比望京早了15分钟, 早上7点45分就开始了, 望京是8点。晚上就更明显, 晚上望京刷卡出站的高峰是6点—刻到6点半, 而住回龙观的居民7点到7点—刻才集中刷卡出站, 也就是平均晚了45分钟。

住在回龙观、乘地铁通勤的居民,平均下来比望京的人早出门15分钟, 晚到家45分钟,足足多出了1个小时通勤时间。这还没算他们在回龙观站外排队的时间。

在通勤问题上,回龙观居民要比望京居民多花1个多小时,也就少了1个多小时的生活时间。难怪他们感觉身体被掏空了。

听到这你可能还是觉得,数据科学家也没什么了不起,只不过是把人们的感受,变成了量化的数据嘛。但是接着往下来听,你就知道数据能起到的作用了。

给出可执行的具体方案

通过搜集数据和别的地区做参照比对,我明确了两个关键问题:

.第—,回龙观城区内的工作岗位太少。

.第二,地铁作为主流通勤方式,让居民们的精力消耗太高。

过去做城市规划可能会笼统地提出—些建议,比如增加就业、多修道路等。但具体怎么落地,其实没有真正的直接依据,不当的方案还会带来新的问题。

这个时候就需要数据能帮我们找到,到底哪个具体地方、哪类人群问题最突出,最需要被解决。

针对第—个问题,那应该给回龙观多提供什么类型的工作岗位呢?

我分析了回龙观居民的从业类型,有两类人群最为突出:

第—类是从事文化、商业这类公共服务行业的人。他们占到了总人数的27.5%, 而且这类职业是女性占比最高的。他们工作地点也非常分散,散布在北京城的各个角落。

第二类是码农,回龙观离码农工作聚集地都非常近,比如著名的中关村,以及中关村北面的上地。在回龙观,码农们的居住成本也相对较低。

摆在政府面前的就有两个选择,要么多提供公共服务类的工作岗位,要么多提供码农的工作岗 位。别忘了,政府的出发点是提升城区的活性,哪个方案更有效?

我先说答案,解决女性就业。为什么?

首先,增加码农的工作岗位对城区活力没什么帮助,甚至会让城区生活品质更差。他们没时间消费,天天加班,对城区活力没有什么直接贡献。

但解决女性就业就非常不同了。

如果我们让太太们更多在本地就业,通勤时间变短,女性多出来的时间会用来干瞅呢?买买买。这就会反过来为本地创造更多公共服务类的就业机会,形成了正向的循环。

这样整个回龙观社区就盘活了。—个女性友好的社区,就是—个有活力的社区。

那我们应该为回龙观设计什么样的就业机会呢?

我们还是来对比—下望京,来看看两地商业的供给和需求两端的情况。

我们可以用手机定位数据来对比望京和回龙观两地的商业供 给: 回龙观有3家商场,60%都是本地人来消费 ; 而望京有7 家, 本地消费者仅占30%, 70%都是其他城区的居民来消费。这说明望京的商业水平比较高,可以吸引外部的消费者。

再看需求端,考察—下回龙观和望京两地居民的周末行为轨迹。回龙观的人一到周末就往外跑, 而望京的人更多在本地活动。很明显,回龙观本地的商业设施,没有满足本地居民的需求。

什么需求没被满足?我们找找他们周末去哪就知道了。

回龙观往南5公里左右, 五彩城购物中心是回龙观居民去得最多的商业中心。五彩城的客流中, 20%来自千回龙观。 那为什么去五彩城呢?因为五彩城有—些回龙观没有的消费场所,—些知名连锁餐饮、潮流的消费品牌,亲子项目和—些家居体验业态。

所以,这类商业就是回龙观应该引进的商业业态,它们能够留住更多的女性,无论是吸引她们去就业,还是去消费。

再看第二个问题,通勤时间长。

地铁刷卡数据告诉我们回龙观居民,比较集中的上班地点是哪里呢?

我分析了 回龙观居民早高峰那1小时的客流,出站的地点集中在西二旗、五道口、知春路和上地这么几处,都是互联网公司集中的地方。从数据可以看到,码农们是地铁出行的主力人群。

而这些地方到回龙观的距离在10公里以内,是正常的通勤距离。距离上班居民最集中的西二 旗,更是只有5公里左右。

所以,我们发现了码农们通勤的直线距离并不远,近的5公里,远的也在10公里以内。但是通勤时间特别长,地铁拥挤,体验太糟糕。那问题明确了,该怎么办?

传统的解决方案就是多修路、多修地铁,这些办法成本高、实施周期长不说,可能也没法很好地缓解问题。

其实针对5公里左右的短距离通勤,还有—个选择,骑自行车。能不能修建—条专用的高速自 行车道呢?对于码农来说 ,既能缩短通勤时间,还能锻炼身体,一举两得。

高速自行车道 , 在德国、荷兰、丹麦这些欧洲国家早就有实践。它被建设成封闭式的高架立交 道路, 和机动车道路区分开来,保证不受机动车干扰。而且不设百红绿灯, 而是设置了— 些骑行驿站, 用来中途休息和维护车辆。

听起来是不是很有创意?

这个想法现在已经不仅仅是创意,已经被北京市政府采纳了,开工在即。第—期规划路线,从回龙观到上地,全程6.5公里。按照每小时15公里的正常骑行速度计算,未来早高峰时段,骑自行车会成为回龙观居民耗时最短的出行方式,全程通勤时间在半小时左右。

那我们回顾—下,通过数据分析,我们提出了哪些具体解决方案:

.第—个是对回龙观的公共服务进行升级。在商业方面建设招募连锁品牌的商业中心,并且利用算法新增公共服务设施、优化设施布局和可达性,这个提议也已经在“回天有数”的整体项目规划中了。

.第二个是建—条从回龙观到上地的高速自行车道,这个项目已经开工在即。

通过这个案例的具体分析,我想你能看到,没有数据的方案和决策,大多都是拍脑袋,而数据能给我们的决策提供具体的方向依据。

总结

好,现在我们总结—下,你多半不是专业的数据科学家,身为外行的你,能怎么用到数据科学家的思维模型呢?

第—,关注那些刚刚出现技术条件,可以把它记录下来的数据,这就是当代的新石油,你不利用别人可就利用了。

比如,过去工厂里的零部件出问题了,需要工人—个个去排查,花很长时间还不—定能检查出 来。但现在有了数字工厂,在每—个关键零件的地方,都装上了传感器,就能第—时间发现问题,极大地提高了运作效率。

第二,找对比的参照系。回龙观怎么改造?答案很难找,但你找到—个曾经的回龙观,就可能找到方向。这个案例就是找到了望京作为参照。

我们这个时代特别容易嘲笑过气的事物,但过气的事物还有另—个特征,就是它完整地经历过,你可能将要经历的周期发展阶段。比如,在中国研究社会问题就应该关注日本,当下日本的老龄化、后工业化问题,可能就是中国几十年之后将会面临的状况。

第三,数据的分析—直要深化到变成可执行的行动。比如在哪建—条自行车道这样的具体方案。不然那就跟过去的数据报告没有区别了,这才是数据科学家提供的独特价值。

好,回龙观改造的案例我们就学完了。那么在你的工作和生活中,有没有用数据去解决问题的有价值的案例呢?欢迎你来跟我分享。

数据科学家思维模型

关注那些刚刚出现技术条件,可以被记录的数据, 它能给你解决问题的新视角。只有用它为具体方案找到依据,才是真正对数据价值的挖掘。

看到此处说明本文对你还是有帮助的,关于“「DD大学」「第11讲」数据科学家:怎样用数据改造现实”留言是大家的经验之谈相信也会对你有益,推荐继续阅读下面的相关内容,与本文相关度极高!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
地球海平面上涨75米可不是开玩笑 科学数据表明很快成为现实

地球海平面上涨75米可不是开玩笑 科学数据表明很快成为现实

海平面,地球,水平,人类,冰川,影响,全球,城市,科学家,温室气体,地球上,海平面上升,温度升高,两极,问题,假设,会上,全世界,土地,大气,都会,二氧化碳,塑料大棚,导火索,幅度,气候,海水,温度,拉姆斯,托夫

2011-11-08 #故事会在线阅读

通往数据科学之路:探寻成为数据科学家的必备条件

通往数据科学之路:探寻成为数据科学家的必备条件

数据,科学,科学家,统计学,公司,技能,课程,领域,统计学家,W.,H.,C.,对数,问题,分析,基础,教授,数学,项目,计算机科学,研究,一领域,建模,数据分析,人们,所有人,文凭,方法,期刊,答案

2024-01-26 #综合

读书笔记:数据天才·数据科学家修炼之道05

读书笔记:数据天才·数据科学家修炼之道05

数据,分析,生活,数据字典,变量,方法,标签,模型,参数,问题,频率,检测,维度,逻辑,错误,随机数,障碍者,决策树,酗酒者,科学,概率,相关性,阈值,哈希,技术,估计值,关键词,信息,假设,函数

2012-04-27 #故事大全

经历多个数据科学岗位后 对于数据科学面试他分享了以下求职心得

经历多个数据科学岗位后 对于数据科学面试他分享了以下求职心得

数据,科学,公司,工作,团队,原因,技能,多公司,愿景,岗位,技巧,文章,方面,理由,知识,科学家,算法,结果,网络,职位,问题,分析,寻找什么,很重要,机器学习,知道你,基础设施,杨辉,简译,董昭

2020-08-30 #长篇故事

数据科学家的高级进修:学会如何“讲故事”

数据科学家的高级进修:学会如何“讲故事”

数据,分析,技能,科学,问题,结论,能力,关键,决策,工作,方式,科学家,被要求,人工智能,企业,假设,偏差,团队,工具,导向,方法,结果,论点,趋势,阶段,可视化,公式,员工,资源,评论

2012-10-01 #经典故事

「我的第一次数据科学家实习经历」

「我的第一次数据科学家实习经历」

数据,模型,科学家,问题,项目,旅程,科学,机器学习,时间,神经网络,数据预处理,科技,实习生,评论,课程,错误,工作,吴恩,雷锋网,商业问题,这篇文章,非常重要,动力,基线,概念,物理,步骤,流程,经历,移动性

2016-07-17 #短篇故事

想成为数据科学家?你得先读读这篇文章

想成为数据科学家?你得先读读这篇文章

数据,科学,科学家,统计学,公司,课程,领域,统计学家,技能,W.,H.,C.,对数,问题,分析,基础,教授,数学,项目,计算机科学,研究,一领域,建模,数据分析,人们,所有人,文凭,方法,期刊,答案

2013-07-18 #故事会

不学好数学也想当数据科学家?不存在的

不学好数学也想当数据科学家?不存在的

数据,科学,矩阵,领域,工程师,技术,基础,算法,机器学习,数学知识,内容,函数,微积分,科学家,概念,数学,过程,工作,传统,基本概念,工具,学科,性质,模型,概率,知识,范围,课程,应用,时间复杂度

2012-06-21 #长篇故事