Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

古道西风冷月|有些统计数据无论怎么测量,它都测不准

15 September 2024 at 18:52
CDT 档案卡
标题:有些统计数据无论怎么测量,它都测不准
作者:古道西风冷月
发表日期:2024.9.15
来源:微信公众号“古道西风冷月”
主题归类:捅鸡局
CDS收藏:公民馆
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

近年来,国家对粮食安全是空前绝后的重视,上了很多政策,当然也取得了不俗的成绩。不过这是从产出端看的,抽丝剥茧的去看投入端,两端一比,浪费也是空前绝后的。

最近,各地开展了很多粮食实收测产活动,这让我想起了测不准原理。人家说的测不准,是物理学中基本粒子的位置和动量无法测准,这是客观规律决定的无法测准。粮食产量也测不准,不过不是客观上测不准。

让种粮农民自己测,测得准,他没有必要骗自己。让一群不种粮,还要在粮食产量上求功名的人来测量,那结论一定是高于客观值。

参与测量的,从基面到上面,以及所谓的第三方专家教授,无一不希望数据好看。这块田的水稻是在上面政策支持下,基层贯彻落实政策下,以及专家指导有方后的结果,加之地方有粮食安全党政同责的考核压力,产量不高,天理不容。

所以,只要这个逻辑不变,测一万年,它也会比客观值高。只是现在由于科学的普及,不会发生过去那种亩产上万斤的喜人局面,但水分一直都在,从未挤干过,不是挤不干,是不想挤干。

一个农民对自家种的粮食,面积多大?产量多少?一清二楚。如果他有事没事的逢人便说:我家粮食亩产2000斤。有这必要吗?他也不会找媒体轮番报道粮食又增产了。他没有这股闲得蛋疼的力气,自己产多少粮,多了还是少了?于外人何干?

他比任何人都关心他的粮食。这群不种粮食的人,到不是真关心粮食问题,他只不过关心的是自己的佛位。在我一方大地之上,虽然是你们生产粮食,但这可是我的功业啊,你的粮食产量低了,那不是说明我管理无方吗?

你说减产,那当然可以,局部波动合情合理,不过整体还得连连增长嘛,要有大局观,是不是?

END

对我的腾讯微博的大数据统计

By: 胡中元
23 July 2018 at 17:29

为了防止腾讯微博某一天被腾讯关停,使我初中时发的上千条微博灰飞烟灭。遂使用 Python 爬虫外加 React 搭建了一个微博复刻小站,将我的回忆放心地永远留在了自己的服务器中。相关技术介绍: https://hzy.pw/p/2554

在这上千条微博存入数据库之后,我便开始对其进行大数据分析了,包括我最喜欢转发谁的微博、我在星期几最喜欢发微博,以及微博当中包含最多的关键词等等。很是有趣。

我的微博复刻网站欢迎访问: https://hzy.pw/i/qqweibo/

相关技术介绍: https://hzy.pw/p/2554

下面是对我的腾讯微博的大数据统计。

 

我一共发布了 1620 篇微博,其中转发和原创的比例如图。可以看出,初中时候的我可以说是很认真地在更新自己的微博(就像现在认真的写这个博客一样 :P),没有灌水。

 

将所有微博正文提取、分词处理后,使用 NLP 中关键词提取的相关算法,得到了我微博中最常见的 30 个关键字,按照面积比例做成了这幅统计图。

可以看到那时的我完完全全就痴迷于 iOS,从越狱到汉化 App 到开发小程序。不得不承认乔布斯时代的苹果真的是秒杀竞争对手的存在,有着极大的魅力,不过我现在更喜欢安卓就是啦~ 

这时我顺便还进行了所有微博正文的情感分析,后来发现意义不大,模型输出结果显示积极情感  >99.999%(如果是对单条微博进行情感分析,则输出正常,但我懒得去处理和统计了)

 

我从 PC 网页端发布的微博占接近 40%,实际上在 2011 年前后,使用手机发微博真的是一件值得炫耀的厉害事情,但如今正好相反,手机发微博才是理所当然的主流。互联网的发展令人感叹。

 

很有趣的微博附图统计。在当时很长一段时间,微博只允许上传一张图。至于 “无图”,在微博最开始时还真是大家的选择,以现在移动互联网的思维来思考是难以理解的。

 

发了两百多条微博那个月我也是够闲。。。PS:我离开腾讯微博,来到新浪微博的时间是 2012 年 12 月。

 

将数据结构化地存在数据库中就是方便,大多数数据都是一条 SQL 搞定,于是随手统计了一下每周和每日的发微博时间分布。

能得出来的结论就是:我是一名周内认真学习,每天按时睡觉的好孩纸。

 

我转发微博真的挺少,而且转的最多的还是我自己的微博,因为我最喜欢的就是我自己。

 

最后一张是我的的微博的热度统计,热度定义为评论和转发的总数。不过我一直不太在意就是了。各条微博按照时间升序在横轴上排列。

 

结语

腾讯微博对我来就像自己的日记本一般,有着特别的意义,但是目前已经淡出舞台。

欢迎大家关注来我的个人网站、新浪微博,以及 Github 和知乎:https://hzy.pw/connect

❌
❌