工程师总结:不要轻视一个数据工程师妹子的实力

程序员最宝贵的东西是生命,生命属于程序员只有一次。一个程序员的一生应该这样度过:当她回首往事的时候,她不会因为搭建环境浪费时间而悔恨,也不会因为集群无法运行而羞耻。这样,在她开发的时候,她能够说:“我的整个生命和全部精力,都已经献给了开发中最重要的事情——设计程序,实现程序和调bug。” ——p酱。
p酱是公司新来的实习生妹子。听说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?
于是我和p酱生活工作在了一起。
p酱你会些什么?
“我叫p酱,在xx大学读研二,爱好是拍照和被拍,大家可以在b站找到我跳舞的视频,比如av170001。我的另外一个爱好是写代码……”
当一个文科妹子说自己喜欢写代码的时候,整个办公室热闹了起来。
“p酱,听说你喜欢写代码,那你写过什么东西吗?”新人介绍会议结束以后,我问p酱。
“一般都是各种分析程序,我们的专业要做很多调查报告,他们都是用excel来计算的。我喜欢用python来把这些统计过程自动化。后来也写过自动写诗的程序、鬼畜视频生成器等等。”
“真不敢相信你是文科生。这么说你的兴趣是数据分析方向咯?”
“其实我对师父你做的爬虫很有兴趣。但是听说会经常和网站发生对抗?女孩子还是不要打打杀杀的好~”
于是我让p酱负责对爬虫的原始数据进行清洗、整理并做简单的分析。
一种船新的数据储存方式
“p酱,爬虫抓到的原始数据是存放在mongodb里面的,你的python还不错吧,你试一试用python来读写mongodb看看。”
“mongodb是什么呀?”
“是一个和mysql不太一样的数据库。”
“mysql我知道,mongodb和mysql有什么不一样呢?”
“我举个例子,当你要插入数据的时候,你需要做的,就是‘插入’。咳咳,你不要脸红,我是指你不需要写sql语句、不需要建表、不需要提前定义字段。仅仅只需要一行代码就能够实现了。我这里给你写了一篇文档,讲到了mongodb的增删改查,你试一试。数据库已经给你搭建好了,你直接连上去用吧”
半天以后。
“师父,我已经会使用mongodb啦。”
“你读爬虫的原始数据,主要涉及到的就是查询操作,为了巩固插入、修改和删除的操作,再给你一个小任务吧。试一试写一个人员管理系统吧。”
既然有关系,就整整齐齐放在一起看吧
“p酱,你看起来很高兴的样子啊。”
“因为我觉得mongodb比起mysql太简单了啊~”
“你确定?那我看看你怎么对整行数据去重的?”
“师父,我知道distinct关键字可以对一个字段去重。但是整行数据我是读出来用python来去重的。”
“这个时候你就要用到mongodb的聚合查询了。文档已经给你写好了,拿去看吧。”
“还有还有,这里你把店铺信息和菜单信息放在了两个集合里面,我怎么样才能把他们联表查询出来呢?”
“联表查询是mysql里面的操作,在mongodb里面,没有表,只有集合,所以叫做联集合查询更恰当一些。这也是要用到聚合查询,也在这个文档里面了。”
再给你一个玩具吧。
“p酱,之前让你做的爬虫数据监控系统怎么样了?”
“功能已经做好了,但是有一个地方查询起来特别慢。我已经加过索引了,但还是很慢。怀疑是同时联了四个集合的数据造成的。”
“这边的数据实际上每小时才更新一次,你没有必要每次刷新页面都去查询mongodb的。我觉得是时候让你用一下redis做缓存了。”
“redis就是那个内存数据库吗?我知道我知道。”
“给你写了一份文档,包含redis里面的各种数据类型和使用方式。你试一试把redis和mongodb结合起来看看能不能提高速度。”
你怎么擅自加功能啊!
“p酱,你怎么在爬虫监控系统的网页上加了一个广播窗口?”
“呀,被师父发现了。因为我想到同一个爬虫可能会被几个人监控,所以就用redis的发布订阅功能做出来了这个广播的功能。一旦爬虫状态发生改变,所有人都能收到推送。”
“既然你这么闲,那不如加上账号登录功能,把权限验证也做上去?不同的人只能看到自己负责的爬虫。顺便你可以试一试用redis实现……”
“实现布隆过滤器和session管理是吗?”
“你怎么知道我要说什么?”
“因为我早上看到你在文档上面更新了布隆过滤器和session管理相关的内容啊~”
红色的锁?
“师父师父,你知道什么是redlock吗?”
“你学得这么快?都知道redlock了?redlock是redis官方给出的分布式锁的算法。已经有很多编程语言实现它了。”
“原来redlock只是一个算法啊……”
为什么我学的这么快呢?
“师父师父,我觉得很奇怪啊,为什么mongodb和redis我学得这么快呢?难道是因为他们本来就简单?还是因为我太聪明了?”
“为什么你不说是因为你师父教的好呢?“
“因为这是事实啊不用我说出来”
“咳咳,实际上是因为两个原因。一是你一直通过项目驱动来学习,先有需求,然后再去学习实现这个需求所要涉及到的技能。所以你知道你学的东西能用来干什么,自然就能学得快……”
“那第二个原因是什么呢?”
“第二个原因,我先问你一个问题,你会搭建redis集群吗?会搭建mongodb集群吗?知道什么叫做哨兵吗?你知道如何优化mongodb的启动参数吗?”
“这…………好像都不知道额…………”
“因为你的角色是数据工程师,不是数据库工程师,所以数据库搭建、底层优化这些内容我都给你跳过了。”
“这些听起来都很重要啊,师父你会教我吗?”
“你想经常值夜班吗?想半夜3点被人打电话叫起来修数据库吗?认清自己的定位啊,数据库工程师的技能当然很重要,但你是要成为数据工程师的人,技能树应该点在合适的方向。”


变频器过电流和过载跳闸原因分析
如何使用WireShark来抓取TCP的三次握手过程
航空用钢丝绳标准标准YB/T5197-93
大朋VR创始人兼CEO陈朝阳访谈
高精度微型加工中心——半导体精密零件加工的新选择
工程师总结:不要轻视一个数据工程师妹子的实力
高压放大器在超声无损检测中的应用
迫在眉睫,国家力推!未来5年,这个万亿级传感器市场浮现!
大疆无人机Mavic Pro上手体验:易便携与高性能可以兼得
深圳市荣盛源,静电控制设备供应商-国际半导体及显示技术展
美企开发出可为拖拉机配备自动模式的工具
美发店中的智能镜子,为美发行业带来了福音
如何判断UPS电池的好坏
智能电表上的小灯亮怎么回事?
新版小米10已获得入网许可证
电线短路的常见原因
avr单片机功能特性介绍
AI加持下的虚拟偶像已是未来热门
HLS导出的.xo文件如何导入到Vitis里面
ATM柜员机正式启动建行重庆两江5G+智能银行的应用场景