2019 Annual Summary

年度关键词

Engage

工作总结: 基于迁移学习的兴趣建模

从两条线进行总结, 一条线是以时间线, 梳理每个项目做的点; 另一条是经验线, 总结的是工作方法论上可以提升的点.

E-gul Glbobal-Local Transfer Project

年初实习项目, 主要把迁移学习模型在 gul 场景落地, 效果上相比 Local 模型取得提升. 核心点是利用Global 信息更好地刻画 C 端用户全局兴趣; 这个项目本来在 2018 年年末完成, 相比预期有一定的 delay, 主要原因是 2018 年末对 tensorflow 的一些API使用还是不够熟悉踩了一些坑, 不过最终还是拿到了比较稳定的收益. 项目结束后也同时抛出一个潜在优化点, 能否设计更优雅的结构容纳 Global 信息, 或者蒸馏已有 Global 网络萃取出 Global 兴趣分布, 充分降低模型的复杂度的同事达到类似的精度, 后续因为完成毕业论文的原因没有再继续深究.

硕士毕业论文答辩

将自己硕士期间的很多工作和探索总结在了论文里面, 基本上每一部分内容都把自己想要体现的内容, 包括四个部分 (室内定位理论+机器学习方法在 Wi-Fi 定位任务的应用+数据分布探索+对比实验的设计思想和论证过程) 并且尽可能清楚地体现到论文内容当中, 可以说是对自己硕士三年的一个总结.

落地ToB端推荐项目

一期二期探索 ToB 推荐的方法论, 不同于常规的 ToC 推荐, B 端推荐需要刻画的 B 背后的人群结构信息, 并且需要去从模拟推广者选品视角, 需要引入领域知识作为辅助.需要拆分 B 下人群结构以及背后的需求.做的过程中有很多地方进行了比较反复的讨论和尝试, 重点在三个问题上上有所停滞,
1.如何定义抽象的 media 推广意愿
2.如何离线验证模型起到的效果.
3.如何保证数据产生的效率. (排序阶段特征提取和模型训练过程和召回结果对接的时产生过性能问题) .工作方法论总结放在下面的部分.

试用期转正答辩

1.目前主要存在的问题: 遇到问题处于太过纠结的状态, 需要高效地走到解决问题的途径上, 不要把一个问题的细节梳理的清清楚楚再解决 (事实上你也不可能一下就梳理清楚) ; 简单来说对我目前的情况而言: 只抓核心要素即可, 直白地问问题, 聚焦当前的问题
2.转变一种态度: 承认人都是需要帮助的 (这是正常不过的, 再牛的人也是这样的) , 永远不要承认自己总能独立解决问题这个事实 (事实上也不是正确的) , 再多和领导多沟通益处很大 (我是有这样做, 但还能做的更好, 这里对我的收益空间非常大) .
3.乐观, 轻松, 尽情展示的状态是魅力的完美体现和高认可度的源泉; 高度谨慎, 严谨, 犹豫, 纠结让人瞬间丧失强能力感; 以后尽量维持一种前一种状态进行讲解, 不要给人以拘谨的状态感觉.
4.本次答辩细节有余, 抽象大图能力欠缺; 解决业务问题的角度而言: 抽象能力 >> 细节能力, 更体现一个人的水平; 仍然存在 ppt 文字太多的问题, 本质上是抽象能力太差导致的
5.答辩的时候不要过多铺开讲技术细节 (比如表述过多重复xx特征, xx训练等细节) , 受众有时候没法马上明白, 他们不是算法研究员, 因此千万不要学术化, 不要全盘算法化, 业务表述业务化, 细节表述通俗化效果好很多.
6.答辩过程来看: 整体多视角里面缺少整体 GMV 这个对我们平台来说最宏观的目标; 另外就是“自购行为过滤”这个表述引起老大的误解, 本质上是说带有目的性的转化这个含义更接近一些; 另外老大鼓励对外技术分享活动中将我们的技术进行分享, 但是要注意脱敏.

下行ppt商品项目

ppt 项目由于客观因素, 导致接入 mt 数量稀疏, 业务影响面较小. 这个项目总结 2 个点.

1.如何构建离线验证集是保证效果的关键环节, 之前的方法论只集中在机器学习模型的效果验证上, 其实明确一点, 任何算法策略决定的效果保证, 都是需要建立相应的验证集和验证指标, 有时候需要建立多个验证集和验证指标.同时需要考虑在日常和大促两个截然不同的时间节点, 大促期间人的潜在需求会得到充分的释放, 可以说类似双11规模的大促期间的成交基本界定了算法效果的上限.同时对于商家来说, 对于同样一件商品, 都会有和日常截然不同的活动加持.
2.货品空间和需求空间的释放.由于项目早期是以品牌为核心因素做优化, 因此早期对于品牌限制是略微过分严格, 导致货品对应的需求空间没有得到充分地释放.水大鱼大, 有时候不加限制带来的自然的结果往往更能适应人群需求的分布.

技术执行方法论总结

高频代码复用. 2019 年工作中有一个影响效率低的问题是重复写了相似的代码, 其实围绕不同的主题做的内容, 在核心数据处理逻辑上存在相似性, 比如排序阶段统计特征提取同时也能作为选品策略里面的验证集因子; 再如在不同算法任务上, 用户的静态属性特征和商品的静态属性特征基本上保持非常一致, 因此复用已有代码模块, 例如特征表或者某个离线指标统计表, 并且设计好可复用schema提升工作效率, 力争在2020不再多花时间在重复代码开发上.

快速迭代与快速上线. 尽快的上线迭代是推进优化的正确节奏; 值得注意的是, 上限节奏太慢基本意味着迭代出了问题, 并且和手头要处理的问题的难度是毫无关联的. 再难的问题都可以被分解成几个关键的部分, 逐一破解然后合并.

固定化特征工程+稀疏特征处理. 特征工程决定模型上限, 在特征层面基本上是分 user, item, context三个大类层面 (事实上不管特征有多 trick 总能够关联到着三个大类上面) ; 推荐系统或者广告系统任何数据中都存在一定的稀疏的特点, 但是解决稀疏性或者冷启动问题无外乎从两个角度去尝试优化: 空间+时间.比如空间上引入更丰富的信息刻画用户的全局兴趣 (比如引入 Global & Local 信息迁移学习, 再如利用建图的角度汇聚人群需求, 或者将单个商品泛化到类目/品牌/店铺这种 side_info 的 embedding 学习, 再或者根据i2i的结果进行特征层面的泛化), 时间上拉长周期维度去完整刻画用户长期兴趣.

离线验证方法. 无论是确定性的算法任务 (例如CTR预估) , 还是对抽象的算法目标 (优化某个选品策略) , 都要无一例外的建立离线验证集.有时候需要从不同角度出发建立多个验证集.培养从数据层面抽象业务目标的能力: 对于比较抽象的优化目标, 必要时需要使用强相关性数据指标进行模拟和逼近, 这种时候需要大胆的进行尝试和验证, 哪怕是从来没有人这么干过的方法; 常规电商算法命题, 离线覆盖率是一种比较保守而有效的做法.例如 TopGMV覆盖率/nextDay覆盖率/Top seller覆盖率/市场占有率等.

人肉case级check. 除离线验证和线上切流两类方法.人肉 case 检查也是非常重要的一类方法, 主要是从直觉上验证当前的算法效果是不是符合我的感官上的预期, 有没有奇奇怪怪的 case, 有没有处理不够优雅的case. 人肉 case 级检查最好是有师兄或者其他同事一起来看.

留心处处皆学问. 感觉最好的学习方式就是把工作和生活中每个环节都以学习的方式多多参与思考, 讨论和笔记总结.记下来每个人 care 的目标, 为了达到目标采取的做法.可以是某个大牛, 也可以是周围的同事.可以是某个产品/运营, 可以是某个文字稿, 甚至可以是某个 app 上的老铁/主播.

Face to Face. 当面沟通, 与他对话, 问他问题, 掘墓三尺, 问入骨髓.无论是什么学习场合, 当面说清楚还是最好的理解方法, 当然沟通完最好是以笔记的形式整理思维.但是能当面一定不要拐弯抹角.

足球

最强不过利物浦

本赛季欧冠留下最深印象的是克洛普领衔的利物浦, 从三个方面来看.

1.攻击线上的化学反应 (互补性) . 萨拉赫-马内-菲尔米诺三人有着非常良好的化学反应, 萨拉赫盘带出色能够把控进攻节奏, 马内跑位精准+强力终结+强力斗志当之无愧大腿, 菲尔米诺在进攻中具有很强的创造性, 再加上奥里吉也意识俱佳, 能在此三人的基础上有效的出奇制胜, 进攻中以上几人有很强的互补性, 具备了欧洲一流的攻击水准. 同时两个边后卫跑动能力极强, 为进攻增添很多张力, 是令人羡慕的进攻体系.
2.防线, 范戴克一枝独秀, 对阵热刺上演1防2的局面, 脑子里设想好了西索科是右脚球员, 逼西索科用左脚起脚; 决赛防孙兴慜, 孙速度不弱, 范也是快速贴身为主, 处理相当冷静, 对于箭头人物的进攻特点做足了功课.阿诺德作为年轻小将, 对于压力处理的非常好, 主场对阵巴萨鸡贼的一个假跑突然传中, 必须拍案叫绝, 确实在战略层面碾压了巴萨.
3.渣叔克洛普, 最有激情的德国教练, 激情之下是具备极强的表达能力, 能将自己的思想渗透到球员在攻防当中的每一次触球选择, 在13年不敌拜仁, 17不敌皇马之后, 19的欧冠中, 除了决赛都展现了强大的集体作战能力, 坚持疾风暴雨般的团队进攻打法, 但是决赛却一反常态踢得非常稳健保守, 领先之后进攻线上基本上只把萨拉赫安排在前面, 全部队员都集中在体系防守里面.这种级别的赛事, 到了最后战略上的保守带来胜利的概率会非常大.

孙兴慜闪耀亚洲之光

本赛季孙完成了大爆发, 正式跻身为英超顶级攻击手, 具有很快速的反击推进能力和终结能力.成功背后, 他父亲可以说是第一功劳, 父亲将培养一名职业运动员当做一个“十年以上的任务”, 其决心和执行力都堪称恐怖 (抛开足球放眼所有行业, 所有角色, 这种父亲, 这种人都堪称罕见) , 同时长期提醒孙, 你所获得的荣誉都是别人对你的认可, 不是你的骄傲的资本.灌输谦虚睿智的态度同时十多年完成一个目标的决心并行, 两种品质的并行造就了可能是未来亚洲最成功的球员.

国足四十强赛的停滞

7-0 那场大胜暴露不少问题, 看出了国足攻防两端过于明显的短板, 尤其是进攻缺少配合, 因此在后面买彩票的时候真的是出奇的稳.四十强赛国足是没有人才.遗憾的是进攻中武磊和艾克森没有配合, 中场太缺创造力, 后防线更是人才荒漠, 再加上里皮用人固执不用冯潇霆等也是同样败笔, 固执的用人能够带来冠军, 但是在不利的条件下, 个人感觉还是得放下以前的一些成见面对当下的问题, 冯潇霆之前的比赛确实有个很低级的失误被阿兹蒙, 那个丢球确实该骂, 该重罚, 但是有时候今时不同往日, 防线用两个没有经验的小将客观来说真的没法撑起大局 (虽然小将联赛表现算不错), 个人感觉当时还是暂时重启一下老将效果来的更好.

国安争冠失败

半程取得最好开局, 一度看到希望, 但是最终输给上港那场太伤, 中途换下施密特始终还是不妥, 直接把进攻体系有所瓦解.国家队四十强比赛影响了李可, 池忠国两个核心对决上港没上, 直接导致被上港中场完全压制, 影响太大.有时候机会真的是转瞬消失, 本赛季国安阵容感觉是足够拿冠军的, 感觉缺少核心战术上稳定性对结果还是有太多不利影响.

锻炼与健康

下半年 6-8 月份坚持一段时间跑步, 后来没能坚持下来; 主要原因是项目中间有一段讨论和停滞, 同时心里急着出一些成果, 然后搁置了锻炼的节奏, 仔细回想起来其实推进项目的最好方法就是聚焦核心问题, 简化一些处理, 放开一些限制, 不要被局部的一些细节所缠绕跳不出来, 按照项目最根本的目标选择比较简单有效的做法去快速迭代, 这样基本上能够比较自然地, 有序地进行推进.

今年打了很长时间桌上足球, 技术有了明显的进步, 开发出来前场防守反击的能力, 进球率非常高且让对手心理非常难受, 后场进攻右手拉射也偶然有进球, 但是力道还是比左手小很多; 最重要的一点是无论进攻还是防守, 认可“控球的”真正价值, 且控球都更加自信了, 横向控球能为进攻提供随机性, 给防守方带来更多的难度, 虽然频繁来回控球有一定的丢球率, 但是会增加进攻中的不确定性, 长久来看对于进攻效果提升大有好处, 有时候必须大胆一些采取更灵活的策略, 哪怕失误, 但是一旦练成这种手法, 进攻的质量会高出一个层次.

病史: 8月份突然发烧一次, 居然身体都在颤抖, 瞬间从37度干到39度高烧不退, 连输2天液才好, 当时确实是难受吓一跳, 特别感谢女朋友陪我去 2 个医院看病才治好, 并且做了比较全面的检查没有什么大碍, 医保卡没办下来累计花费 1000+RMB, 感觉真的挺多; 12 月份风寒感冒, 症状就是鼻塞打喷嚏流鼻涕, 身体没有不适, 不过周末睡了历史最长的两天, 在两天早睡的情况下, 第一天睡到了上午 11 点, 第二天睡到下午 2 点也是破了记录, 可能和累计疲劳有关.有几次晚上腹泻, 多数原因是快速的吃了太冰的东西, 不能急促地吃太冰的东西.

社交与活动

技术沙龙. 参加技术类交流 3 次, 两次数据挖掘小伙伴聚会, 一次听广告专场分享, 认识了微博的同行, 拓宽很多视野; 有收益的是MSRA高的特征工程分享, 整体上梳理了所有做特征工程的方法, 非常系统, 有些Feature Engineering 真的非常 Trick, slides 不对外开放已经总结成相关文档; 王博和奥古对于Fintech 的分享打开了科技金融的应用的思考; KDD 两届 Top选手蔡/钟对于数据挖掘中不重复造轮子, 以及结构化组织代码的做法也对我深受启发; 浪教授对于 AutoML 的分享对于这项技术的局限性阐述比较清晰具体, 不过其存在的一个潜在意义就是对机器学习本身的过程的认知会深化, 不再孤立的聚焦在业务本身或者某个模型本身, 而是以一种上帝视角理解特征工程-模型学习-部署应用着其中的各个过程我们真正 care 什么.

现场听了克莱德曼音乐会, 除了完成一个之前的心愿以外,发现此人是个非常精明的商业化高手

旅游

拉萨
西藏整体印象是圣洁, 无污染, 纯净.布达拉宫内有乾坤, 里面有佛教文化中一切元素, 能唤起藏区统治者那种具备强信仰, 却又因为是王室的诸多无奈之情, 宫殿里面巨大的陵墓让人震撼, 感觉还是无论是生是死, 都是在追求内心中的一种平静.藏区民众就像他们的牦牛一样, 性格温顺, 虔诚, 丝毫没有感受到少数冲突分子的暴乱, 动荡.高原反应: 所谓高原反应, 好比长期不运动跑了1000米之后, 自然喘气会大口大口喘气, 但是过一会就会恢复, 类似这样一种感觉.在持续向上爬坡或者快速前进的时候会很快有这种感觉.

林芝
塞上江南, 海拔比拉萨低不少高反弱很多, 能较好地适应大多数人的需求.景色的美在于结合了远方的雪山和近处的绿水, 绿水和桂林遇龙河有点类似, 但是远方的雪山加持上感觉美的更立体.最美的地方在于南迦巴瓦峰, 中国最美山峰Top1感觉应该是实至名归 (区分清楚是“山峰”, 不是“山”) , 海拔不到8000, 号称羞女峰, 那个峰尖长期是云雾缭绕, 基本上不能完全看到全貌, 我这算是足够幸运, 拍到了完整的山尖, 并且拍照时真好是太阳金光一渡, 美好瞬间来的突然去的更快, 也就持续几分钟.到了晚上之后, 南迦巴瓦依然云雾缭绕, 远远望去仔细看了十多分钟, 感觉那个山峰上面绝对是阴森恐怖, 云雾缭绕, 假如晚上爬在上面心里恐惧肯定是一个巨大问题.后来回了北京再看南迦巴瓦的照片, 那种怀念的感觉迟迟散不了, 做梦也梦见过好几次, 但用“美”这种字眼描述不出来那种难忘的感觉, 梦里面的南迦巴瓦, 感觉已经称为一种心结, 这种感觉在目前为止所有去过的地方里面都基本没有.

纳木措 & 羊卓雍措
这两个是三大圣湖的其中两个, 去的路上都是4-5个小时车程, 来回9-10个小时成本可以说极高, 而且中间有断路仔细想想那根本不是路, 颠簸2个小时都快要起飞了, 中间游览也就2小时, 但整体感觉还是挺值的, 和抱有期待和兴趣有关, 同时这两个湖确实是平静的让人不知道该说什么好, 手上快速的拍下一个个的照片, 但是说实话没几张满意的, 可能是设备不行吧好多感觉相片上完全不出来.两大圣湖美的原因还是距离生活区非常元, 距离人住的地方实在是有距离, 这样也保证了超强的抗污染.印象比较深的是和藏獒合影, 藏獒在人们心目中是非常凶的动物, 我当时因为拍了和2只藏獒的合影心里面秀的一逼, 但仔细想想藏獒的雄伟早就被人的驯化所磨灭, 可以说没有一丝雄气, 动物内在个性还不如一只家养的猫来的傲娇.当地人喊一句蹲下马上蹲下, 从来没有见过一种动物能被驯化的那么没脾气.人类最强的地方就是“驯化”, 有一百种方法让有个性的生灵变成机器般的产物, 这么一想这张看似牛逼的藏獒合影照片, 真的是没多大意思.另外就是抱着小羊拍照片的那个, 拍出来效果很不错, 藏家小女孩拍的很开心, 我非常满意.有个细节当时小女孩子因为多拍了一个动作想多问我收10快钱, 但是她妈妈之前收了我的钱就马上拒绝了, 可见这些藏民还是虽然是赚钱还是很有原则的.

飞机回家的路上
旁边坐了一个藏民老爷爷, 皮肤黝黑, 目光顺着窗口望出去, 不知道是不是第一次坐飞机.空姐发餐食和饮料的时候没有说话摆手不要, 一下让我想起了我姥爷在的时候.瞬间眼泪刷刷的实在是难以控制, 我在吃完米饭的时候藏民老爷爷还主动帮我把餐盒递给了空姐.下了飞机在银川候机换乘, 心情久久难以平静, 一个人吃了那个很酸的宁夏酸奶缓了好一会儿.

同行的人
认识的人有好几个, 印象深刻的有一个西安的厨师, 三个温州做生意的女生 (后来沟通发现居然做的是大宗生意) , 一个飞韩国的导游, 一个住在美国小姐姐, 一个也是太原做旅游的女生, 还有几个其他人.来西藏旅游的基本上是两类, 一类是刚辞职有时间出来玩的, 另一类是真有点钱且为了n年前的一个目标过来的 (没错我是第二种) , 这部分人有个共性: 真的是有想法, 能执行的一批人, 这点毋庸置疑, 认识几个这种人加了微信, 感觉自己心态开阔了许多.来西藏多多少少也是一次克服恐惧的过程, 因为能让人恐惧的东西, 就是具有未知性的东西, 你不知道来了不会不会有高原反应, 藏独分子这些, 当你真的来了, 才是真正体会这些rumors是真rumors还是reality.总之, 独自一人去一次西藏, 对自我产生更强烈的认同, 也会想的更清楚自己到底是怎样的一类人: 简单来说就是那种有自己的想法, 有执行, 十分十分注重自我体验的那种人.

东极岛
大陆最东的岛屿, 太平洋的光最先照耀到这里.前面这句话是韩寒写的很有感觉, 但是实地去感受相当一般, 垃圾很多, 开发也不完善, 相应的娱乐设施也乏善可陈.梭子蟹卖的很贵, 感觉也不怎么好吃.酒吧老板娘始终不让我们在里面吃饭, 让人极其讨厌; 岛上一碗面基本上是拉面+半个梭子蟹壳, 可以说是高价且毫无亮点.除了和算法团队小伙伴留下比较不错的合影留念, 景点强烈不推荐.旅游业的发展不是一件简单的东西, 提升管理质量本身的意义可能比本来具备的资源更加重要.如果让我做的话, 我可能先从调整这些商家的态度入手, 真正做到客户第一, 再考虑调优盈利结构.

上海
故地重游, 这次针对性的吃了不少上海的特色美食, 和几个小伙伴在外滩照了照片, 秀的那是十分的开心.我始终感觉外滩美景的大气没有重庆那种三江汇聚来的大气.不过上海确实是现代感非常强, 不是国内任意一个城市可以比拟的.


转载请注明来源, from goldandrabbit.github.io

💰

×

Help us with donation