时间:2022-08-17 预览:
“我们现在对于数据的利用充分了吗?”
“另类数据的核心点在哪?”
“量化是追求绝对正确还是模糊正确?”
“衍生品是否更加危险,你怎么看,在害怕什么?”
“我们是否应该为投资的过程道歉?”
在海量的数据中寻找模糊的正确,在模糊的正确中结合市场与概率寻找投资机会,量化投资并非一场豪赌,而是旷日持久地研究苦修。
在这场苦修中,国泰君安期货资管部量化投研团队韩雪在设问,也在自答。她感觉“被骗”入行,但也在所有赛道中挑选了个最难的,尝试从长期的视角中,形成自己的技术壁垒,在量化市场与国际不断接轨的现在,寻找到自己在投资领域的一席之地。
01 “我们现在对于数据的利用充分了吗?”
“我们现在对于数据的利用充分了吗?”在开启交流之后不久,韩雪反问编写组。
韩雪,先后供职于国内高频私募,海外基金公司策略总监,国泰君安期货投资经理,放弃了高薪和稳定的生活,她选择挑战内卷和梦想,现主要从事期权投资,虽然不到30岁的年纪,但是全程一手搭建了公司期权投研数据监测屏,特色数据库,期权本地化高频回测平台等。
“大家对数据信息的挖掘程度是有过程的。”编写组对于受访者“反客为主”有点意外,但还是答道。
从传统财务数据、交易类日频数据到高频数据、另类数据,行业不断由浅入深,而这是必经的过程。拿新闻舆情来说,传统上是对每个新闻打一个情感得分,乐观还是悲观,然后做成0与1的二元变量,但这种处理粗糙,吞噬了背后隐藏的巨大信息。
随后业界采用自然语言处理模型,分析里面每一句话的情感,就得到一个更精细的连续0-1指标,也会有人观察同一个分析师,对同股票时间顺序上的判断,以此从时序上面挖掘信息。
而就韩雪看来,随着自然语言处理技术的发展,包括Attention,Transformer等技术的出现,文本分析的标签可以更具体更精确,可以提取的信息就能更加多样化,而不是单一的情感判定。传统财务、规则数据已经不算是增量数据,因为数据类型只有这么多,而这也正是造成行业内卷的原因之一,因为规则性的数据并没有扩张,大家永远在这几类数据当中挖掘,每个人拿到的数据也是一样的,所以量化只能越做越窄,越做越细, 从分钟到Tick再到逐笔。
当然,在这个过程中,每个人对于数据的理解也是不同的。“拿隐含波动率来说,这并不是一个新词,但是隐含波动率的计算方法千变万化,这个背后的原因是什么?因为这是一个推断性的公式,Black-Scholes这个男人真的是非常伟大,但又非常不'要脸'!因为公式里充满了各种各样的假设,股票价格服从对数正态分布,股票价格要符合几何布朗运动。”
她认为:接下来增量数据的爆发来自于另类数据,但是另类数据又会面临:1、数据源是很难确定的;2、干净稳定的数据昂贵;3、隐私边界。4、非结构化数据体量很大,难以预测即将产生多少回报。5、数据要入乡随俗,还要涉及语言构造的问题。
“所以,我想一下另类数据核心点在哪?”韩雪又问编写组,这个并不在提纲当中的问题。
“在于存储。这是数据未来的一个难题,在未来5~10年一定会遇见。”
3、4年前,她能买到的芯片价值2-3千块,2022年1月价格逼近2万,原因正是在于大量机构需要对数据进行组合、清洗、整理。接下来随着量化发展的过程中,硬盘的价格也经历了大涨之后,大型机构会拥有自己的数据中心,而其他机构可能会共享数据,常见量价规则类数据已经有成熟的厂商,但是另类异构数据供应鲜少。在增量数据发展过程当中,算力还将继续扩张,从多线程跑满到GPU,会变得更加高效且弹性,实现更方便的隔离,在更轻量的docker,学习互联网大厂如何应对数据冲击的kubernetes弹性计算方式,不仅能优化分配资源,同时能实现语言之间的跨境。
02 “量化是绝对正确还是模糊正确?”
“数据、算法、算力,对于量化而言,我们到底是在追求绝对的正确,还是模糊的正确?”韩雪问编写组,也在为这个职业设问。
她是一个理想主义者,尝试在模糊当中追求一个完美的正确。她在海外修完双硕士,中途跳级,在美国工作一年之后回到国内,选择人少的衍生品高频切入市场。
“Black-Scholes为什么做一个推断性公式?你会发现每个模糊的过程当中会有各种各样的可能性,所以这才是比较有趣的点。”韩雪要求自己在每一个算法上都要更努力点,做到最好,但是后来发现做到最好没有用,因为可能每个方面上都是一种模糊的正确,然后在模糊的正确当中先跑起来再说。
她选择衍生品这个赛道,正是源于这个赛道门槛更高:“因为衍生品因为很多人觉得它结构复杂,挣钱不如股票,开始时需要很多的积淀,后续还要投入大量人力物力、财力算力进去。但它不会与大家拥挤,能减少一些别人对我的影响。”
她并不讳言,自己加入行业是因想要“印钞机”。13世纪时候诞生了“亨内考魔轮”,它让科学家做起了“永动机”的梦,科学家们幻想,一旦永动机诞生,人类将产生源源不断的能源,于是科学家一直试图复刻“亨内考魔轮”,却都惨遭失败,然而无数的失败却没有打消科学家们的热情,反而对永动机的探索愈加狂热。
但即便是印钞机也得不断精进与迭代。同时,她认为不是自己选择量化,而是主动投资没有选择自己。“我不太看得懂人说话,无法从公告多变的”话术“中判断是涨还是跌,但趋势是非常肉眼可见的,能做概率统计,然后用大数定律去胜了它就可以了。”
“如果量化交易是基于大数原理和概率优势的,在目前交易样本体量下的话,它究竟算是一个安慰剂,还是真的有效呢?”调研组问道。
“投资看10年,那绝对就是有效的。”量化总被认为是看短做短,韩雪做高频,但是她却认为她看的是10年。“海内外投资差别比较大,国外认为投资是对于一种未来的认知,他们办年会,但我们出周报、出月、报出季报,投资周期看得很短,甚至短到每日都要报告。如果收益率下降要不要道歉?我们不存在道不道歉,永远是市场正确,没有对错的东西,为什么要道歉?因为这就是个投资的一个过程,永远前进的过程,我们不应对一个过程道歉?失败乃成功之母,应该看更长远,我们只是在做时间的朋友,共同投资的陪伴者。”
当然,韩雪也遭遇过回撤,第一次遭遇大幅回撤是在她的学生时代。“寒假某一天,我个人账户上亏了有几十万,不太开心,达到了总资产的近一半以上,我表示有点慌,所以我一直在盯着盘,像一个热锅上的蚂蚁。”这个时候,韩雪的父亲过来问怎么了。
“亏钱了,”想了想,她想:“爸爸你会骂我吗?”在韩雪看来,这是很多年轻的投资人、交易员都会遇到一个问题:关心其他人怎么看我。
父亲的回答不是“父母有钱”,或者“投资很危险的,你不该参与”。而是“这个是你自己的账户,你该自己管理。”这对她的投资观做了一个很好的开端:每一个投资人都会遭遇回撤,都应有自己的办法去疏解,不要去在乎别人的看法和眼光,可以哭,可以发泄,就像阮籍穷途,但只要对账户负责,去反思,去复盘,加强风控还是逻辑错误赶快止损,都是该做的下一步举动了。
03 “衍生品更危险你怎么看?”
韩雪的工作是构建上千个衍生品组合,在其间寻找机会。在她看来,期权最大的优势在于杠杆,但危险的也可能是杠杆,它是解药也是毒药。投资人要选择在什么样的胜率下玩,做合理的仓位控制能让游戏一直玩下去,这个是非常关键的,不要在某一次失败中就彻底下线了。
而股票给韩雪最大的感受多样性,“4000多家企业4000多个面,有它的通用之处,也有特性之处。有个词叫一致预期,我觉得这个词非常有意思,你是想让市场达成一致预期,还是不想市场达成一致预期?”
她不想跟别人达成一致预期,她更愿意做独特的投资。克劳修斯提出了热力学第二定律,在自然过程中,一个孤立系统的总混乱度不会减小。简而言之就是孤立系统的熵永不自动减少,熵在可逆过程中不变,在不可逆过程中增加,可以说非常鲜明地指出了不可逆过程的进行方向,独立思考如何打造自己的投资逻辑闭环。
“我就愿意在市场底下被砸得很深的时候,蛰伏,等待一个确定性极强的结果,'啪'抬起来的那一瞬间,那不仅仅是非常漂亮的一个曲线,更是市场对于你投资理念的共鸣。”
所以她认为自己很适合做衍生品,衍生品自带杠杆,会让投资人产生敬畏之心,需要更加谨慎的过程当中,像价值投资一样,要花很多的时间研究,埋伏。
“你在害怕什么?害怕的是不知道,不清楚,不了解,而不是明天会不会变,答案是一定会变的。”对这个市场,杠杆,技术,新的品种永远充满敬畏和期待。在她看来,很难说在这个市场中成为”成熟”的投资经理,因为没有完美的公式,所以也不存在真正的成熟,资深如巴菲特也难以预料到经历了80年的美股,会连遇4次熔断。
所以这个市场需要风控,业界通用的就是希腊字母控制,这个是表征,但如果投资经理对策略了解足够透彻,而风险更多是通过衍生品的构造机理去控制风险,很多风控是不必要加的,加了反而会影响交易速度,所以她认为真正的风控是在了解原理之后。
另外一个比较通用的角度就是对市场预判的风控,也就是行情风控,第二是操作失误风控,也就是交易流程规范。前者需要对市场有一个大致回归的预判,可以设一个最大的回归限制。而对于后者,其实量化就是来减少操作失误,情绪化的失误,疲累的失误。但是操作失误是机器永远难以避免不了的,可能某一个接口出了问题,不要去害怕失误,因为只有一个标准的答案,那就是多测试,定期测试,发现bug,然后debugo
“还有投资人会觉得期权危险,所以你们怎么看?“韩雪问道。
04 量化行业缺“傻子”
“量化交易还需引进更多算法,这个行业从来不缺聪明人,缺的是“傻子”,把它当作创业。”韩雪认为机构不应该通过面试或访谈套策略,大家都是聪明人,这个举动会损耗的是人才对于公司的信任度和口碑。但她乐意同业界进行交流,包括算法、异构数据等,以此对抗熵增,并且获得及时反馈共同进步。“我会去思考要达成什么样的目的,然后再反推用什么样的算法更好,有时候与大家交流的时候会遇到一些业界一直想尝试, 但没有用到过的,谁也不想当第一个吃螃蟹的人,也许效能不是很好,这个探索过程周期会比较长,中间就被砍掉都会有。但失败就是成功之母,虽然我们都不爱失败,就像我们不喜欢bug一样,但debug是必经之路。”
她坚定地认为当前算法还需要创新,随着数据的细腻度颗粒度要求越来越高,业界就不能再采取简单而粗暴的算法了,但是大家很久没有听到很新的算法诞生。不禁感叹,业界苦新算法久矣,新招的实习生,或者年轻员工,除了拿来就去做常规的挖因子,应该充分调动他们的好奇心和创造力这是很遗憾的,大家沿着比较常规的东西一直在做,而这也就是造成行业内卷的原因之一。比如各种回归,遗传算法、神经网络等,不管有模型还是没模型的,大家还是需要再开拓思维,比如近期我在关注区块链技术应用到金融领域,通过共同节点去认证,系统性地解决信任问题,可以轻松让交易记录不被篡改,但也会遇到极少数尾部冲突的情况。
海外量化布局中国,也是国内量化从业者所面临的挑战。
“海外大型量化机构比如文艺复兴等对于未来的布局当中,我认为一定包含进入中国,因为资金都会往高Alpha的新兴市场走去,所以未来3-5年将会全面铺开。”她认为这对于内资量化人来说,是一种无形的压力,要靠自身去打破,师夷长技以制夷。“海外机构当前在追求超高收益的阶段,并不是追求规模收益,他们对资金有很高要求,暂时并不着急扩张,所以百亿私募的对手是海外机构而非其他百亿机构,因为当这些海外机构想要扩张的时候,市场号召力将会非常强,国内百亿量化规模优势也就不再存在
当然,是压力也会促进学习。在韩雪看来,外资投研十分扎实,比如外资机构会测量土壤的温度,会跟某些调研机构合作,这些看似很遥远的信息,就是异类数据的增量,与市场息息相关。“她并不认为海外机构一定叫做领先,因为国内从业者也有同样的潜力,但海外用了一种更开放的思维,比如把行为经济学、心理学迁移进入投资领域,再用不同的方式来解决问题,而国内很多时候喜欢追热点。”而且,量化的技术不仅体现在策略,还体现在工程比如很多硬件设备并非国产,而当前很多人工智能论文也是海外发表比较多,不能说我们没有课代表,但平均分而言,我觉得中国量化还处于一个尴尬的位置,但需要有无问东西,去追赶,去敢为人先的状态。”所以韩雪非常支持机构购买算力,去研究超算,量子计算机,去建自己的有效的基本面数据库,这一步中国是一定要跨出去的,要做别人没有做过的事情,即使失败,即使回撤,也是值得。