历史

上交所前总工白硕如何破解AI金融领域里人

2019-04-11 01:54:39来源:励志吧0次阅读

雷锋AI金融了解到,伴随着人工智能应用于金融行业的热潮,“高度同质化”问题愈加凸显:一方面很多公司推出的产品定位都很相似,另一方面风投们对创业公司的技术期待也大同小异。人工智能在金融领域似乎已经“人智义尽”——人工智能的语义处理、创意都走到了尽头。

“这不是一个好事情”,在近期举办的“2018恒生技术开放日”,上海证券交易所前总工程师、中科院博士生导师、区块链及人工智能领域专家白硕这样说道。在他看来,正是种种思维误区导致了这种“高度同质化”。对此,白硕从大数据、自然语义、知识图谱三方面,详解了当下行业内存在的同质化思维误区,并逐一提出了不同见解。

雷锋(公众号:雷锋)AI金融对其演讲内容做了不改变原意的精编:

大数据:共享误区现在一提到大数据就是要汇聚、要共享,如果数据不从小规模变成大规模,不进行汇聚,都不好意思说自己在做大数据和人工智能。这其实是有误区的。

其实很多应用单位并不情愿把数据拿出来共享,可能是因为共享的收益有限麻花机厂家
,甚至没什么好处。不敢共享,因为这些数据一旦共享出去,便不再为你所掌控。不能共享,因为会有监管、政策、法律等方面的考虑。

这就在事实上形成了一些由边界围出来的数据藩篱,再者随着中国人数据主权意识的觉醒,数据完全共享面临的障碍短期内较难消除。

这里有三种解决方案思路:

,交换模型。把自己一方数据训练出来的模型交换给另外一方,另外一方把原始数据训练出来的模型交换给我,不传原始数据,而是传模型,在传模型的迭代过程中逐渐地实现联合学习。

第二,同态加密。神经涉及到线性组合,里面有加有乘,一种还不够,需要两种,有一种全同态,这两种运算放在一起是否可以模拟成一个神经络?也不够,因为还有非线性,这个非线性不能用加和乘来做,就要用多项式逼近,一逼近就产生误差,误差会有怎样的传播和累计这个问题没有得到解决。需要注意的是,同态的方式只能加密输入,不能加密输出,输出必须是公开的。

第三,传假数据。把自己一方的数据训练出模型,利用自己一方的模型生成同类型模型的假数据精油加工
,把假数据传给对方。在这方面,我参与了中科院计算所研究的工作,这项研究叫做“合作学习”,本身数据不是很复杂,就是数字的识别。

左边是样本,不交叉的,标签互相不交叉,学习结果都会有提升,一方是100%,一方是0%,这边是一方是90%是0、1、2、3、4,10%是5、6、7、8、9,传假样本的方式传递数据的量非常小,要达到接近95%以上的指标,传输很少的数据就可以达到,我们用传模型的方法和每次迭代升级假样本的全集方法量非常大,现在用样本池非常小。

自然语言:端对端学习存在四大问题目前的主流是端到端嵌入学习,把词嵌入到项链,到把整个句子和整个符号串嵌入到项链星力电玩城
。而端到端存在四方面的问题:

首先,对语言的复杂结构和承载能力还是未知数。

第二,如果单位用户的需求复杂,靠这种学习能否应变、马上就改,尤其是涉及到客服、涉及到对外窗口,这个话明显已经错了,想改对,靠学习改对是非常困难的。

第三,对领域知识和领域专家作用的轻视,总觉得数据是完整的,觉得专家的知识经验好像可以绕开。这是不正确的,凡是自己有算法找你要数据,有数据就可以很好地合作,就可以解决痛点,这样的思路是错的。

第四,与结构化的知识怎样对接,这也是端到端嵌入方式的难点,不是说不可能,是有难点。

我现在回归符号来做,(上图)左边说“这只股票买过的都说太烂”,右边说“这只股票买过的都说太亏”,谁亏?谁烂?,说亏了是指买过股票的人,说烂指向股票,这样一个指向怎样通过符号解析的方式做出来?在这方面我们做了很大的改进,有一个新的方法,能够非常地解析。

知识图谱:过程性、动态性不够

知识图谱的问题是横向共同面对的问题,大家都说知识图谱可以做很多事情,但是同样是知识图谱,对知识图谱这个概念的把握和应用的时候使用的技术是千差万别的。

(上图)左边是知识图谱发展的历史,从描述语义的动机开始到为整个互联上的资源进行体系化的标注,再到本体,再到目前这样一种很丰富的技术站形态,而且这个技术站没有其他的技术路线可以替代的,这是不容易的,但是不够。

来看一下我们想要做的事情,目前我们把语义要素分成层实体、第二层属性或/状态,第三层关系、第四层事件,第五层时空,第六层场景,第七层主观认知。知识图谱能够做上面三层和底下四层,我们把这些语义分成本体性、过程性、辅助性,关键的是过程性,目前好多研究工作都没有往这个方向去做,这是不正常的。

近我看哈工大发布了知识图谱的版本,叫做“事理图谱”,把刚才那个图从上面三层向第四层推进了一步,这是事理图谱在哈工大版本的呈现,就是事件和事件的推理关系、顺承关系有了基础的刻画:

,需要带参数。带参数就是事件参与的这些实体两两之间有关联,比如说前面这个事件是处罚事件,后面是整改事件,这两个事件有交叉都共同指向这个原点,就是他们所共享的参数,如果不能在事件之间传递这个参数,就说明其实我们对事件的把握还很不够。

第二,推理。大家都知道证监会中从业人员的子女、配偶和子女的配偶是不允许买卖股票。在违规买卖事件中,违规的人和交易当事人之间有一种亲属关系。(下图)左边是事理图谱,右边是传统的知识图谱,事理图谱的推理过程反应到右边要读取相关的数据,甚至还可能改变数据。比如说撤职,在右边的知识图谱里,张三可能有书记、主任、会长等一系列头衔,这些是他的任职,当左边事理图谱里一个事件发生了,就要在右边把主任这个职位撤掉,我们认为这个事件是动态性的,左边的事件激发、影响到右边的关系,右边的关系又会影响到左边事件之间的顺承关系、推理关系和推进。

第三,激发作用链。激发会有一个作用链,从违规到处罚、到整改,中间有一些对象是共享的,比如说违规的主体就是被处罚的主体,也是整改的主体。

所以,很多公司想利用知识图谱技术去做行业的产业链分析、行业的基本面描述,但是在这个描述过程中如果不引入知识图谱的动态性,事情就无法做到位。

(雷锋)

分享到: