您的位置:首页 >> 阅读文章
    

作者授权  本网首发

阅读次数:  173
机器学习与法律的未来(一)

本文结构:

1.什么是机器学习?从一个最简单的神经元开始

2.机器人法官:构建一个法律机器人的神经网络

3.官司输赢:让机器学会二元判断

4.高斯分布:机器比律师更了解自己

5.小结。

一、什么是机器学习?——从一个最简单的神经元说起

当下,机器学习可以说是人工智能的核心概念,那么到底什么是机器学习?它对法律到底会有哪些影响?未来的律师真的会失业吗?作为法律人,尤其是年青人对法律的未来又应当有哪些憧憬呢?

事实上,机器学习的过程,与人的学习过程大致相同。先来想一下人是如何学习的,人从幼儿开始,父母会告诉他(她)这是汽车、这是花朵,人的大脑犹如计算机的硬盘一样具有存储功能,这样,人的大脑中逐渐存储了大量的样本数据,以至于幼儿在后面可以自主识别汽车、花朵、房子等等。同样的,机器学习也就需要大量的样本数据,这一过程也被称为“深度学习”,我在HOW实验室训练FILE机器人进行撰写的时候,就需要让它反复阅读和识别在先已经撰写好的法律文书,完成深度学习之后,它便具有了自主撰写的功能。

人的大脑是由几十亿个神经元组成的,以至我们可以综合处理各种信息。人工神经网络的布局中同样有一个重要的概念叫“神经元”,它的作用同样是用于接收和处理信息。

上述图示中左边部分是人的神经元,右边部分是人工智能中给计算机的神经元。计算机是非生物性的,无论如何它都不可能长出像人一样的神经元。人的细胞中主要成份是水,而计算机是最怕水的,因此机器学习中的神经元,是模拟人的神经元。那么,在这一过程中它又是如何模拟人的神经元来完成决策的呢?

这里不妨以一个最简单的神经元为例进行说明,比如在一个是否选择违章停车的判断中,那么就需要向这个神经元输入如下信息:1.一旦被处罚,罚款的金额(x);2.合法停车的费用(y)。当然上述每一个要素都是要有权重的,比如罚款的金额有概率的(也称为权重k),如果这里违章停车被发现的几率很小小(第1项的权重k很低),即kx小于y,那么这个神经元将得出“可以违章停车”的结论;反之,kx大于y,那么这个神经元将得出“不可以违章停车”的结论。

线性回归是机器学习中的一个重要概念,前面所举的那个神经元的例子,关于比较kx与y值的大小,事实上就二个最简单的线性方程:y=kx,这个方程在二维空间中就是一条直线,凡是落在直接上面的点(kx>y,即“不可以停车:),凡是落在直接下面的点(kx 小于 y,即可以停车)。这仅仅只是一个最简单的神经元,事实上,人工神经网络往往需要成千上万个这样的神经元共同组成,最终由这些神经元共同作用从而作出决策,以至于没有办法用简单的二维或三维图示进行表示。

机器学习中蕴含着大量的数学原理,马尔柯夫链便是其中的一个重要理论。它是以俄国数学家马尔柯夫的名字命名的。这一理论说的是事物在某一时刻的状态,是由它前面一时刻的状态所决定的,它在计算事物发生的概率方面具有重要意义。据此,我们甚至可以预测明天或者后天即将会发生什么犯罪?比如警察向机器人提出这样的问题:帮我预测一下周某个时间段(如晚上10-12点)在某地(某某步行街)将会发生什么犯罪?事实上,这一切机器人是可以做到的,当然,它不是算命先生,而基于大量样本数据的学习。这里,机器就需要对本地区历史所有犯罪信息进行学习,并找到这些犯罪与时间、地点、活动、天气、失业率等所有要素与犯罪之间的关系,最终通过马尔柯夫链完成对犯罪的准确预测。

二、机器人法官:构建一个完整的法律神经网络

(一)构建一个可以量刑的神经网络

一个被告人被认定有罪后,他到底需要判几年,我国刑法中往往规定了较大的幅度,法官判案中量刑标准往往差距很大,同案不同判的情况时有发生,这在一定程度上影响了法治的统一及法律的权威性。基于机器学习的数学原理,我们甚至可以设计出这样的一个机器人法官,由它来作出裁判。

这里,我们需要构建一个能够帮助法量刑的神经网络。我们可以发挥想像力,想像一下与案件量刑有关的所有要素:第一,罪名,盗窃罪的量刑会于杀人罪;第二,主观过错,故意和过失相比,前者要重一些;第三,损害结果,是造成财产损害还是人员伤亡;第四,被告的年龄,未成年也会涉及到减轻或免除处罚;第五,是否系累犯一般累犯要从重处罚;第六,是否有从轻或者减轻情节,包括自守或者立功等;第七,犯罪的地点,像盗窃罪会涉及当地经济发展水平。

当然,计算机并不会当然知道这些要素,这就需要我们向神经网络中输入上述信息,因此与上述要素相关的变量也就产生了,比如我们用用x1表示罪名,x2表示主观过错,x3表示损害结果等等。事实上,每一个要素对最终刑量影响的权重也会有区别,甚至它还会因为不同罪名而发生变化,比如在盗窃罪中金额就是主要参考的条件,然而在伤害罪,伤残等级则是一个十分重要的条件,因此,这里就有了一个权重的概念(用k来代表),它表示每一个要素对于量刑结果的影响程度,我们甚至可以用k1来表示罪名的权重、k2来表示主观过错的权重,k3来表示损害结果的权重等等。

(二)机器学习的目的,找到一组最有价值的权重数据

事实上,在这样的一个机器学习当中,最为重要的便是让机器找到一组最靠谱的权重值(k值,包含k1,k2,k3直至kn),这就需要给机器学习大量的样本,样本数量越大,机器学习的效果往往越好。最奇妙的是,机器学习最终将完成对上述各个权重值的精准计算,以至于可以细微到能够精准判断出被告人的过错程度,严重过错、轻微过错亦或是其他,并且最终根据一套复杂的神经网络计算出最合适的量刑。如果要真正理解这里面的奇妙过程,离不开高等数学中的矩阵(矩阵几乎是高等数学最为重要的概念)计算。

毫无疑问,机器学习的过程中需要大量的样本,其实每个样本,都可以描述成一个线性方程。括号内数字表示样本编号,比如有m个数据样本,就意味着由m个方程组成的方程组:

方程组是用来求解未知数的,然而在机器学习中这些未知数被统为变量。机器学习所用的方程组与我们此前在数学中碰到的不太一样,机器学习所用的样本(方程)的数量会比变量(未知数)多很多,比如有100万个样本,这个方程组中就有100万个方程,而其中需要求解的变量或许只有100个,这样方程的数量是变量数量的1万倍。显然,方程的数量与变量(未知数)数量并非是相等的。因此,在机器学习中,并不存在任何一组答案能完全满足所有方程,事实上,真正求解的是一组“拟合”的数据。

(三)矩阵方程,让机器学习成为可能

在高等数学中,矩阵与方程的关系,是一个十分伟大的“发明”。如果不用矩阵求解方程,也就不可能有机器学习的存在。在这里,你可以不用纠结于高等数学的这些复杂概念,总之,你只需要知道,即机器需要找到一组靠谱的数据,(k1、k2等),说得再通俗点,机器需要对大量样本的学习找到每一个影响量刑要素的权重值,如被告人未成年的情况会对量刑产生多大影响、被告人系累犯的情况又会对量刑产生多大影响等等,所有的这一切都可以用k1、k2来表示。这里的奥秘就在于,机器如何能找准确找到这些权重值?

这里犹为关键的是,要用矩阵的方式来表示每一个样本的方程:

你能否看懂这个矩阵方程并不重要,只需要知道,在样本数据中很多数据是已知的,而机器学习的过程就是要通过这些已知的数据寻求未知的数据。显然,在样本数据中所有x值和y值者是已知的,其中的x值是与量刑有关的要素,如罪名(x1)、被告人的年龄(x2)、被告人居住的地点(x3)这些样本数据都是已知的;y值即为被告人被判处的刑罚(如3年或5年有期徒刑)在样本数据中也是已知的。机器学习的目的便是寻找这里的k值(k1,k2…… kn)。在真实的机器学习的案例中,这里的矩阵方程是非常巨大的,例如有1000万个样本,每个样本涉及的变量有100个,那么这就是一个100 × 1000万的超大型矩阵。所以,说到机器学习,就要感谢当前计算机的计算能力,我在实验室中用到Python语言,用到hadoop并行计算技术,这一切让机器学习成为可能,或许这也是人工智能会在当前爆发的根本原因。总之,一旦这组数据(一系列的k值)被成功拟合,可以说机器学习也就完成了,机器被赋予了智慧。

三、官司是输还是赢,让机器学会二元判断

机器学习中的“线性回归”可以帮助我们预测一个准确的值,然而这个值的范围几乎是无法确定的(如机器人计算出的案件赔偿额可大可小)。然而,在很多法律应用场景中我们需要的并不是一个表示大小的结果,而是一个二元判断,比如让机器人对如下法律问题作出判断:

1.预测官司赢还是输? [输或者赢]

2.判断行为是否属于金融欺诈?[是或者否]

3.证据是否会被采信?[是或者不是]

这些法律问题都需要机器帮助我们作出二元判断(是或者否),于是在机器学习中就引出了“逻辑回归”的概念。它的数学公式如下(其中e自然常数,e ≈ 2.7182):

由于这个函数的曲线类似于S形,所以基于这一函数所构建起来的人工神经网络,也被称为S形神经网络,这里的x座标(z值)可以从-∞到+∞,但纵座标值(g(z)值)都会无限接近于0和1,那么在判断这个案件当事人赢会输的问题上就变得简单了,凡是结果大小0.5的即为赢,凡是结果小于0.5的即为输。

那么,到底是大于0.5还是小于0.5,仍然是需要由机器来完成计算的,在判断官司输或赢的案例中,机器会汇总所有可能影响案件判决的要素,这其中既包括对以往案例的分析,甚至还要计算主审法规对此类案件的倾向性意见,最终计算出一个大于或小于类似于0.5的值,由此可以判断官司是输还是赢。同样在判断金融欺诈的事件中,机器通过对大量金融欺诈手段、方法的学习,进而可以判断当事人的行为是否属于金融欺诈。同样的道理,在一项证据是否被采信的问题上,机器同样可以基于样本的学习,最终给出最专业的意见,该项证据是否会被采信,进而在证据出示之前便可提前作好准备。

四、高斯分布:机器比律师更了解自己

(一)机器学习,让律师提前知道赔偿数额

高斯分布是机器学习中一个重要理论。高斯分布也称正态分布,它通过局部样本的学习,就可以对事件全局的分布情况作出准确的预测,举一个简单的例子,在一个城市中我们随机找100个人,如果了解了这100个人的收入情况,利用高斯分布模型,就可以作出这个城市所有人员的收入情况分析,以至于可以准确评估出每个阶层收入的比例。高斯分布以德国数学家高斯的名字命名的,它的确是一个十分了不起的发现,现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。

高斯分布图

利用高斯分布的理论,机器学习可以在局部法律数据学习,便可形成对整个法律格局的判断,这里不防以知识产权的赔偿数额为例予以说明。对于普通民事案件,确定赔偿数额并不是一个十分困难的事情,法律会适用“填平原则”,即根据被告方的实际损失来确定赔偿数额。然而,对于像知识产权类的侵权案件,赔偿数额则是一个难以确定的事宜,由于难以举证确定实际损失,实践中近乎有90%知识产权案件适用法定赔偿原则,即由法官在法律规定的范畴内自由裁量(版权法规定在50万元以下自由裁量,专利法和商标法则规定在100万元以下自由裁量)。这对于很多律师和法官而言,都是一个难题,那么,从0-100万区期进行自由裁量,法官很难掌握好处罚的标准,律师也很难预测最终的案件结果。

然而,通过正态分布的基本理论,机器可以通过对以往同类案件样本的学习,比如学习与实用新型有关的侵权样本学习,便可呈现一个完整的正态分布图示,进而机器学习会告诉我们,法官最大的判赔数额是多少,进而律师便可以形成庭前最专业的法律意见。 当然,利用正态分布完成机器学习,同类案件样本的寻找就变得至关重要,机器会关注到样本案件中的每一个细节,包括专利的类型(发明还是实用新型)、侵权的形式、持续的时间、侵权者的身份(生产商还是销售商)、侵权的范畴(省内还是国内)等等,最终才能拟合出一个符合规律神经网络。

(二)庭前预测法官的倾向性意见,机器学习的神奇

在出庭之前,机器人就有可能会告诉你,法官对于本案的概率最大的倾向性意见是什么?在人工智能是代,模拟法庭的格局将发生根本性变化,除了模拟双方进行辩论之外,还必须考虑到主审法官对倾向性意见,因为这对于案件审理至关重要。这样,模拟法庭中一个重要的角色便不可或缺,预测法官倾向性意见的机器人。

当然,要完成对法官意见的准确预测,仅仅依靠正态分布理论是不够的。正态分布的计算模型,只能从整体上完成对法律意见的布局,然而法官又是一个个具体的个体,因此法官的论文、以往的判例还有公开发表的法律意见,都将成为机器参考的重要要素。然而,在这一过程中,面对海量数据和资料,如何让机器形成逻辑便是一个最棘手的问题,我把它称为从统计到逻辑的过程。回顾机器学习的历史,它走过了一个从规则到统计的历程,包括当下的语言识别、机器翻译,这是传统的程序规则无法做到,但基于大数据统计,机器学习取得了较好的效果。然而,如何从统计到逻辑,这是接下来机器学习需要特别解决的问题。

五、小结

尽管机器学习可以赋予机器智慧,由此机器人也可以帮我们解决很多问题。那么,律师会失业吗?答案是不会。机器学习具有重要的特质——智商高,情商低。然而,律师工作中相当一部分是基于律师情商完成的,比如一个优秀的刑事辩护律师在法庭上,会根据不同的法官说不同的话,从而达到最佳的辩护效果,所以大律师往往是情商最高的律师;再比如当律师去会见犯罪嫌疑人时,它会激励犯罪嫌疑人的斗志,甚至像心理咨询师那样帮助他走出低谷,显然,这一切机器人毫无用武之地!

当下,机器人的智商还主要体现在数据的计算方面,从这一意义上讲,因为有了法律大数据,也才有了法律机器人。那么,对于新型案件呢,对于数据库中完全没有涉及的案件呢,当下的机器人也难以发挥作用,如果在这种场景下要让机器人发挥作用,就要要求机器人具有举一反三的能力,我把它称为从“统计”到“逻辑”,然而这还需要一个漫长的过程。

机器人不会完全取代律师,但却给律师执业提出十分严峻考验,那些不懂变通和创新,在法庭上只知道照本宣科的律师显然再难有生存空间。不仅如此,人机协作将成为未来律师执业的新格局,缺少机器人的辅助,律师撰写的文书或者出具的法律意见都将因为缺少数学模型会变得不够权威。总之,机器学习与法律的未来,这将是一个值得我们脑洞大开,甚至可以无限畅想的研究课题,关于这一话题的讨论还将继续。

说明:

1.本文系新华社《经济参考报》约稿文章,作者系中国社会科学院研究人员,HOW实验室创始人。

2.为揭示机器学习的本质,本文不可避免会使用了部分数学推理,相关数据和推理均经过HOW实验室实验验证。

相关文章:

主办:中国社会科学院法学研究所、国际法研究所
京ICP备07034807号-3