本文简单列举了法律AI目前的应用,数据集,研究方向。

历史

1970年,Buchanan和Headrick发表文章“关于人工智能和法律推理的一些猜测”,讨论了对法律研究和推理进行建模的可能性,特别是对于建议、法律分析的构建。

1977年,TAXMAN系统的论文,该论文以公司税法中的问题为缘由提供了一个定理证明的方法。基于他对这个早期系统的研究经验,他还研究开发法律概念的深层模型,如税法背景下的股权问题。

1978年,Carole Hafner发表了她关于使用人工智能方法改善流通票据领域的法律信息检索(IR)的系统的博士研究;它使用语义网络表达来超越纯粹基于关键词的方法。大约在这个时候,挪威计算机和法律中心由Knut Selmer和Jon Bing于1971年创立,扩大了对IR的关注,包括智能技术。随着网络的出现,对智能法律IR的重新研究再次蓬勃发展。

到了20世纪80年代,人工智能和法律工作得到了极大的关注。1981年,兰德公司民事司法中心的唐纳德沃特曼和马克彼得森为《侵权法》中产品责任案件的和解建立了法律决策专家系统;他们后来探讨了在石棉肺病特定领域使用专家系统的情况。伦敦帝国理工学院的Marek Sergot,Robert Kowalski和他们的同事使用逻辑编程来模拟《英国国籍法》的一部分,这是一部庞大而独立的法令。

20世纪80年代,人工智能的兴趣显着增加,研究界愈演愈烈。一些专业会议,如佛罗伦萨IDG和休斯敦大学的会议,紧接着是专门针对普通人工智能受众IJCAI-85。日本的人工智能和法律研究也开始于这一时期,东京明治大学 Hajime Yoshino的实验室就是其中的。日本第五代计算机系统工程(1982-1995)提供了很大的动力,特别是在使用专家系统和其他基于逻辑的技术方面的发展。

到20世纪80年代中期,美国一些主要的法学院也开始举办关于人工智能和法律的研讨会。第一次是在1984年斯坦福法学院,由三位法学教授:保罗·布雷斯特(后来成为院长)、汤姆·海勒和鲍勃·麦克诺肯。1985年,Rissland在哈佛法学院举办了关于人工智能和法律推理的研讨会。1987年,伯曼和哈夫纳在美国东北大学举办了他们的研讨会,此后每两年召开一次大会。该会的主要涉及的研究题目包括形式法律推理的模型、论证和决策的计算模式、运用证据推理的计算模式、多重角色参与的法律推理系统、可执行的立法程序模式、自动化的法律文献分类和总结、机器学习和电子发现的数据运用以及其他相关领域。

1991年,国际人工智能和法律协会的成立。多年来,这些研讨会层出不穷,并成为汇集AI和法律界的论坛。

法律AI任务分类

任务分类

从实际应用角度分类

摘自CAIL2018的PPT报告。

任务名称

解释

智能案例检索

类案推荐,非普通文本检索

判决预测

预测刑期、相关法条、罪名

文书自动生成

通常用于裁判文书生成

法律智能推荐

法律文本翻译

机器翻译在法律领域的应用

法律智能问答

法律咨询,对话系统

风险提示

阅读理解。合同、协议等

法律文本挖掘

使用判例的数据点,赢/损失率和法官的历史,用于趋势和模式

合规审查

从研究角度分类

列出部分。翻译自ICAIL2019

  • 从自然文本中挖掘证据
  • 从法律文本中进行信息抽取
  • 法律文本分类及摘要
  • 谈判和合同制定的计算方法
  • 计算机辅助争议调解
  • 证据推理的形式和计算模型
  • 本体论和法律知识表示
  • 智能法律辅导系统
  • ...

法律AI任务形式化程度较低,比较少见leaderboard形式的比赛。

法律AI数据集

国内数据集

  1. CAIL2018 源自裁判文书网。预测罪名、相关法条、刑期
  2. 裁判文书网 包含全国的大部分裁判文书原始数据
  3. CAIL2019(未开放)
    会包含多个与NLP具体任务相关的法律数据集。思路是公司和主办方和办比赛,定义问题、定义数据集。

美国数据集

法律只能方面的开放数据,大部分是原始数据,与AI任务不直接关联。下面几个数据集引用自10-best-legal-datasets-for-machine-learning.

  1. Legal Case Reports Data Set 机器学习任务相关。自动摘要、引证分析。
  2. Department of Justice Open Data 高质量的开放数据集,并非面向具体任务。包括多个具体的数据库,如暴力犯罪案例、FBI犯罪报告、统计报告等。
  3. The Supreme Court Database 200多个美国最高法院的案例,自1791年开始到2017年。
  4. Caselaw Access Project (CAP) 包含美国360年的判例法(以判例形式出现的法律,英文名为caselaw)。
  5. Bureau of Justice 美国的一些执法机构、监狱、假释、缓刑数据
  6. Carp-Manning U.S. District Court Database 暂时无法访问。包含1927年开始的110000多个美国联邦地方法院的判决。
  7. Patent Litigations 包含72000个案例信息,跨度52年。包含当事人、律师、诉讼结果、时间、地点信息。
  8. Google Patents Public Data 国际专利制度相关的公开数据。
  9. California Crime and Law Enforcement 加州的犯罪率、执法公开数据
  10. Credit card agreement database 各信用卡发行单位的信用卡协议

Kaggle上也有一些法律、犯罪等方面的开放数据集,有些包括具体任务,有些不包括具体任务:

  1. 芝加哥犯罪数据 不包括具体任务
  2. 旧金山犯罪分类的比赛 分类预测任务

法律AI比赛

国内

  1. CAIL2018

国际

开放比赛

  1. kaggle上关于旧金山犯罪分类的比赛

非开放比赛

  1. LawGeex
    LawGeex与斯坦福大学、杜克大学法学院和南加州大学。内容是四小时审查五项保密协议(NDA),并确定30个法律问题,包括仲裁,关系保密和赔偿。在这场比赛里,人类律师的平均准确率达到了85%,而AI的准确率达到了95%。AI也在26秒内完成了任务,而人类律师平均需要92分钟。

国际会议

  1. 国际人工智能与法律会议ICAIL

法律AI应用

国内

国双科技

华宇元典

科大讯飞

国外

摘自Best Artificial Intelligence (AI) Software for Law Firms5 Lawyer Bots You Can Try Now,列举了目前在商业中使用的一些法律人工智能服务。

  • ToB的应用主要面向律师事务所,或面向一般公司。面向律师事务所的,以提高律师工作效率为目标。包括阅读理解协议、合同、文书,提取关键条款等,包括对历史诉讼数据的挖掘,也包括高效率的、面向律师的检索服务。
  • ToC的应用。一种类型是在一个很窄但有需求量的领域深耕,如帮用户申诉停车费;也有帮助用户生成协议文书的;也有提供基本咨询服务,并介绍具体律师的。

Kira

主要面向合约文件分析。

合同分析。合同条款提取
合同审查
租赁条款提取

ROSS

主要面向律师事务所,提高律师处理case的效率。主要包括:

类案检索;
特定的排序、检索需求;

RAVN Systems

面向律师事务所,文档管理系统,并非只针对法律领域。高效管理文档、抽取信息。

Luminance

面向律师事务所。法律文件分析,提示需要重点关注的地方。

rradar

面向公司。提供法律建议、法律风险规避。

lexmachina

为律师事务所或公司的法律顾问服务。挖历史掘诉讼数据,为用户提供有用信息。

LISA

面向一般用户,帮助起草协议。通过自动向用户提一些问题,根据用户的回答生成协议。目前也支持起草房屋租赁等商业合同。

billybot

面向一般用户的法律咨询机器人,以对话系统方式提供服务。可以提供基本的法律信息,也可以帮助用户找到律师或调解员。

Automio

面向律师事务所。一个服务平台,帮助律师建立自己的律师机器人,提高面向用户的问答效率,也可以起草文书等。

DoNotPay

面向一般用户。帮助用户申诉不合理的停车费。