新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战

原创

数据猿DataYuan 2024-04-02 13:15:09 ©著作权

©著作权归作者所有：来自51CTO博客作者数据猿DataYuan的原创作品，请联系作者获取转载授权，否则将追究法律责任

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_API

大数据产业创新服务媒体

——聚焦数据 · 改变商业

近期，OpenAI的首席执行官Sam Altman重回董事会的消息引领了科技新闻的头条，这标志着人工智能领域的一个里程碑事件。Sam Altman同时当选为“TIME时代周刊”2023年度最佳CEO。2023年，我们见证了AI技术的巨大飞跃，特别是在大型语言模型的发展上，ChatGPT 4.0以及国产大语言模型凭借不断发展的技术能力，不断推动各行各业的技术革命。

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_数据_02

在最近几天的新闻中，多模态模型的进展尤为引人瞩目。谷歌Gemini模型展示了其在同时理解和生成图像、文字、视频多种内容的能力上的巨大进步，而百度文心一言、科大讯飞星火、阿里通义千问在本地化应用上取得了显著成绩，进一步拓宽了AI技术的应用范围。

在应用层面，AIGC技术已成为内容营销的新宠。企业正利用这些先进工具来生成创意的市场营销内容，Midjourney和Stable Diffusion等工具在“文生图”方面的应用，使内容创作者能够轻松地根据提示词将文本转化为精美的图像作品，这些AIGC技术的进步正不断改变企业运作的方式。而最近Pika在AI生成视频领域的表现，更是引发了广泛关注，它开启了未来通过文字来生成创意视频的大门。

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_数据_03

这些进步表明，AI不再是只在实验室或者仅服务于ToB的客户的一种技术，而是已经深入到我们生活和工作的各个方面。从企业到个人，从写诗作画到短视频生成，人工智能的应用正在以各种形式影响着我们的工作和生活方式。随着大模型技术的不断成熟和多模态应用的不断扩展，我们正站在一个全新的技术革命的门槛上，AI不断拓展人类的认知范围。在直面企业信息化转型的前沿话题上，CIO们在各种群里已经开始在讨论如下话题：我们能在飞书、钉钉和企业微信等办公工具中集成ChatGPT吗？智能客服机器人能否融入这种高级的语言模型？CRM（客户关系管理）和CDP（客户数据平台）系统能否结合ChatGPT以增强数据处理和客户服务吗？这些集成是否能延伸至人力资源系统，以辅助招聘、员工培训和其他HR相关工作？

随着机遇的到来，挑战也随之而来。企业和个人都需要认真考虑如何在追求创新的同时，确保数据安全、隐私保护和合规性。

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_语言模型_04

AI在企业系统中的数据安全与隐私保护方面的挑战

这些问题的核心在于，企业渴望通过AI提高创意和效率，但同时，这种技术的集成携带着潜在的信息安全、数据泄露和法律风险。

1、数据泄露风险：

如员工通过企业微信和ChatGPT、国产大语言模型交互时，可能会要求用户提供敏感数据。如果员工在与ChatGPT的互动中不小心提供了公司的敏感信息，如财务数据、销售数据、客户信息或内部机密文档，这些信息可能会被存储在ChatGPT的服务器上，从而导致数据泄露的风险。

2、合规性风险：

中国的《网络安全法》和即将实施的《个人信息保护法》（PIPL）对个人数据的收集和处理有着严格的规定。因此，任何在中国境内操作的企业在使用ChatGPT或国产大语言模型时必须确保遵守这些法律。通过企业微信或钉钉、飞书等应用程序访问ChatGPT可能会导致个人数据被转移到法规要求之外的第三方服务器，这可能违反数据保护法规。

3、认证和访问控制：

通过企业微信或钉钉、飞书等应用程序集成访问ChatGPT时，可能会绕过常规的认证和访问控制过程。这可能允许未经授权的用户访问敏感数据或功能。

4、记录和监控的缺失：

在通过这些应用程序与ChatGPT交互时，可能没有足够的记录和监控来跟踪信息的共享和访问。这使得审计和追踪潜在的数据泄露变得困难。

5、知识产权的风险：

当员工在与ChatGPT的互动中讨论公司的创新想法或即将推出的产品时，这些信息可能会被第三方记录和分析，导致知识产权的无意泄露。

6、数据出境的风险：

中国法律要求某些类型的数据必须存储在本地，且跨境传输需要满足严格的条件。这意味着，在未获得相应批准的情况下，将数据传输到美国服务器可能会违反中国的法律。

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_API_05

实际案例中的风险：

假设一家企业将ChatGPT集成到其CRM系统中，意在通过AI的数据挖掘和深度学习来分析客户数据，提供个性化的营销策略和客户服务。这一集成也许确实会带来了效率的大幅提升——客户满意度上升，营销成本下降。然而公司可能没有注意到敏感的客户数据在没有适当安全措施的情况下被上传到了云端的AI服务器，这不仅违反了数据保护法规，还使客户信息面临被未授权第三方访问的风险。

假设一家公司将ChatGPT或国产大语言模型集成到了人力资源系统，用以自动化筛选简历和初步面试，这种自动化可能大大减轻了HR部门的负担。但是系统可能因缺乏适当的非歧视性设计而引发问题，因为AI模型在不知不觉中学习并应用了历史数据中的偏见，导致某些候选人因性别、年龄等因素而被错误地筛选掉。在进行职业推荐时，由于历史数据中的性别分布不均，AI可能会向男性推荐技术和管理职位，而向女性推荐后勤和文员职位。如果企业使用这样的模型来辅助招聘过程，就可能导致性别偏见，从而违反平等就业的法律和原则。

当模型用于智能客服机器人时，它可能根据用户的姓名、消费等级或其他标签产生对用户的社会经济背景的推断，并在无意中提供差异化的服务，这可能导致对特定用户群体的不公平对待，特别是在国内CRM系统对客户产生几十种甚至数百种标签的情形下。

私有化部署是可能的吗？

医疗保健行业、金融服务行业、政府和公共部门、研究和开发部门经常需要处理大量敏感的个人信息或研究数据，他们并不愿意将这些敏感或高价值数据提供给公有的大模型，这个时候就需要私有化大模型来保证数据隐私安全。然而，这一做法也存在不足之处。高昂的成本、维护的复杂性、对专业技术人员的需求和可扩展性问题都是中小型企业需要考虑的难题。

在兼顾效率和数据隐私方面取得平衡：

笔者认为在公司内部应用系统中集成ChatGPT等人工智能服务时，可以通过以下措施来确保数据隐私的同时提高内部效率：

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_API_06

1、设置API网关和数据过滤层：

创建一个API网关作为内部应用系统和AI大语言模型之间的中介。在这个网关中，实现数据过滤功能，确保任何传递给AI大语言模型的信息都不包含敏感数据。例如，可以脱敏处理或使用数据掩码技术来隐藏个人信息。比如在一个HR系统需要通过大语言模型如ChatGPT来自动回答员工关于公司政策的问题，API网关会在发送请求之前去掉或替换所有个人识别信息（PII），如员工ID、姓名等。

2、使用安全的API调用协议：

使用HTTPS协议在数据传输层面进行加密，确保调用API时数据在传输过程中的安全。

3、限制数据的授权访问：

确保只有授权的用户才能访问API。我这里建议通过API密钥和访问控制列表（ACLs）来实现。

4、严格的权限管理：

为使用国产大语言模型或ChatGPT API的用户设置严格的权限，确保他们只能访问和操作必要的数据。有权访问敏感信息的数据的人越少越好。

5、审计日志：

IT应用系统必须记录所有通过API发送的请求和接收的响应，以便在发生数据泄露或其他安全事件时进行跟踪和审计。

6、定期评估和监控：

定期评估使用国产大语言模型和ChatGPT的效益，同时监控数据访问模式，以便发现并解决潜在的隐私问题。

7、使用自定义模型：

大型企业或者政府机构可以考虑在本地部署类似国内的科大讯飞星火大模型等或者开源的模型如Llama、ChatGLM、Bloom、Stable Diffusion等，这样所有数据处理都在公司内部进行，不必发送到外部服务器。

8、选择具有大模型开发能力的供应商

目前很多应用系统如CRM系统、客户服务系统的供应商都在基于大模型开发垂直化的应用，如欧美很多公司使用了Salesforce用于构建企业商城和CDP系统，Salesforce既内置了Einstein AI来提升数据处理和营销自动化的效率，也提供了将数据脱敏处理提供给ChatGPT训练的能力。目前很多优秀的垂直化大模型已经取得了可喜的进步，企业可以优先选择那些具有大语言模型开发能力的供应商以扩展未来的AI在企业内部应用系统中的使用。

新秀丽（中国）CIO李德胜：企业如何应对AI在数据隐私方面的挑战_数据_07