Cambridge Analytica公司收集数百万用户资料以利用个人恐惧并影响2016的美国总统大选的事件近期持续升温,而Facebook公司也因此遭到各方的口诛笔伐。
Cambridge Analytica公司掌握的数据还得到另一家厂商Global Science Research(简称GSR)的补充——后者对成千上万名用户进行了个性测试,并要求对方同意将数据用于学术用途。而与此同时,GSR方面会收集受测者的Facebook好友信息,并借此建立起一套极为庞大的用户档案数据库。Facebook公司的政策只允许收集好友数据用以改善用户体验,且禁止对这些数据进行出售或用于广告宣传。然而遗憾的是,Facebook公司从未证明过这些数据政策是否得到严格遵守,而从现在的情况来看答案显然是否定的。
此类工作正是大数据管理与治理任务的核心。此次事件向从事大数据的企业发出警告,即大数据的安全性与传统数据系统同样重要。
遗憾的是,大多数企业对于每天对其大数据造成威胁的各类安全漏洞及数据违规问题还没有做好充分的应对准备。
那么,首席数据官与大数据项目经理们应该如何解决这些日益升级的大数据安全挑战?
1.确定业务风险
作为典型代表,Facebook公司遭遇的问题无疑将严重损害其品牌形象与收入水平——而这一切都源自过于松散的大数据治理与安全实践。尽管实施保护手段并防止数据泄露问题是IT部门的职责,但如果CIO、CSO以及CDO无法以简单方式向CEO以及公司董事会解释安全隐患以及客户信息外泄可能给企业造成的严重后果,那么这类问题将很难得到实际解决。因此,在具体表述时,请采用“客户数据泄露会导致我们的客户对公司失去信任,并转向其它竞争对手”这类说法,而非“客户数据泄露会危害我们的系统,IT部门需要两天时间才能修复完成。”
2. 获取正确的助力
企业之所以在大数据安全方面表现得较为滞后,一大原因在于相当一部分企业目前仍缺乏内部安全专业知识,而人才市场也很难及时提供这类知识。当然,请不要被这样的现实所吓倒。相反,请积极引入外部咨询资源,这将帮助大家有效应对持续存在的系统入侵与信息窃取行为。黑客不会等待,我们也不能等待。
3.关注社交工程
如果数据负责人能够及时跟进,并确保相关人员能够按照约定返还相关数据——而非将其分享给他人,那么Facebook公司遇到的大部分问题本应得以避免。也许是员工无意中采取了与数据安全实践相违背的操作,进而造成数据泄露。对于这类由企业内部员工所造成的数据泄露或安全违规问题,社交工程往往是引发破坏的罪魁祸首。正因为如此,一切企业都应当高度关注对员工进行数据安全实践培训。此外,企业还应定期根据数据安全水平实施补充性培训。
4. 强调预防,而非检测
检测工作能够帮助我们在系统遭受入侵时快速发现威胁。但可以肯定的是,完全防止入侵无疑更为重要。大家可以立足网络边缘筛选入侵文档、电子邮件及其它形式的大数据,从而实现这项目标。通过这种严格的把控方式,中央网络与系统将拥有更为可靠的安全保障。
好文章,需要你的鼓励
谷歌发布数据共享模型上下文协议服务器,使开发者和AI智能体能够通过自然语言访问真实世界统计数据。该服务整合了政府调查、行政数据和联合国等全球机构的公共数据集。新服务旨在解决AI系统训练中常见的数据噪声和幻觉问题,为AI提供可验证的结构化信息。谷歌还与ONE Campaign合作推出数据智能体工具,该开源服务器兼容任何大语言模型。
这项由谷歌DeepMind研究团队完成的开创性研究首次系统阐述了AI智能体经济的概念框架。研究提出"沙盒经济"模型,从起源性质和边界渗透性两个维度分析AI智能体经济形态,预测未来将出现自然涌现且高度透水的AI经济网络。研究详细探讨了科学加速、机器人协调、个人助手等应用场景,提出基于拍卖机制的公平资源分配方案和使命经济概念,并深入分析了技术基础设施需求、社区货币应用以及相关风险防范措施。
微软宣布从周三开始将Anthropic的AI模型集成到其Copilot助手中,此前该助手主要依赖OpenAI技术。企业用户可在OpenAI的深度推理模型和Anthropic的Claude Opus 4.1、Claude Sonnet 4之间选择,用于复杂研究和构建定制AI工具等任务。此举标志着微软与OpenAI这对曾经独家合作伙伴关系的进一步松动。
中国人民大学研究团队提出LoFT方法,通过参数高效微调基础模型解决长尾半监督学习中的数据不平衡问题。该方法利用预训练模型的良好校准特性改进伪标签质量,并扩展出LoFT-OW版本处理开放世界场景。实验显示,仅使用传统方法1%的数据量就能取得更优性能,为AI公平性和实用性提供了新的解决方案。