在我们许多人的眼中,机器无需人类教受便能够自主学习是科幻小说或电影中的情节。而科幻电影给我们留下的印象往往是邪恶计算机企图统治世界。但当人工智能和机器学习成为我们生活中的一部分,并且用于保护人类和财产安全时,这是不是很有意思?作为全球最大的网络安全公司,赛门铁克调查发现,每年全球都会发生超过10万亿起安全事件,平均每天会发现超过100万个恶意软件。如今,单靠人类和传统系统根本无法理解和处理当下的海量数据,并将它们转化为实用的情报。这促使我们开发和试验新技术以解决这一难题,而其中,机器学习和人工智能成为研究的重点。
机器学习是什么?它与人工智能有何不同?
尽管当下的数字助手、Siri、Friends、数据挖掘、计算机视觉和工业应用等技术已令人惊叹不已,但事实上,我们仍处于机器学习和人工智能发展的初级阶段。实际上,虽然这些概念已经提出超过60年,但直至最近十年,这些技术才取得真正的实质性发展。
机器学习和人工智能密切相关,但也存在显著差异。机器学习无需特别编程,便能够从输入和经验中进行学习,而人工智能则需要机器去感知和模仿人类的行为。以自动驾驶汽车为例,识别行人可以被理解为机器学习,但在抵达目的地之前的行驶过程中所处理的所有内容则是人工智能。
机器学习在网络安全领域的应用
随着越来越多的企业拥抱数字化,保护自身企业的措施也必须进行演进。主动抵御安全风险,要比被动响应风险更加至关重要。现在,威胁和设备数量以及网络规模如此庞大,人类和传统系统根本无法充分理解安全威胁,并建立关联。因此,我们必须求助于机器学习和人工智能,确保能够领先网络攻击者一步。
在网络安全领域,机器学习和人工智能作为助力手段,为我们提供了新的机遇——系统能够理解数据,并提供我们需要关心和采取行动的信息,这能够极大地提高安全分析师的工作效率。
机器学习在网络安全中的应用主要集中在三个方面:威胁检测、异常检测,以及用户行为分析。
以威胁检测为例,我们委托机器学习系统检测新型未知文件,并确定该文件是否构成威胁。要做到这点,它必须通过查看已知恶意文件(已确定的恶意文件)进行学习,它所查看的样本数量越多,就会越了解这些样本的特征(属性、组件、行为),也就越能够检测和发现未知文件。这是一个持续自我改善与提升的过程,通过发现和吸纳已核实的新结果,不断提升机器学习的能力。
而对于异常检测而言,它需要系统检测行为模式,并基于此自动构建配置文件。在自动驾驶汽车等封闭系统中,系统会观察车辆的所有组件以及它们之间的通信方式,并为正常状态构建一个基准模型。当发生超出该模型的异常事件时,系统就会提示异常。由于数据可用性的挑战,对互联网等开放系统的异常检测变得极为难以实现。只有以海量数据为样本时,才能实现真正有效的检测。赛门铁克凭借来自亿万系统的遥测数据资源,能够实现有效异常检测。
机器学习在这两方面为我们构建出色的工具提供了支持,使赛门铁克能够领先网络攻击者一步。威胁检测帮助我们发现全新未知的恶意软件,而异常检测则能够帮助我们查看网络或系统是否受到攻击,或是否需要进一步调查。
数据是机器学习的动力之源。而大数据则是赛门铁克机器学习方法的核心。得益于在端点、网络和云安全的广泛足迹,我们从来自不同企业、行业和地区,并处于实时监测下的1.75亿端点和 5,700万攻击传感器中收集了广泛的威胁与攻击数据。这些数据意味着数十亿文件和近四万亿关联信息。这是一个庞大而丰富的数据集,能够训练分类系统去分辨哪些是“无害”、“恶意”,以及介于两者之间的数据和内容。我们拥有的数据越多越丰富,检测就会越精确越高效。
Symantec Endpoint Protection 14 解决方案能够在端点和云端部署高级机器学习,同时充分利用云中附加的人工智能机制和赛门铁克的全球智能情报网络。
展望未来
最终,我们需要能够构建出色的情报安全系统,并确保它们拥有比威胁发展更快的速度进行学习,还能够预测新的攻击。我们可以利用机器去搜索暗网,无需查找关键词,便能够理解和解读以任何语言所进行的讨论,并将这些内容导入人工智能,将它们与所有其他机器学习输出进行整合,从而最终实现感知、检测和生产。
尽管机器智能的概念存在已久,但真正意义上的发展还是开始于近年。我们对于机器学习和人工智能将威胁监测带入新的领域感到兴奋不已。如果能够正确利用人工智能与机器学习,并与端点和云端广泛而丰富的数据相结合,这些技术将彻底改变打击网络犯罪的方式。随着计算能力和数据量的提升,人工智能和机器学习也在快速发展。每当我们在网上购物、使用ATM机、或者浏览广告时,智能机器都正在保护着我们。虽然现实生活中并没有统治世界这种惊心动魄的故事,但它们的出现至少会让我们睡得更加踏实。
好文章,需要你的鼓励
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。
这篇研究论文揭示了多模态大语言模型(MLLMs)存在严重的模态偏差问题,即模型过度依赖文本信息而忽视图像等其他模态。研究团队通过理论分析和实验证明,这种偏差主要源于三个因素:数据集不平衡、模态骨干能力不对称以及训练目标设计不当。他们提出了系统的研究路线图和解决方案,包括增强视觉模态在数据集中的贡献、改变模型关注点和应用偏好优化策略。未来研究方向则包括开发更客观的评估指标、探索更多模态组合中的偏差问题以及应用可解释AI技术深入分析偏差机制。
ComfyMind是香港科技大学研究团队开发的一个协作式AI系统,旨在解决当前开源通用生成系统面临的稳定性和规划挑战。该系统基于ComfyUI平台,引入了两项关键创新:语义工作流接口(SWI)和带本地反馈执行的搜索树规划机制。SWI将低级节点图抽象为语义函数,而搜索树规划将生成过程视为分层决策任务。实验表明,ComfyMind在ComfyBench、GenEval和Reason-Edit三个基准测试中均大幅超越开源基线,并达到与GPT-Image-1相当的性能,为开源通用生成AI开辟了新路径。
这项研究介绍了一种名为"热带注意力"的新型注意力机制,专为解决神经网络在组合算法推理中的困境而设计。传统注意力机制使用softmax函数产生平滑的概率分布,无法精确捕捉组合算法所需的锐利决策边界。