扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
上次的BriefingsDirect播客所讨论的中心问题是新的数据和分析方法是如何在明显改进IT操作管理的同时加强安全性的。
该讨论介绍了AccelOps 的技术是如何通过相关数据将多个IT系统的事件关联起来的,从而使得管理人员能够更快的获得更好的系统洞察力,并能够据此更好的预测未来可能发生的系统问题。即利用了大数据分析和复杂事件处理(CEP)方面所取得的进步,在大规模IT系统中实现深入的实时的以及基于图形的系统透视。
本次播客我们邀请到了AccelOps市场部副总经理Mahesh Kumar,他将向我们解释这些新的解决方案将如何推动IT监控和事件响应过程的进步,以及如何保证关键系统处于最佳运转状态。播客主持人为Interarbor Solutions 的首席分析师Dana Gardner。[爆料:AccelOps 是BriefingsDirect podcasts的赞助方之一]
以下内容摘录自本次播客:
Gardner: 在新的解决方案中,为了实现更好的系统监控和分析能力,我们从IT系统获取数据的方式是否发生了改变?
Kumar: 我们所实现的是实时的数据分析。这里所说的实时就是指数据在未存储在磁盘上之前,以数据流形式存在和被处理的这个阶段。你必须要在这个阶段对数据进行分析并作出判断。这在信息分析方面属于非常高效率的方法。因为你可以避免很多数据同步或数据重复的问题,同时还可以实时的作出响应来修正系统或在错误发生前及时的发出警告信息。
在进行这种数据流模式的分析时,最大的挑战就是数据规模和处理速度。传统的关系型数据库本身并不是为这种实时分析设计的,因此你还需要使用创新的想法和做法来解决这个问题。
Gardner: 另外还有安全方面的问题,企业希望能够抵御各种类型的攻击。这种安全需求也需要在实时监控系统中得到体现吧?
Kumar: 你可能熟悉高级持续威胁(APT)。采用这种攻击方式的攻击者会尽其所能隐藏自己的身份。这跟我们以往遇到的那种暴力攻击完全不同。攻击者可能会劫持一个账号或采取某个方法入侵到服务器,然后在很长一段时间内安静下来,只是在悄悄的收集他们所需要的各种系统信息。
这种类型的威胁不是简单的靠分析历史数据就能识别出来的,因为这些收集动作都是实时发生的,而且攻击者的行动很隐秘,只能留下很微小的信号,也许同时还有别的事件发生,很容易将此类信号掩盖掉。因此在应对此类威胁时实时分析能力就显得很必要了。
比如,某人访问企业的服务器,如果是数据库管理员访问服务器,他会使用管理员账户,并且他的行动会产生一系列反馈给到监控记录系统。而如果你发现一个不具备数据库服务器登录资格的用户也进入了服务器,就意味着出问题了。
可能你会将在这个问题的基础上,进一步审查该用户,然后发现这个用户曾经试图在其它的系统上做类似的越权入侵行为,然后你才会发现自己面对的就是所谓的APT,但是这需要一个相当长的过程。
Gardner: 面对超大型的IT环境,获取精准的分析结果往往都是很困难的,而且好像这种情况越演愈烈了。为什么呢?
Kumar: 我们可以观察到一个趋势,即目前每个物理服务器上平均会加载10个虚拟机。而随着硬件设备性能的提升和虚拟化技术的发展,未来很可能一台物理服务器上会加载50个虚拟机,甚至更多。虚拟机密度的增加导致了IT管理的容量规划、容量管理、性能管理以及安全性方面都变得更加复杂了。
短期内,你就会发现IT管理上遇到的困难将成倍的出现。这主要是由于大量的需要管理的虚拟机,以及这些虚拟机导致的IT系统复杂性和其所产生的大量数据。
云计算
云计算是另一个趋势。所有的调查研究和客户反馈都显示出我们正在向一个混合模式迁移,即企业的一些工作需要在公共云环境进行,另一些工作则需要在私有云进行,还有一些继续在传统的数据中心中进行。因此,监控工作需要在分散的环境中进行,并且要跨越多种控制区域。
最后,在这种混合的模式下,从安全角度看,必然不会有一个明显的安全边界。因此安全性必须做到普遍存在。
考虑到这些现实,我们的监控角度必须将性能和安全性结合起来考虑,因为各种问题的出现都将是分散的。而且这种变化已经开始了,并且变化速度比以前我们所遇到的市场变化都要迅速。所以最起码,我们的监控和管理能力的提升速度要达到当前市场趋势变化的速度。
而我们要解决的一个基本问题就是分析数据。为什么这么说呢?正如我们之前讨论的,系统的规模会变得超级庞大,系统扩展的速度也是非常迅速。未来需要管理的系统是超过我们目前所能承受的限度的。于是就会出现数据量爆炸式增长的情况。
由于有太多的数据向我们涌来,我们所面临的挑战将不再是如何收集这些信息,而是如何用一种全盘统一的方式来分析这些信息,并从中发现对企业有价值的信息的问题。这样我们才能真正预防系统发生故障,或者在系统发生故障时采取实时或近乎实时的管理措施。
我们需要解决实时分析的问题,这将是未来监控和管理平台的重中之重。
IT的进步
Gardner: 也就是说,我们有了现代化的数据中心,同时也有了复杂性和虚拟化的问题,还有规模问题,数据爆炸问题,而我们需要找到一种方法对数据进行实时处理并通过不断的分析找出数据间的关联性。
在过去数年里,IT领域也在不断进步,解决了很多本应该出现在我们面前的问题。IT专家们在大数据和in-memory架构方面都有所研究,在面向对象架构和SEP方面也都取得了一定的成果,我们要做的就是将这些成果用一种有趣的方法整合起来。
Kumar: 无疑我们要以大数据(big-data)的角度来看待这个问题。 angle to this.
META 同时也是 Gartner的分析师Doug Laney,是这方面的专家,他将大数据划分了三个属性,即数据体积,数据传入或传出的速率,以及数据的多种类型和被索引和管理的来源。
举个IT管理方面的例子,一个独立的配置文件,可能影响到整个系统的安全水平,性能水平,可用性,甚至系统的容量等因素。数据上的一个小小改动就可能影响到如此大的范围。从我们的角度看,所有这些不同类型的条件都会影响到大数据问题。
两种方法
相应的方法很多。有些公司已经围绕大数据分析展开了一系列有趣的研究工作。
他们主要将重点放在收集数据,再将大量数据进行索引,使数据成为可搜索的内容,最后根据需要导出分析结果。这种方式可以让我们获得传统监视系统无法获得的更确凿的分析结果。
这种方法的问题在于将很多难题隐藏了。以前我们使用的是非常规范的表格,精确定义的关系型数据模型或数据结构,因此索引和搜索方法就显得很自由了。也就是说,纯粹的“索引再搜索”的方法实际上并不能满足数据爆炸时代的数据分析要求。
我们所需求的是一种两全其美的方法,我可以向你解释通过更先进的架构如何来实现这个目标。不过在一开始,我们还不能抛弃目前的数据模型或整个关系图。而且保持这种架构对未来也很重要。
我给你举个例子。当我说一台服务器处于某个网段,并且该服务器通过某种方式连接到交换机上时,这其实是传达了一个明确的连接方式的意思。而通过这个明确的连接方式,你可以将系统策略,规则,模板等一系列内容自动应用到该服务器上,并利用这种明确的连接方式进一步实现你所需要的功能。
如果你一直局限于索引-搜索的方法,就会在这个处理过程中丧失掉很多可能获得的信息。然后还需要操作人员手工将很多本来就存在的信息恢复出来。这个代价是很大的。
我们处理大数据分析的方法是采用一种混合模式。你需要以一个灵活的可扩展的模式作为基础系统,然后在这个基础上应用各种你捕获到的数据信息,将其分类索引并搜索。为了处理复杂的数据源,你必须采用这种混合方式。
Gardner: 为什么需要考虑支持大数据的系统?为了能够让大数据分析工作正常进行?
Kumar: 你应该采用完全的虚拟化架构,因为这种架构可以让你更方便的进行资源扩展,而且可以更方便的接入到分散的系统环境中,获取那些系统中的数据并进行分析整理。因此虚拟化架构是我们的方案必须的基本要求。
自动关联
对你来说更重要的功能是自动关联和分析数据,并且这种分析必须是分布式的。因为不论何时当出现大数据问题时,尤其是对于IT管理来说,你并不能确定问题数据的所在位置,也就无法对数据进行分析或制定应对措施。
这种方法类似于将MapReduce 类型 的算法应用于IT管理,你可以进行分布式的数据分析工作,而且这种分析具有高度颗粒性或特定性。在IT管理问题上,你能否分析并检测到问题所在意味着这种产品或解决方案对用户来说是否有用。
这种分布式的分析方式让你摆脱了规模和数据丰富性所带来的问题。如果我需要执行更复杂的事件以及分析更复杂的事件,增加计算能力将变得更加容易,只需要增加虚拟机的数量和范围即可。
另外对复杂事件处理(CEP)我还要多说两句。它并不只是捕获数据然后再分析这么简单,也不是从不同角度对数据和事件进行分析。我们在谈论CEP时,实际上是在讨论它是否已经先进到了能够像人类一样意识到问题并分析问题的程度了。
要让你的监控系统实现自动化的端到端监控并尽量减少人为干预的办法,就是让你的CEP系统在对待系统事件时,拥有像在NOC和SOC工作的人员看待系统事件一样的智慧。你要的不仅仅是监控一连串的事件,更要看到这些事件在未来引发的问题。
无硬性限制
要实现CEP系统的智能性,你应该拥有大量的数据用来分析,比如不硬性规定哪种类型的数据才可以用于分析,并且还要灵活方便的添加新的数据源或数据类型。因此对于新架构来说,重要的是不能只保存传统模式的事件数据或定义好的关系模型,还要涵盖其它多种类型的数据库。
Gardner: 你们能给客户带来什么呢?
Kumar: 毫无疑问,我们的客户不会跑来说“我们有了大数据问题”,“快来帮助我们解决大数据问题”,或者“我们需要解决复杂事件问题”。
他们的需求实际上是围绕着安全管理,性能管理和系统配置的。这是在虚拟云环境中的三个相关联的因素。你不能将其分割开来逐一对待。而客户需要的是在一个常规平台上对这三者进行管理,或者说他们是从业务层次或外部角度来看待这个问题的。
而AccelOps所作的是在这个表面以下,应用诸如大数据分析、复杂事件处理等技术,解决客户遇到的问题,满足客户的需求。这是客户真正购买的内容,即我用一种统一的可扩展的方式解决了客户的问题。
有一个关键因素会影响客户的生产率和使用率,就是用户界面。如果一个产品能够满足用户需求,但是界面很复杂,难以操作,那么这个产品实际上是没用的。因此我们设计了非常简单易用的用户界面,只需要点击一两下鼠标就能够获得所需的信息。用户会发现我们的产品非常有价值,因为他们不需要专业的知识和技巧也能使用我们的产品。
关键指标
我们实际上是搭建了一个平台,用户可以在这个平台上监控数据中心的性能、安全性和配置情况。这是虚拟云环境中三个内在关联的因素。我们的大部分客户都是希望使用这种整合的平台的。虽然有些客户一开始只想解决某一种问题,比如安全问题,但他们很快又会将性能管理需求加入到需求列表中。
我们提供的是一个全盘的跨越领域的监控视角,涵盖了服务器、存储、网络、虚拟化以及应用等诸多方面。我们通过一个公共的一致性的平台从宏观的角度来解决有关性能、安全性和配置方面的所有问题,这也是我们产品的核心价值。
下载免费试用版
我们的大部分用户都是先通过免费下载的试用版的方式来熟悉和体验产品的。这个过程很简单那,只要访问www.accelops.com/download 并安装到数据中心就可以了。
AccelOps产品的使用也很简单。只需要启动程序,然后输入需要监控的设备的访问信息即可。我们的产品基本上不需要过多的设置,用户只要输入相关证书,指定监控的范围就可以了。
接下来产品会根据用户录入的信息自动判断环境中的设备。并自动判断设备之间的关系,并将预设的规则和策略应用到这些设备上,产品还预设了一些监控阈值,用户如果没有特殊要求,可以直接使用这些监控阈值来判断系统是否运转正常。产品运行几个小时候,就积累了足够多的数据用来生成监控统计、系统运行趋势等分析结果,并能以图片或表格的形式展示给用户。
Gardner: 看上去随着市场向云和移动技术发展,会有越来越多的企业来采用这种自动化的解决方案。
Kumar: 我们满足了企业关于自动化和分布式分析的需求,以及从大量监控信息中分析出有价值信息的需求,企业可以通过我们的产品变得更有预见性,决策的正确性达到99.9%,并且整个过程都是自动化的。而你所需的就是一个具有丰富数据资源的可扩展的平台。
如今市场上恰恰是缺乏这样的产品。我们所开发的产品具有足够的智能,使用简单,不论是从系统安全角度、系统性能角度还是配置角度,这个统一的集成平台都能满足企业的需求。不论是企业客户还是云服务供应商,这对于他们来说都是很有吸引力的。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者