扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源:IT专家网 2011年3月5日
1. 导言
所有公司的最有价值资产是公司内多个应用程序和系统中的大量商业数据。这些数据具有潜力为商业提供之前无法想象的洞察以及为有效的决策制定和可以使公司走向成功的准确预测形成一个可靠的基础。不幸的是,通常数据都是由多个计算机系统收集并静静的待在单独的数据存储中。一些公司可能从这些数据生成了一些历史报表,而一些可能还按照关键性能指示器(KPIs)度量了公司的性能;但令人惊讶的是,只有很少的公司认识到挖掘他们的历史数据以找出模式和趋势所能带来的受益,而几乎没有公司将预测分析嵌入到他们日常商业过程中以制定决策和预测,并改进整个公司的敏捷性。
在过去的几个版本中,Microsoft精简了Microsoft SQL Server中的报表和分析功能以创建一个全面的商业智能(BI)平台,它可以被集成到日常的商业活动中,并被公司内的所有雇员有效使用,而不是只被一些专业分析师使用。许多公司以前发现商业智能解决方案十分昂贵或执行太复杂,而现在他们利用全面的报表制作、渲染、以及提供SQL Server报表服务和SQL Server分析服务提供的强大联机分析处理(OLAP)服务的功能。在这些商业智能服务器产品和无处不在的Microsoft Office系统间的紧密集成将商业分析带给了大众,并使得延伸出一类新的信息工作者,他们可以获得更深一层的商业洞察力,并更加有效地进行操作。
而这个报表和多维分析的发展受益于许多各种规模的公司,提高商业敏捷性和操作有效性的下一个步骤是从对历史数据的回顾分析转到基于对商业数据的预测分析进行预先动作上,以及嵌入智能的、基于事实的决策制定到商业过程中。实现这个目标的关键是使用强大的数据挖掘算法来分析数据集,将新数据和历史数据以及动作相比较,辨别商业实体和属性间的分类和关系,并为所有的系统和制定商业决策的用户提供准确的预测洞察。就像OLAP技术一样,数据挖掘曾经被认为是一个非常专业的领域,需要昂贵的软件和非常专业的技术来实现。但是,通过在SQL Server分析服务中包含了全面的数据挖掘技术,以及通过与2007 Microsoft Office系统的集成,Microsoft提供了一个性价比很高的解决方案,它利用SQL Server分析服务企业级功能,将数据挖掘的能力扩展给每一个人并提供了成功关键因素的洞察力。
2. 用于所有用户的预测分析
当一个预测分析解决方案渗入到整个公司中并用它的扩展和企业级性能帮助进行日常的商业决策时,它是最高效的。而且,提供一个方式来执行全面的预测分析直接为用户提供了可以自服务的数据挖掘,这反过来使商业可以快速地获得具有行动力的洞察。在SQL Server 2008中的数据挖掘技术通过与2007 Office系统、一个全面的开发环境、企业级功能、以及一组设计用来满足常见商业问题的可扩展的、丰富的、创新的数据挖掘算法的紧密集成可以满足这些需求。
2.1 通过Microsoft Office 渗入整个公司
过去,预测分析只限于为一少部分受过训练的统计方面专家的雇员所使用。用于Office 2007的Microsoft SQL Server 2008数据挖掘插件,如图1所示,它使信息工作者可以在一个熟悉的电子数据表环境中利用经验丰富的数据挖掘技术,从而将洞察力和预测扩展到更广的用户群。这些工具通过提供了提示和可执行的建议,从而使得用户可以在几个简单步骤里通知每日的决策。用于Microsoft Office Excel? 2007的表分析工具将数据挖掘的复杂性隐藏在了直接的任务背后,提供了一个无缝的体验,使得用户可以轻松地在探索和发现之间转换。用于Office Excel 2007的数据挖掘客户端提供了一个全面的数据挖掘开发生命周期,它使得高级用户可以具有更多的信息、验证和控制。此外,用于Office Excel 2007的数据挖掘模板使得用户可以渲染数据挖掘模型可注解的图形化显示。总而言之,SQL Server 2008数据挖掘和2007 Office系统的集成提供了一个广泛的、直接的和协作的商业生态系统,它扩展了分析服务的洞察,在整个公司内通知商业决策。
图1:用于Microsoft Office Excel 2007的数据挖掘插件
用于2007 Office 系统的数据挖掘插件提供了以下好处:
· 全面:提供了广泛的工具来满足多种需求
用于Office 2007系统的数据挖掘插件旨在提供一组丰富和可靠的数据挖掘工具。这些工具在桌面电脑上的实用性使得所有用户都可以探究数据并发现隐藏的趋势、以及产品、客户、市场、雇员和其它因素间的关系;使得他们可以满足需求、了解行为和发现隐藏的可以改进商业过程和直接影响收益的机遇。
· 直接:给所有用户提供具有行动力的洞察力
在熟悉的Microsoft Office 环境中访问预测分析帮助用户轻松地将预测合并到日常处理中。在用于Office Excel 2007的表分析工具中提供的自动化任务在下面三个简单步骤中快速地提供了清晰和具有行动力的洞察:
1. 定义你的数据。鉴别对于通知解决方案来说是必要的数据,并在一个定义了要分析的数据的Office Excel 2007电子数据表里创建一个表。
2. 辨别任务。选择合适的数据挖掘任务执行于从数据挖掘或表分析中得到的数据。
3. 获得结果。检查直接从Office Excel 2007环境中清晰和直接的显示所得到的任务输出。
用于Office Excel 2007的数据挖掘插件所提供的自动化任务包括:
o Analyze Key Influencers – 找出影响一个确定结果的关键因素。生成一个根据重要性来罗列关键因素的详细报表,使得用户可以根据每组不同的值比较关键因素。
o Detect Categories – 帮助用户基于通用属性鉴别和分割数据。会生成一个详细的报表,其描述发现的分类,使得将分类重新以有意义的名称贴标签用于进一步的分析。
o Fill From Example – 帮助用户自动根据表的格式将一个只有部分数据的字段填写完全。会生成一个解释所发现格式的报表,使得用户可以重新分析数据并根据获得的更多知识精练格式。
o Forecast – 使得用户可以基于数据集中的值预测未来的值。预测值被添加到初始表和图表中显示过去的情况,并会生成连续的预测发展。
o Highlight Exceptions – 使用户可以发现包含超出预计范围值的数据集。包含异常的记录行会被强调,而会引起异常的字段会被着重突出。
o 场景分析:What If – 使得用户可以获得对一个数据集中一个值的潜在改变对其它值所带来影响的洞察。
o 场景分析:Goal Seeking – 使得用户可以更好地了解需要改变的根本因素,以在一个特定目标字段中实现一个预期值(对What-If工具的补充)。
o Prediction Calculator – 与Analyze Key Influencers任务有关,Prediction Calculator 生成一个交互表格用于存储新的案例。每个属性的影响会被翻译为一组分数。应用于一个新情况的属性结合总结,会预测未来可能的行为。
o Shopping Basket Analysis – 使得用户可以发现经常一起购买的项目间的关系。一个解释了这些关系的报表可以使得更好地了解对财政意义,提供了对打包提供或改良产品布置的洞察。
很容易理解,这些工具的图表输出使得用户很容易在探索中获得发现,并使得用户具有丰富的预测和能够清晰地转变为建议和行动的洞察。
· 协作:在整个公司中共享洞察
在Office Excel 2007中可以执行预测分析,使得用户可以使用2007 Office 系统强大的发布工具在整个公司中共享发现和通知商业决策。举例来说,用户可以通过Office Visio 2007图表中的交互图形化显示来共享分析,或者他们可以通过Microsoft Office SharePoint? Server 2007来共享数据表、报表和图表。
2.2 全面的开发环境
2007 Office 对于信息工作者来说是一个理想的桌面工具,但是对于要在整个企业中部署解决方案的商业智能开发人员来说,SQL Server 商业智能开发套件是最佳的选择,因为它具有一个基于项目的环境,并与调试和源控制完全集成,你可以用它来创建端对端的商业智能解决方案。
当然,要在公司内渗入数据挖掘功能,只有当开发人员可以建立快速并轻松地满足商业需求的数据挖掘解决方案时。SQL Server商业智能开发套件提供了一个全面的开发环境,它是基于Microsoft Visual Studio?开发系统的。有了商业智能开发套件,开发人员就可以创建数据挖掘结构,它辨别表和字段是否包含在分析中了,并添加多个将数据挖掘算法应用到这些表中的数据上的数据挖掘模型。在商业智能开发套件中的分析服务项目模板,如图2所示,包含了一个直接的用于创建和查看数据挖掘模型的数据挖掘设计器,并提供了交叉验证、提升图、以及利润图来可视化地比较和对照模型的质量,并在部署之前统计错误数和准确性。
图2:在商业智能开发套件中的数据挖掘设计器
SQL Server 2008在SQL Server 2005已经很全面的开发环境基础上,推出了一些改进之处,包括:
· 更有效地将数据分割为训练和测试分区。分区在创建数据挖掘模型的过程中可用。开发人员可以将一部分训练数据集标识为可随意选择用于测试。
· 对过滤的数据建立模型。数据过滤使得可以创建在挖掘结构中使用数据子集的挖掘模型。过滤提供了设计挖掘结构和数据源的灵活性,因为开发人员可以创建一个单独的挖掘结构,基于一个全面的数据源视图,然后应用过滤器只使用一部分数据用于训练和测试大量的模型,而不是为每一个子集建立一个不同的结构和相关的模型。例如,一个开发人员可以对Customers表和相关表定义数据源视图,建立一个单独的挖掘结构,它包含所有必需的字段,然后创建一个过滤了某个特定客户属性(例如Region)的模型。这个开发人员然后就可以轻松地拷贝这个模型,并更改过滤条件以生成一个基于不同region的新模型。通过对数据模型应用过滤器,你可以:
o 为离散值创建各自的模型。例如,一个衣服存储可以使用客户统计来根据性别建立各自的模型,即使销售数据是从用于所有客户的单一数据源获得的。
o 用模型做试验——创建、然后测试相同数据的多个分组,例如年龄20-30与年龄20-40与年龄20-25相比较。
o 对嵌套的数据表内容指定复杂的过滤器,例如要求只有当客户购买了两个或两个以上的某特定项目后才在模型中包括进这个情况。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者