数据挖掘技术在投标报价评审中的应用
时间:2022-03-22 11:20:49 浏览次数:次
摘要:
以广州某建设工程交易中心部分项目投标文件中工程量清单的报价数据为案例,主要运用聚类分析方法,对处理后的数据运用数据挖掘技术分析其相似度和差异度,一方面尝试根据投标报价的相似度进行串通投标判别,另一方面尝试根据投标报价的差异度进行风险预警,希望能为提高经济标评审的科学性带来一些帮助。
关键词:
数据挖掘;聚类分析;投标报价;串通投标;不平衡报价
中图分类号:TP31113
文献标识码:A
文章编号:1000-5099(2017)06-0060-05
国际DOI编码:10.15958/j.cnki.gdxbshb.2017.06.12
近几十年来,伴随着信息技术及数据库技术的迅猛发展,数据挖掘技术广泛应用于通讯数据管理、金融服务及网络监测等项目中,旨在对数据中隐含的规律进行挖掘,从而解决一些实操问题,优化工作效率。然而,纵观数据挖掘技术应用的范围发现,其主要集中在计算机领域或互联网金融领域,而应用在工程报价分析方面所见的文献不多,目前搜集到的文献主要应用一些统计分析知识对选取的一些工程样本指标进行分析:有些机构应用投标文件编制系统硬件和软件特征码及投标文件内部数据规律性等识别技术,有些则通过选取的数据样本,运用运筹学及函数关系建立相应的模型设想,如一些经济学家针对当前经济标评审中出现的串标行为,提出过“不同样本选择策略,对所有数据求期望值偏差的自动评标模型”[1]等论断。本研究主要基于广州某建设工程交易中心部分项目投标文件中工程量清单数据的分析。在分析过程中,首先把往年收到的投标报价数据按照项目的工程类别进行分类,并存入数据库中,然后对相关数据进行深度挖掘和分析,找出彼此有一定关联性的数据,再将关联关系中共同点较多的部分归成一个类,并建立类库,标记其主要关联关系。通过对这些关联数据分析后所得出的结果,希望能帮助评标专家对工程报价中的串通投标及不均衡报价行为进行科学分析和初步判断,并为今后实际评标中帮助专家快速识别这些现象提供切实可行的参考依据,最终达到快速准确、公正高效评标的目的。
一、数据挖掘的特征及主要流程
数据挖掘的最大优势就是让决策者、领导者对历史和当前数据进行分析比对、计算建模,从而探寻背后隐藏的内在联系,达到科学预测和决策未来的目的,因此,经常被称为是数据库中的知识发现(Knowledge ̄Discovery in Databases)或data mining technology,主要是通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等方法对目标数据进行内容规律的探索和模式的归纳总结,在剖析内在原因的基础上为未来的可行性决策提供科学和严密的指导。所以,数据挖掘作为一种知识发现技术或数据挖掘技术,呈现出以下特征:(1)数据挖掘所处理的数据规模十分巨大,一般为GB级,甚至TB级;(2)数据挖掘产生的规则是动态的,既要发现潜在规则,还要管理和维护规则;(3)传统的数据库查询一般生成严格的结果集,但数据挖掘可能并不生成严格的结果集,可能会产生大量规则。[2]
一般而言,数据挖掘流程主要包括数据准备、数据挖掘、结果解释和评价3个阶段,如图1所示:
结合图1可以发现,在数据准备阶段,原始数据的获得和目标数据的提取是数据挖据的基础,而数据预处理则是数据准备阶段的关键步骤(如缺失数据的推测、数据的降维、缩减及类型的缩减),直接关乎数据的准确度及有效性;在数据挖掘阶段,主要是依據挖掘任务在前期数据预处理的基础上,对目标数据实施具体的挖掘操作,挖掘算法的选定无疑是这个环节的重点;在前期数据准备和挖掘的基础上,结果解释和评价阶段主要是模型的建立,以及结合用户的实际情况进行合理的解释,并不断修正和深化模型,从而得出理想数据。本文旨在通过对某一工程项目,发生在对同一招标项目而产生的不同投标报价的数据进行数据挖掘,结合运筹学、统计学知识,对投标报价数据进行分析得到可进行挖掘的数据,然后利用数据挖掘发掘具有串通投标行为及不平衡报价的规律性,为以后的评标工作提供参考。
二、投标报价数据的聚类方法分析
传统的聚类算法只是衡量样本的相似程度,显然在投标报价分析中这种做法不合适,因为同一招标项目不同投标人的分部分项工程量的“综合单价”数据中虽然有很多数据项相似,但由于有不平衡报价现象存在,最终会导致其欧氏距离很远,反而不能聚在一个类当中,从而影响识别结果。目前,虽然数据挖掘知识在某些领域成功应用,但现有的数据挖掘方法不能直接应用在投标报价分析中,必须对现有的算法进行改进。对选取的投标报价数据如何进行衡量,以下将对这个问题进行分析。
1.对投标报价数据的观察
以某招标项目为例,表1是招标项目的投标报价数据经过数据清理、转换和整理后的结果。该项目的分项项目总数有100多项,表1只列出核心的前8个物料和10个投标单位的报价情况,其他用省略号表示。
仔细观察表1中的数据发现,没有两个投标单位在同一分部分项工程的报价完全相同,而且因为招标投标制度已实行近20年,串通投标行为不断演变,手段也越来越隐蔽,早期串通投标行为中表现出的投标报价中过多的雷同性或非正常错误一致等“疏忽”或“拙劣”表现一般不会轻易出现,评标专家在评标过程中想直观地识别出非正常的报价行为比较困难。当前招标工程项目的分部分项工程量清单的项目很多,大型工程可能多达上万条,许多分部分项的报价相当接近,无法直观看出投标单位之间的关联性。
2.投标报价相似度的度量方法
基于表2数据看出,许多投标单位的编码数据有的比较接近,有的差别很大,无法直接运用数据挖掘中的聚类算法(例如K ̄means法)进行相似性判断,只能对算法进行一定的改进。因而,需要先计算每个样本的均值和方差,然后提出一个衡量相似性的方法,表2即是计算各个单位报价的均值与方差得到的结果。
自由设定相似水平参数k(k∈[0,1]),若任意两份投标报价数据各分项报价的差距Δk(Δ指两个投标单位在同一分部分项报价的差值的绝对值除以该分部分项的方差,例如,投标单位2和3在编码1的Δ=|19.69-19.27|/22.52),则认为该分项报价在该相似水平下被判定为相似(当k=0时,说明报价完全相同;当K>0时,说明报价的差距小于一定的程度),否则认为不相似。
令k=0,0.001,0.01,0.05,分别统计各份投标报价两两间存在相似分项报价的个数,详见表3。
在已设定的不同相似水平下,以投标单位相似的分项报价个数来衡量报价间的相似程度。对于串通投标的投标报价,其相似报价个数通常会高于非串通投标报价的相似分项报价个数,且在不同相似水平下呈现规律性变化,即在不同的水平下,串通投标报价的相似分项报价个数均明显高于非围标间的。另外,《广州市建设工程招投投标管理办法》第6章《评标和中标》第34条“有下列情形之一的,经评标委员会集体表决后认定,作串通投标处理,并提请招标投标监管部门依法做出处罚:(一)不同投标人的投标文件内容存在非正常一致的;(二)不同投标人的投标文件2处以上错漏一致的;(三)不同投标人的投标报价或者报价组成异常接近或者呈规律性变化的”[4] 也为我们通过相似度判定串标行为提供了法律依据。我们可以将相似水平(K值)为0时的情况找出报价完全一致的项目,然后对应第1、2点去判定其是否属于串标;也可以找出不同相似水平下相似度最高的几家单位,重点核查其是否有其他串标行为的迹象。
由表3可知,单位01与08、01与09、02与08、08与09均存在3个项目报价完全一致,我们可以重点对照这些项目核查它们存在一致的合理性和概率,判定其是否存在串标。同时我们也可以看出,在相似水平(K值)设为0.001、0.01、0.05等不同水平下,上述4个单位比较结果的相似数目都比较大。例如,在相似水平(K值)取到0.05时,1和9的相似项目达到128项,占该项目总数132项的95%以上,串标的嫌疑是非常大的,值得评委在评标时重点关注。
三、投标报价数据相似度与差异度分析
“聚类模型主要用于辨别相似记录并将这些记录按它们所属的不同组别进行分类。在聚类分析时,事先并不清楚这些组别和它们的属性,甚至不知道到底应该生成多少组。这正是聚类模型与Clementine系统中其他机器学习技巧的区别——即无法预先设置的输出结果或目标字段。聚类方法是基于记录间和组间的测量距离,而记录应被分派到某类中是基于使同一个类别的记录间的距离尽可能最小的原则。”[5]
1.投标报价数据相似度的挖掘分析
把一个招标项目中的投标报价数据两两进行相似度的对比,并把相似个数进行统计,利用Clementine软件进行数据流的建立,按照既定的流程进行挖掘,由此得到表5。[5]
从聚类结果和相似度数据挖掘分析显示的结果来看,有3家投标单位(编号为01、08、09)在投标报价过程中有串标的倾向和嫌疑,根据《中华人民共和国招标投标法实施条例》,需要提交给决标评委对其投标报价进行重点分析和审查。
2.投标报价数据差异度的挖掘分析
同样利用Clementine及相关软件建立相应的数据流,通过对投标报价数据的深度挖掘,挑选出差异度大的数据项。也就是说,通过计算机对数据进行定量、对比分析,在数据挖掘工具中设定一定的差异度范围,找出报价与该分部分项其他投标单位报价差异较大的报价。在实际工程招标投标中,报价差异较大的原因很多,在日后工程结算时风险较大,值得评委在评标时运用专业知识进行审查或及时要求投标单位进行进一步澄清报价理由。这是经济标评审工作的重大核心价值所在,也是我们评标工作中的最重要、最需要完善的一项工作。特别是当前我们工程招标中普遍实行工程量清单计价,施工项目合同多数为单价合同而非总价包干合同,需对分部分项报价进行深入细致分析才能切实寻找出投标文件的风险所在,由评委在评标时提出适当的应对方法,真正保障招标人的利益,真正体现出招标制度的优势。[5]
四、研究结论及成效
综上,本研究利用定量分析和定性分析相结合的方法,以某一公开招标项目不同投标文件的工程量清单的报价数据为案例,通过Excel数据表对提取的数据进行预处理,然后运用聚类分析方法,对处理后的数据运用数据挖掘技术分析其相似度和差异度,一方面尝试根据投标单位在投标报价的相似度基础上对串通投标行为进行判别,另一方面可依據投标报价的差异度,亦可对即将实施串标的行为给予风险预警,使得评标委员会在冗余繁忙的评标工作中节省时间、精力和财力,同时提高评标工作的科学性和公正性。其成效主要体现在以下两方面:第一,全面介绍了报价分析应用和数据挖掘的研究现状,以及数据挖掘技术在报价分析方面的应用及难点,同时对数据挖掘技术的特征和流程进行一定的归纳总结,为数据挖掘的实施奠定了一定的理论基础;第二,详细介绍了对数据挖掘的分析处理和对目标数据的清理与转换,重点是对数据的聚类分析及相似度和差异度进行了深入细致的分析,从而得出客观科学的依据来指导并应用于实际工作。
五、研究不足与展望
本文利用数据挖掘技术在投标报价评审的应用实践中取得了一些有用的结论,但由于时间精力有限,研究还存在一些不足之处。因此,还有一些问题值得进一步探讨,后续研究可从以下几个方面展开:
第一,数据挖掘算法的选择。在挖掘过程中,由于时间精力有限,所以本文只选择了聚类分析方法,在日后研究中,可以考虑能否设计一个新的、更优的专门算法。相似水平(K值)怎样选择更加合理,是主观设定的,其科学性不是很充分,其规律性有待进一步研究。
第二,挖掘数据集的细分。由于数据收集和时间有限,本课题主要对“工程量清单数据”“分部分项”中的“综合单价”进行数据挖掘,在后续研究中,可以考虑对挖掘的数据集进行进一步的细分,使挖掘的结果更有针对性。
第三,报价分析应用系统的开发。目前的研究仅停留在利用一种数据挖掘算法针对部分数据进行了研究,后续研究可以把其他部分的数据也加进来建立模型,对数据的研究不但要纵向进行,还要对研究结果进行横向分析。另外,将历年投标报价数据进行挖掘分析还可以得出某类建设工程在某段时间内的市场价格,找出市场价格和中标价格偏离程度很大的原因。将建立起来的模型合并,可以最终建立报价分析系统,应用于日后的评标工作中。
参考文献:
[1]
推进电子招标进程 打造阳光交易平台:深圳市建设工程招标投标率先进入电子时代纪实[J]. 建筑市场与招标投标,2010(3):44-48.
[2]吴萌.基于数据挖掘的决策支持系统 [EB/OL].(2012-11-10)[2017-08-27]. https://wenku.baidu.com/view/d9f41a16f18583d0496459ce.html.
[3]曹婷.数据挖掘在员工网络招聘中的应用研究[D].广州:暨南大学,2009.
[4]广州市建设工程招标投标管理办法[S/OL]. (2010-01-13)[2017-08-25].http:///law/city/guangzhou/2006law110200301241.html.
[5]刘智焕.经济标评审中的投标报价数据聚类分析[J].广东交通职业技术学院学报, 2017,16(3):75-78
(责任编辑:钟昭会)