| 【论文摘要】 |
随着业务的不断拓展,大量的生产管理、技术质量、财务成本等各个领域的数据不断产生。如何充分利用这些数据和系统,提高数据的质量,为决策支持系统提供正确的数据,实现从数据到信息、信息到知识的提炼,从而为企业的生产经营作出正确决策提供服务,是摆在我们信息技术人员面前的一大课题。
数据清洗,也称做数据净化,从数据中检测和去除错误及不一致的数据部分以改善数据质量。
本文针对CATT项目数据的数据质量问题以及用户的特殊需求,建立了数据清洗过程的元数据模型,对清洗过程用到的数据库对象和知识库对象进行管理,并创新性的在公司数据仓库项目中引入人工智能方法参与数据清洗。
在本项目的元数据模型中,把知识元数据分为逻辑和信息两大类。逻辑是一种规则,是加工信息的具体方法,由设计人员进行具体设计和实现。信息是对现实世界中具体事物的抽象反映,可以由程序自动更新。对数据的清洗操作,利用规则对清洗后的数据进行的验证等等都属于逻辑。而各种数据,包括脏数据,清洗后的数据,验证后的结果,清洗过程中要用到的数据字典等等都数据信息范围。
本文中的人工智能模块使用了贝叶斯文本识别方法,通过朴素贝叶斯分类器识别客户的... |