跨文档到HTML转换工具的跨域评估,用于在文档分析期间量化文本和

以下是资料介绍,如需要完整的请充值下载. 本资料已审核过,确保内容和网页里介绍一致.  
无需注册登录,支付后按照提示操作即可获取该资料.
资料介绍:

跨文档到HTML转换工具的跨域评估,用于在文档分析期间量化文本和结构损失(中文7000字,英文PDF)
摘要
在取证文本分析中,在处理大量文档时,过程的自动化是关键。由于文档通常具有各种不同的文件类型,因此需要开发定制工具来分析每个文档,并且正确地识别提取的元素以便进行分析而不会丢失。这些文本提取工具通常会省略文档中无法读取的文本部分,在法医文本分析过程中会出现严重的不一致。作为这种解决方案,单一输出格式HTML被选为统一的分析格式。对HTML / CSS提取工具的文档进行了测试,每个工具都有不同的技术将常见文档格式转换为丰富的HTML / CSS对应文件。这种方法可以通过利用单一文档格式减少法医文本分析期间所需的分析工具的数量。设计了两个测试,一个10点文档概述测试和一个48点详细文档分析测试,以评估和量化输出HTML结构的损失程度,错误率和整体质量。本研究的结论是,利用多种不同方法并对文档结构有所了解的工具可以在损失最少的情况下获得最佳结果。