服务热线:15895595058
产品展示 Categories
联系我们 contact us
联系人:
陆先生
手机:
15895595058
电话:
0512-58628685
地址:
张家港市南丰镇
行业新闻
当前位置:主页 > 新闻动态 > 行业新闻 >
抽取系统设计与实现-电动折弯机数控滚圆机滚弧
添加时间:2019-06-21
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。趣的数据定位信息,同时使用XML文档表示抽取规则。(3)将归纳学习所得的规则生成抽取规则库。用户进行实际信息抽取时,便能应用该抽取规则。综上所述,可知其实现过程就是:从一个指定抽取或训练的Web页面开始,清洗该页面数据得到DOM树结构,然后就是生成抽取规则,即通过XPath定位抽取信息的路径,这也是该技术过程的核心所在。最终的抽取结果信息点则可通过XPath执行引擎而相应获得。图1基于XPath的抽取方法F.抽取系统设计与实现-电动折弯机数控滚圆机滚弧机张家港钢管滚圆机滚弧机倒角机2基于XPath的信息抽取模型整体框架基于XPath信息抽取系统的整体框架如图2所示。图2信息抽取过程图2可知,基于信息抽取流程,整个系统可划分为三大部分,本文由公司网站张家港大棚滚圆采集转载中国知网整理!!http://www.dapenggunyuanji.com具体描述如下:(1)网页解析。该模块就是将HTML网页转换成规范的XHTML网页,再解析XHTML网页生成DOM树。为了提高用户使用频度,目前浏览器均已具备较高的容错能力,即能自动过滤甚至是忽略HTML文档中的错误。但XPath对于HTML文档的适用性却有很高要求,因而将无法直接应用于该类文档,为此网页解析的重要性则不言而喻。(2)生成规则。这个模块主要是通过人机交互,系统获取用户感兴趣的信息点,并对信息点与抽取结果之间的映射关系进行定义。在系统内部完成的处理任务是,使用XPath表达式表示获取的对应信息点,并与抽取结果的字段相匹配,也就是完成规则定义的映射,其后即用XML格式文档表示抽取规则,若规则发生错误则可进行人工修改。(3)规则执行。在这一模块中完成了信息抽龋首先,从规则库中读取已定义的抽取规则,然后抽取得到用户所需的信息点,最后再将结果存入数据库中。2.3抽取规则描述抽取规则主要描述了语义模式和页面中所对应的信息块间的映射关系。以XPath表示的抽取规?抽取系统设计与实现-电动折弯机数控滚圆机滚弧机张家港钢管滚圆机滚弧机倒角机本文由公司网站张家港大棚滚圆采集转载中国知网整理!!http://www.dapenggunyuanji.com