火车火车头采集器教程的计划任务是指可以自由安排任务开始运行的时间吗?

内容字号:
段落设置:
字体设置:
火车采集器的相关术语介绍
&  火车采集器的相关术语介绍
& & & & & 1.采集任务
  采集任务是火车采集器中对于数据采集和数据发布任务的完整配置,包含采集规则和发布模块。
  2.采集规则
  即我们对如何采集和采集什么的问题给出一些设置让采集器按照设置的规则来执行,
  这个设置可以从火车采集器里面导出保存为.ljobx文件,也可以再次导入火车采集器。
  3.发布模块
  在火车采集器中,发布模块是对&将已经采集到的数据发布到哪里&进行的设置。
  包括WEB在线发布模块和数据库发布模块,其设置分别可以导出保存为.wpm文件和.dbm文件,
  并可以再次导入火车采集器,多次使用。
  4.发布接口
  发布接口是一个小型的页面程序,通常和WEB在线发布模块配合使用来满足用户的特定需求。
  即采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照用户特定需求灵活地处理数据。
  5.标签
  是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定,
  比如标题、号、邮件、作者,内容标签采集到的信息在发布模块中就可以通过该标签名对应获取到,
  格式为[标签:标签名]如[标签:标题]。
  标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,
  顾名思义列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,
  内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。
  注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:
  在使用火车采集器时经常会遇到这个符号,它是变量的通用符号,
  如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个符号代替。
  7.[参数]
  用来匹配某项准备提取信息的标记标签,如想要在代码中提取组合出某种格式。
  以从代码&mClk(this,'108484','134217', '168475','1');&中提取组合出新的地址格式为例。
  &mClk(this,'[参数]','[参数]', '[参数]','1'); &,按照次序,108484参数就是参数1,依次类推。
  实际需要的地址为以下的地址格式:bbs/read.?id=[参数1]& sort=[参数3]&action=[参数2],
  上面代码中的3个参数和下面地址中的id,soft和action参数要对应相应的值,
  次序不要颠倒。这样就组合成了新的地址格式。
  8.起始网址
  用来获取下级链接地址的入口网址,可以为一条或多条,
  可以通过添加起始网址向导添加同格式多条网址或导入文本网址。
  如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。
  9.多级网址
  依次根据列表里面的多级网址顺序采集分析地址,通过依次采集分析到最后一级得到内容页地址。
  多级网址的获取可以使用页面自动分析和手动获取的方法采集下级网址,
  在采集的过程中,可以同时采集列表分页及提取列表页附加参数。
  10.Cookie
  是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。
  在中使用时通常还会以文本形式记录到您的IE缓存目录中,
  以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。
  11.User-Agent
  浏览器标识,是用来向服务器通知您使用的客户端类型,
  在某些需要登录的网页可能需要同时验证Cookie和User-Agent,
  所以需要您将其设置为与本机浏览器同样的格式。
  12.分页
  列表或内容页面较长,分成多个页面显示,采集时需要将所有子页的内容组合起来,
  这样的子页面就是分页(列表分页或内容分页)。
  13.多页
  有些情况下,需要采集一个页面对应的网址,图片等内容时,
  需要另外打开一个新的页面才能采集到这些信息,这些另外打开的页面则称为多页。
  14.网页编码
  是在网页中指定其特定字符编码格式的库,例如一般在网页中都要有如下一句:
  这样的字句指示此网页的字符集编码是GB2312。
  火车采集器对一般的网页可以做到自动识别,
  也罗列出了大部分的网页编码格式,可以直接在采集器中手动选择指定相应的编码格式。
  15.代理
  是指网络中的代理服务器,可以代理网络用户去取得所需要的网络信息。
  代理的功能有可以突破自身ip的访问限制访问国外站点,
  访问一些单位或团体内部资源,突破电信的ip封锁和隐藏真实的ip等。
  16.插件
  在火车采集器,插件是指可以对采集到的数据进行特定处理的一个外部程序,
  编写好插件后,采集器可以把数据传递给插件,然后对数据进行处理,再把数据传给采集器。
  (可自行开发,也可联系客服定制。)
  17.Cron表达式
  在火车采集器计划任务管理器的设置中,可以设置完整的cron表达式来表示对任务的计划执行。
  它是一个由6或7个子表达式组成的字符串。每一个表达式代表一个域,
  每个域描述了一个单独的日程细节且每个域之间使用空格分隔,它由两种格式组成。
  Seconds Minutes Hours DayofMonth Month DayofWeek Year
  Seconds Minutes Hours DayofMonth Month DayofWeek
  一个Cron表达式至少有6或7个有空格分隔的时间元素,每个时间元素都使用数字,但还可以出现如下特殊字符,他们的含义分别表示:
  1.Seconds 秒 (允许值为0-59,允许的特殊符号,- * /)
  2.Minutes 分钟 (允许值为0-59,允许的特殊符号,- * /)
  3.Hours 小时 (允许值为0-23,允许的特殊符号,- * /)
  4.Day-of-Month 月中的天 (允许值为1-31,允许的特殊符号,- * / ? L W C)
  5.Month 月 (允许值为1-12或者JAN-DEC,允许的特殊符号,- * /)
  6.Day-of-Week 周中的天 (允许值为1-7或者SUN-SAT,允许的特殊符号,- * / ? L C #)
  7.Year (optional field) 年(可选的域,允许值为留空或者,允许的特殊符号,- * /)
  特殊字符含义:
  (1) * 表示该域的任意值。如在Minutes域使用,即表示每分钟都会触发事件。
只能用在DayofMonth和DayofWeek两个域。实际上不会匹配域的任意值,因为DayofMonth和DayofWeek会相互影响。如想在
每月的20日触发调度,不管20日是周几,则只能使用如下写法:13 13 15 20 *
?,其中最后一位只能用?,而不能用,如果使用*表示每月的20号15时13分13秒不管是周几都会触发,实际上不是的。
  (3) & 表示范围,如在Minutes域中使用5-20,表示5到20分钟每分钟触发一次
表示起始时间开始触发,然后每隔固定时间触发一次。如在Minutes域中使用5/20,表示从分钟数5开始每隔20分钟触发一次,结果25,45,05等分别触发一次。
  (5) , 表示列出枚举值。如在Minutes域中使用5,20,则表示5分钟和20分钟每分钟触发一次。
  (6) L 表示最后,只能出现在DayofMonth和DayofWeek域。
表示有效工作日(周一到周五),只能出现在DayofMonth域中,系统将在离指定日期最近的有效工作日触发事件。另外,W的最近寻找不会跨过月份。
  (8) # 用于确定每个月第几个星期几,只能出现在DayofMonth域中。如4#2表示某月的第二个星期四。
  完整的corn表达式如0 15 08 ? * MON-FRI 表示每周一到周五的早上8点15分开始定时更新数据。
  18.任务网址库
  采集器在文件夹DataLocoySpiderPageUrl下,
  该站点下的每一个任务都会生成一个独立或公用的网址库用来对比网址重复之用。
  19.HTTP请求
  浏览器打开网页时实际就是发送一个又一个Http请求,
  火车采集器也一样,从指定的地址获取内容的过程就是发送Http请求,然后对根据请求得到的内容进行处理。
  当浏览器向web服务器发送请求时,它向服务器传递了一个数据块,也就是请求信息。
  Http请求信息由3部分组成:请求方法URI协议/版本,请求头(Request Header)和请求正文。
  如下图:
声明:本文内容由网整理,感谢笔者的分享!刊登/转载此文目的在于更广泛的传播及分享,但并不意味着赞同其观点或论证其描述。如有版权或其它纠纷问题请准备好相关证明材料与站长联系,谢谢!
本类最热排行
48小时最热
01020304050607089101112
Copyright & 2002- 电脑高手网 版权所有火车采集器v9破解版|火车采集器企业版 v9 绿色正式版 - 河东下载站  在工作过程中,我们常常面临多个项目或者多项任务的情况,若不把任务梳理清楚,或者不把时间进行科学合理的评估,很容易造成时间不够用、测试不充分、进而领导不认可、自己辛辛苦苦不但得不到回报反而被黑锅压身的窘境。
  该怎么办呢?
  说一下我自己的看法,抛砖引玉,希望各位看官多多交流。
每个测试员的工作都有大量的任务构成,所以就需要制定测试任务清单,此为第一步。
有些任务只需进行一般描述,有些任务可以分解的相当细。根据自己所能,对需要一天以上时间完成的任务单独列出一项。
估计每个任务会占用的时间,然后累加起来,再加上25%(根据公司具体情况,可多可少)的会议、培训和其他非项目工作,并以此估计所需的总时间。
  上面说的几点人人皆知,但实际上说起来容易做起来难。比如说,列出任务清单就是一件简单的事,因为很容易遗漏或者低估测试范围(这就引申出一个问题,任务所需的时间应该由谁出?)。
  说说我的思路:
类比法:如果做过类似的项目,可以类比以前的经验估计此次任务的时间;
利用模型估算:如果了解项目的长度或者复杂度,并且了解以当前公司将程度长度和复杂度与测试时间关联起来的数据为基础的模型,则可以使用这种模型进行估算。
考虑风险:考虑这个项目的风险,然后列出针对风险应该做些什么(时间和任务)
其他因素:如对这个任务的了解程度,比如这个任务的开发人员的技术水平和严谨程度,比如程序员对这个应用程序的擅长程度。 还比如这个程序员这段时间状态不好,犯错较多,也需要更多测试。如果编写了测试文档,也可以使测试工作进行的更快。
note:使用类似的方法,测试经理可以估算出项目进展中任何时刻的测试员人数,越到项目后期(掌握的信息越多),估计也就更准确。
  在我们公司,测试一般进行两轮,也就是说计划的时候要为两轮测试进行估算,这样做合适吗?
  在我来公司以前,要求项目做两到三轮测试。他们认为,第一轮会暴漏所有问题,第二轮和第三轮检查所有错误修改。换句话说,这就好比一厢情愿的认为应用程序不会有需求变更,所有缺陷会一次性改好,并且其他关联功能也会运行的很好! &&实际上,我们都知道产品不得不进行的次数比两轮多得多。
随着产品了解的逐步深入,我们会考虑到新的更好的测试,也会找出新问题。 如果只做两轮安排,前面说的这种情况就会被抑制。
即使在第一轮发现了所有问题,那么在修改缺陷后不引入新问题的几率微乎其微。
况且,很多时候测试用例在第一轮并不能执行,很多缺陷会阻断测试的执行。
其实我更想表达的是,计划变更并不可怕也无法阻止,可怕的是很多公司和团队会把变更看做一种失败和拖延。
  还有一个情况就是,应该由谁来定测试任务所需的时间,关于这一点我也说说自己的看法。
  作为测试经理,我经常会用自己完成某项任务的时间来要求组员,不过我不得不承认,好几次我都低估了安排给其他人的任务。我的做法是如果我的评估和测试员自己的评估存在冲突时,特别是他们的评估时间长得多时,先听听他们对测试任务和测试范围的看法,弄清楚什么原因导致他们给出的时间看起来那么长。&&这是一个很不错的可以帮助测试员成长的机会。
  有时候我不得不修正自己的估计,重新定义测试任务。
  需要注意的是不要强迫测试员接受自己的看法,大家都不是傻子,这样做会让自己失去权威,而且任务就那么多,实际需要的时间基本是固定的。强迫测试员接受自己的计划很难得到一个好结果。
  当然我致力于花费更多的时间放在测试计划上,而不是让测试任务承担人给出测试时间,是因为我们部门里面存在很多&有特色&的人,员工意识严重,一个2小时可以完成的任务,他们能给你估算2天。
  在我上一家公司,我的做法是让承担工作的人告诉我时间。把人带出来以后,自己很轻松。
  总而言之,做出估计的人选应该是最注意花费多长时间的人,有时候这个人是经理,有时候可以是测试负责人,有时候谁也不是。这取决于谁掌握的信息更多,也取决于估算出现问题时谁来承担责任。&&但是无论哪种情况,都不要用&希望&来进行估计。
        & (0 0)&+------oOO---(_)------------+&|&            &  |&| & & & & & & 『欢迎关注』 & &  &|&|   &    & &|&+--------------------oOO-----+      |__|__|       &|| &||     &ooO & Ooo
阅读(...) 评论() 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
火车头使用手册
下载积分:1000
内容提示:火车头使用手册
文档格式:PDF|
浏览次数:45|
上传日期: 01:40:54|
文档星级:
全文阅读已结束,如果下载本文需要使用
 1000 积分
下载此文档
该用户还上传了这些文档
火车头使用手册
官方公共微信火车采集器|火车采集器(LocoySpider)下载 v9.3官方版_ - pc6下载站

我要回帖

更多关于 火车采集器v8破解版 的文章

 

随机推荐