NO.1 火车头多级网址的获取

一、一级网址的获取

  1. 以链家二手房网站为例,初始地址:https://sh.lianjia.com/ershoufang/在相应区域找到一级网址地址:
    DE04497D-FCDA-4F99-BF53-5CA58F284E85

4A75A523-0EF1-4B7A-A002-180540B8FEE9

  1. 点击测试网址采集,选中一条采集到的一级网址点击导出同级网址,获得一级网址的txt文件。
    F913E7DF-95F2-4D27-AF1F-3431008872F9

二、 二级网址的获取

  1. 删除之前的起始网址,导入刚保存的txt文件作为起始网址。6C51512B-442F-4C0F-B111-6D8CFE6A30DD13C02-7F63-4B89-81AF-867E064648B2
  2. 在相应区域找到二级网址地址,重复上一步操作,获得二级网址地址。C57CBFD0-2043-4472-9ED1-8E7235CC2D59

D345967E-3AAA-4605-A958-CED06D8C6BF3

3C6BF4BC-2EAC-4D47-AE80-1A6FD6C3E5CA

三、 分页网址的获取

分析链家二手房的网页源代码,发现其分页地址为动态生成的,并不存在于源代码中,(注:若在源代码中能直接获取下一页的链接地址,可使用列表分页获取,火车头将循环获取下一页的地址)但是其分页网址为形似https://sh.lianjia.com/ershoufang/pudong/pg1/ 的等差数列格式,且源代码中有总页数的信息,因此可以提取总页数信息构造出分页网址。

  1. 将上一步获取的二级网址作为初始网址输入,在分级网址获取中,选择手动填写链接地址规则。B2F16DE3-F56D-49BF-AB49-056EF1355AF
  2. 找到源代码中链接地址和总页数的位置,构造分页网址:[参数1],其中参数一截取的网址前部分:如:”https://sh.lianjia.com/ershoufang/beicai/pg“,参数二截取的总页数表示首项为1,总数为100,等差为1 的等差数列。
  3. 点击测试网址采集,将采集到的结果导出为url3.txt。

四、详情网址的获取

  1. 删除之前的起始网址,打开url3.txt 将其中的网址复制到火车头添加起始网址中的多条网址栏。( 注:此时不能直接导入txt,否则网址表达式无法识别。E2434C92-F0C2-41FD-A2B5-3487703D6367
  2. 重复第二步的步骤,在网页中找到详情页链接的位置,用火车头采集下来。83D58031-FBA9-4897-BBCA-0C8AD9CA77ED

注意详情页的网址结构https://sh.lianjia.com/ershoufang/107000643557.html,变化的只有后面的以107开头的id

EACC681A-E948-4F7E-A17B-A38A2A522D62

同样测试网址采集后,将所有采集到的详情页网址保存至url4.txt 。至此上海链家二手房的所有详情页网址便已采集到。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

You are commenting using your WordPress.com account. Log Out /  更改 )

Google photo

You are commenting using your Google account. Log Out /  更改 )

Twitter picture

You are commenting using your Twitter account. Log Out /  更改 )

Facebook photo

You are commenting using your Facebook account. Log Out /  更改 )

Connecting to %s