NO.2 火车头网页信息的获取

一、分析网页信息,选择需抓取的数据

在上一章里已经采集了上海链家二手房的所有详情页面,这里以其中一个页面为例,分析需要哪些数据:

比如:标题、总价、单价、基本信息和地理位置。下面便来一步步抓取这些数据。

二、编辑采集内容与规则

  1. 进入任务文件后,点击采集内容与规则,将原有标签删掉,然后点击添加,添加需要的数据标签。在源代码中找到数据前后的字符串,截取数据。应注意数据前后定位字符串在源代码中应为唯一值。(注:*表示可替代任何字符串的变量
  2. 设置完成后,可在右边输入详情页网址,点击测试,检查设置是否正确。
  3. 在截取价格标签时,<div class="price "><span class="total">319</span><span class="unit"><span>万</span></span>其价格与单位在两个html标签内,此时可在数据处理中添加html标签过滤,去掉多余字符。
  4. 在基本信息提取时,为了后期数据处理的方便,可在html标签过滤之前添加一个内容替换处理,将所有</span>标签替换为,
  5. 地理位置信息一般很难直接在网页源代码中找到,此时可以打开百度地图坐标拾取网站,找到当前房源的经纬度,然后在网页源代码中搜索前几个数字,比如121.5,来找到经纬度所在的标签。
  6. 设置完成后测试无误,即可进入第三步,发布内容设置。

    三、发布内容设置

  7. 进入发布内容设置后,选择方式二,将所有记录保存在一个csv文件中。选择保存位置,保存文件名。
  8. 点击查看默认模版,用记事本打开默认csv模版,根据上一步自定义的标签名修改默认模版。3.保存任务文件,开始采集。(若需批量采集大量详情页,更改起始网址即可)

四、数据处理

最后在excel中用空格和逗号将基本信息各项分列,并将地理位置分成经度和纬度两列,使数据结构更加清晰。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

You are commenting using your WordPress.com account. Log Out /  更改 )

Google photo

You are commenting using your Google account. Log Out /  更改 )

Twitter picture

You are commenting using your Twitter account. Log Out /  更改 )

Facebook photo

You are commenting using your Facebook account. Log Out /  更改 )

Connecting to %s