欢迎来到站长教程网!

关键词采集

当前位置: 主页 > 全网采集 > 关键词采集

浩华|君无嘻言—种草高效工具 节省网页数据采集时间

时间:2022-12-08 15:05:07|栏目:关键词采集|点击:

图/文:淄博城市策划总监尹珑尹总-数据采集音频:进度条 00:00 05:46 后退15秒 倍速 快进15秒

作为地产行业策划,我们多数时间和精力都放在操盘方案和执行中,经常漫游在Word、Excel和PPT之间而有时候在面对提案以及关键节点方案时,我们要求做到更详尽的区域市场数据,网页上的土地信息就是必不可少的一部分。

如果没有做好月度的数据积累、或面对一个陌生的城市环境,短时间内整理好这些陌生数据是很难的一直纠结于是否要给大家“种草”数据采集工具,一是此类工具我们应用机会很少(但是救急用到是真香);二是小编属于数据爬取“门外汉”还没法做到具体问题情况解答。

但是,在地产提高“人效”的大环境下,希望大家多掌握一个软件使用、提高工作效率,比较不是坏事因此,借助“君无嘻言”的机会给大家“种草”后羿采集器软件1明确工作目标采集(汇总)某城市市场数据,例如我们经常需求的当地“。

某阶段内土地供应和成交数据”、住宅网签数据等(值得大家注意的是,网签数据各个城市网站差别很大,部分网站用软件采集很难实现)案例如图,如果我们需要2个小时把这个城市的土地供应成交明细整理出来,单纯每个地块打开复制粘贴,是不现实的

,这就需要数据采集工具来提高效率。

2学会看网页地址我们来到案例城市的土拍网页,是一个市本级区域的土地成交明细记录发现这个网页环境里,点击下一页及任何翻页,网页地址是不变的,因此我们可以在采集器里输入这个网址来进行全部数据(或者部分数据,如只采集2021年)。

但是目前这个界面里面的文字不是我们想要的内容,我们需求的是这里面每一个地块的具体详情然而我们又发现,每一个地块打开后,它的网页地址都是不一样的由此,我们可以分析出采集工作流程:采集市本级网页下的文本内容(结果公示地块标题+时间)和每一个地块的地址链接(深度采集)。

复制所有明细地块的地址链接,开始采集地块详情,并最后导出Excel文件

3具体采集工作操作方法第一:下载“后羿采集器”,官网下载即可,1个手机号账户可免费做100个采集任务(足够)第二:打开软件之后会有2种模式:流程图模式和智能模式流程图模式是依据自己手动分工每步操作(操作。

比较复杂这里不做具体阐述推荐),而我们通常使用智能模式,用此模式我们来具体阐述实战案例(点击智能模式开始采集)。

第三:首先输入网址有3种方式,手动输入(复制粘贴)不能超过200行;文件导入(使用txt文本文件格式)我们一般采集单个或几个网页一般用前者,批量生成的众多深度链接(土地地块详情页地址)一般采用后者,而批量生成是指有一定规律的参数变化网页地址(如翻页参数的序列数字变化)。

因此,我们先复制粘贴需要采集的市本级成交地块的网站地址,点击立即创建。

第四:点击后看到采集器已经开始做了第一页的信息自动识别和采集(绿色部分)并在下方生成表格预览,同时字段2(地块标题)也给我们做好了相对应的深度链接采集(就是把每个地块的详情页地址采集到了)

第五:重点讲解一下翻页:翻页是指在采集过程中,程序要自动模拟人工翻页,如果翻页按钮无法识别,我们后续的采集工作就会重复停留在某一页或者某前几页来回重复采集,导致数据结果无限重复首先我们要知道为什么会出现这种情况,少数情况下如果网页按钮(下一页)XPath识别不到就会出现“自动识别分页失败”;而有时即便识别到了,但是10页之后的“下一页”位置又变了,也会出现。

采集过程翻页错误。如下图展示的就是“下一页”按钮在第11页出现了偏差:

解决翻页方案(如果你所常用的网页能够自动识别翻页,请忽略以下):【1】点选分页按钮:手动点一下分页(下一页)按钮,但通常是在“下一页”按钮不发生错位情况下奏效

由于此处涉及编程知识,对于我地产小编已经严重超纲….好在通过编程老师帮助,给了一套案例方案,我通过多个网站做了一个规律模仿,大家可以尝试一下(至于操作原理我们就没必要研究了,只看步骤就好):【2-1】回到浏览器网页界面,把鼠标放到“下一页”,点击右键审查元素,会看到如下图:

【2-2】我们只需要复制一下“”双引号里面的蓝色部分,然后回到采集软件中的 以上就是介绍的翻页失败的处理方法第六:设置采集范围:如果我们只想采集某一阶段的土地信息,可以点击采集范围来设置弹出对话框,点击新建条件,点击新建分组。

。案例中“字段3”是地块的时间,因此我们在字段3设置条件为“包含”值如果出现2020,点击确定(意思就是采集到2020值就会停止任务)当然我们可以从设置起始页和结束条件,来采集某个特定年份的数据。

第七:点击开始采集-任务完成后点击导出数据即可。关闭观看更多更多正在加载正在加载退出全屏视频加载失败,请刷新页面再试

刷新

视频详情 第八:以上我们就把第一轮采集完毕,目的是得到每个地块的详情页网址;接下来,我们把Excel里的网站一键复制到新文本文件(.txt)然后新建任务导入网站文件,直接点击采集即可(因为详情页无需翻页)

第九:导出Excel结果文件,进行稍加修饰即可这里推荐大家下载“方方格子”office版本的Excel插件,免费级的就超级好用例如批量删除地块成交时间的“**时**分”仅保留年/月/日(批量删除后5位字符);批量提取最大容积率,在规定容积率范围值栏中,批量保留指定最大容积率,我们可以公式计算规划建面、楼面价等。

下图是导出的直接结果:

下图是修改调整后的效果:

总结以上就是给大家分享的地产数据相关的网页数据爬取,每个城市的土地信息网有新旧网站,建议大家选择旧版网站土地汇总页为目标(相对识别较容易);同时关于商品房网签的数据页面每个城市都差别很大,而且需要看采集器是否能识别出来。

不建议大家花过多的时间再去研究爬虫程序,我们只需利用采集软件节省数据汇总时间即可⋅///⋅【往期推荐】点击图片即可查阅

——未经许严禁转载、挪用或以做商业用途

上一篇:​URL定向采集,网页数据内容快速抓取

栏    目:关键词采集

下一篇:电商图片助手图片采集怎么下载?(电商图片采集助手)

本文标题:浩华|君无嘻言—种草高效工具 节省网页数据采集时间

本文地址:http://www.diguocaiji.com/index.php?m=home&c=View&a=index&aid=823

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:209087445 | 邮箱:209087445@qq.com

Copyright © 2002-2021 站长工具教程网 版权所有蜀ICP备2023002304号-12