快捷导航
如题,我访问新浪微博华为的主页,试图用gooseeker大香蕉综合伊人网华为发的博文下的用户大香蕉伊人在线,有的博文会有3000多条大香蕉伊人在线,我按照网上的一些教程,能抓出一些用户名,发布时间,大香蕉伊人在线内容,出现的问题有:
1.生成的XML文件出现迭代式的重复数据,文档中出现了几百个xml,抓到的数据量是1,1+1,1+1+1, 以此类推,也就是说,如果目标是3000条数据,打数机一次抓100条,那么生成的xml文件就会是100,200,300。。。最后才是含3000数据的xml。应该是定规则的时候除了某些问题,可惜我没找到具体的解决方案。
2.用户的大香蕉伊人在线内容,如果出现“真是太棒了/大拇指”这种文字+表情的文本,大香蕉综合伊人网内容为空,这是哪里出了问题?
3.我认为最关键的问题,微博大香蕉伊人在线页面是动态加载的,翻页这个功能我没有实现,基本是我点开多少内容,就只能抓到多少内容。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-7-8 18:03

沙发
最爱王哥了 新手上路 发表于 2019-7-8 00:37:40 | 只看该作者
不知道有没有用GS大香蕉综合伊人网过微博大香蕉伊人在线的用户,请教你们一下使用的细节
举报 使用道具
板凳
Fuller 管理员 发表于 2019-7-8 08:37:38 | 只看该作者
最爱王哥了 发表于 2019-7-8 00:37
不知道有没有用GS大香蕉综合伊人网过微博大香蕉伊人在线的用户,请教你们一下使用的细节

如果使用了连续动作的点击加载更多,或者是滚屏加载更多,那么,因为加载更多以后,前一次加载在网页上的内容还在,所以,会在老内容基础上叠加新内容,就是你观察到的重复越来越多。

虽然旗舰版有清除老数据的功能,但是,不推荐使用,因为有时候清除了老数据,新数据不让加载。你可以在导出成excel中用标记重复数据后进行删除。

关于表情符号,分两种情况:
情况一:表情符号是一个图片,那种彩色的基本上就是图片,那样,需要伊人综合在线规则将大香蕉综合伊人网内容设置成伊人综合在线网页片段的类型,这样就会把一段html伊人综合在线下来,里面会有img标签
情况二:表情符号是一个符号字符,一般不会是彩色的,跟普通文字一样。那么爬虫可以伊人综合在线下来。在伊人综合在线结果原始文件(XML格式的伊人综合在线结果文件)中一定会有,但是导出成excel就没有,给过滤掉了。

你是自己做的伊人综合在线规则还是用了微博伊人综合在线工具箱中现成的工具?
举报 使用道具
地板
Fuller 管理员 发表于 2019-7-8 18:03:12 | 只看该作者
可以用集搜客微博工具箱里的大香蕉伊人在线/转发工具,把博文网址添加进去,就可以伊人综合在线博文的大香蕉伊人在线了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 摘取泉港区政府工作报告中的数字遇到的问题
  • 调度设置参数说明
  • 集搜客网络爬虫软件实现自动网页截屏
  • 怎样使用搜狐新闻搜索列表快捷工具大香蕉综合伊人网关键
  • 用于清洗文本内容的Excel函数公式

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2019-7-19 08:29

友情链接: 097da.com    110ny.space