找回密码
 立即注册
CeraNetworksBGVM服务器主机交流IP归属甄别会员请立即修改密码
查看: 67|回复: 8

[已解决]求教采集过程中链接抓取的方法

[复制链接]

12

主题

20

回帖

162

积分

注册会员

积分
162
发表于 2018-5-9 12:00:05 | 显示全部楼层 |阅读模式
本帖最后由 frogjy 于 2018-5-9 16:19 编辑

先在有链接列表页格式如:list1234(*).htm
里面的链接格式如:goods1345452.html
我想获取的goods链接大概2000个左右,有没有什么办法能一次提取出来?
目前用wp的autopost来提取,但是一次只能分析一个list页面,得到40来个goods链接,太慢了。

求一个小白能看懂的最简单的方法


用火车头解决了,感谢
回复

使用道具 举报

20

主题

237

回帖

698

积分

高级会员

积分
698
发表于 2018-5-9 12:45:17 | 显示全部楼层
直接上链接,不然看不懂
回复

使用道具 举报

146

主题

486

回帖

2241

积分

金牌会员

积分
2241
发表于 2018-5-9 14:05:15 | 显示全部楼层
火车采集适合你。搜下7.6版本。好像就可以了
回复

使用道具 举报

3

主题

567

回帖

1850

积分

金牌会员

积分
1850
发表于 2018-5-9 14:27:57 | 显示全部楼层
直接连他数据库想怎么查就怎么查。
回复

使用道具 举报

5

主题

472

回帖

1560

积分

金牌会员

积分
1560
发表于 2018-5-9 14:47:42 | 显示全部楼层
php curl 异步模式了解下?

先生成 url 链接数组 比如
url/1.html
url/2.html
url/n.html

然后异步模式 把这些内容全部抓取回来
返回的是数组 每个数组值 就是网页内容
然后 implode() 把所有内容合并为一个

在match里面的链接
就可以提取了

这个模式取决于对方的并发
如果对方并发小 需要range生成 追加到数组里 比如url有2000个 每次采100个处理一次 然后追加

PHP是最好的语言 手动滑稽....


回复

使用道具 举报

47

主题

423

回帖

1473

积分

金牌会员

积分
1473
发表于 2018-5-9 14:51:17 | 显示全部楼层
玩点骚的 xpath, css Selector,  re,  dom tree

回复

使用道具 举报

12

主题

20

回帖

162

积分

注册会员

积分
162
 楼主| 发表于 2018-5-9 14:59:18 | 显示全部楼层

hundouluo 发表于 2018-5-9 14:51

玩点骚的 xpath, css Selector,  re,  dom tree

大佬,完全看不懂,我连小白都算不上

回复

使用道具 举报

12

主题

20

回帖

162

积分

注册会员

积分
162
 楼主| 发表于 2018-5-9 14:51:00 | 显示全部楼层

全球资源提供商 发表于 2018-5-9 14:47

php curl 异步模式了解下?

先生成 url 链接数组 比如

小白都算不上的人一脸懵逼,不过还是谢谢大佬的耐心解答,我先试试3楼的火车头看看能不能解决
回复

使用道具 举报

12

主题

20

回帖

162

积分

注册会员

积分
162
 楼主| 发表于 2018-5-9 15:01:54 | 显示全部楼层

helwo 发表于 2018-5-9 14:05

火车采集适合你。搜下7.6版本。好像就可以了

很久以前用过,还以为也是只能单页获取链接,我再去看看,谢谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|HS2V主机综合交流论坛

GMT+8, 2024-5-3 08:10 , Processed in 0.149993 second(s), 3 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表