[安卓按键]伪装成浏览器采集网页数据 _ 按键精灵脚本教程 - 按键精灵论坛

按键公众号：

按键精灵电脑版
立即下载

软件版本：2014.06
软件大小：22.9M
更新时间：2021-12-03

按键精灵安卓版
立即下载

软件版本：4.2.0
软件大小：45M
更新时间：2025-11-06

按键精灵iOS版
立即下载

软件版本：2.4.2
软件大小：29.2M
更新时间：2025-09-24

按键手机助手
立即下载

软件版本：4.5.0
软件大小：242M
更新时间：2025-11-06

快捷导航

请登录后使用快捷导航
没有帐号？注册

按键精灵论坛 » 按键精灵脚本教程 » [安卓按键]伪装成浏览器采集网页数据

登录注册

返回列表

发新话题

回复该主题

查看: 4826\|回复: 1	[郭立员] [安卓按键]伪装成浏览器采集网页数据 [复制链接]

发送短消息 UID 325019 帖子 819 精华 13 鲜花 1831 朵铜币 2974 个银币 945 个性别在线时间 20600 注册时间 2009-10-23 最后登录 2025-11-28 查看公共资料搜索主题搜索帖子郭立员 3分钟学堂-郭立员组别大学三年级 UID325019 帖子819 精华13 鲜花1831 朵铜币2974 个银币945 个在线时间20600 注册时间2009-10-23 双十一绝版纪念勋章双十一绝版纪念勋章抗战胜利70周年勋章抗战胜利70周年活动的专属勋章第二届“新浪&按键杯”致命连招勋章致命连招，索命夺魂冠军勋章第一届“新浪按键杯”脚本竞技大赛冠军纪念勋章优秀管理员勋章优秀管理员勋章图灵勋章参与按键精灵验证码识别大赛奖励按键图书勋章尊贵的按键图书用户骨灰级按键用户 3年以上的按键论坛用户按键精灵开发者6级可通过提升认证等级来升级勋章：rz.anjian.com 教程达人教程达人发帖高手鼓励积极回复，但注意不要灌水哦爱心大使积极帮助新手（可向管理员进行申请）学有所成学有所成勋章，新手步入按键学堂的第一枚勋章按键元老资深按键用户的尊贵荣誉勋章管理人员按键论坛的管理团队专属勋章	1^# 字体大小: t T 发表于 2022-02-16 22:54 \| \|只看楼主大家好，我是郭立员~ 这两天群友接了一单定制脚本的活，采集500彩票网的开奖数据，具体细节我没问，通过问我的问题，我猜猜采集的数据可能是这个： 1.png(32.62 K) 2022/2/16 22:55:41 采集的目标网址：https://kaijiang.500.com/shtml/ssq/03001.shtml 遇到的问题是啥呢？使用按键直接获取网页源码得到的结果是这样的： TracePrint url.get("https://kaijiang.500.com/shtml/ssq/03001.shtml") 复制代码当前脚本第1行：<html> <head><title>301 Moved Permanently</title></head> <body bgcolor="white"> <center><h1>301 Moved Permanently</h1></center> <hr><center>nginx</center> </body> </html> 复制代码返回的结果是301重定向（并不是报错），无法获取到网页的html源码，我用浏览器自带的抓包调试工具看了一下，也没有跳转到别的网址，猜测是网页为了限制爬虫采集，做了一个假的跳转。因为浏览器可以正常访问页面，所以想到的方法就是伪装成浏览器获取网页源码。说是伪装，其实就是在http请求头里面加上User-Agent参数，很多做过抓包协议的人都懂的。这个文章就这么一个知识点，直接上源码： Import "shanhai.lua" Dim uri = "https://kaijiang.500.com/shtml/ssq/03001.shtml" Dim hader = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) Apple WebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" Dim date1 = {"url":uri,"code":"gb2312", "cookie":"", "header":{"User-Agent":hader}} Dim login = Url.HttpPost(date1) TracePrint login Dim arr=shanhai.RegexFind(login,"<li class=""ball_.-"">(.-)</li>") For Each k In arr TracePrint k Next Dim haoma=shanhai.RegexFind(login,"出球顺序：.-<td>(.-)<") TracePrint haoma(0) 复制代码还有一点需要注意的，网站编码是GB2312，所以HttpPost命令的code需要修改一下，否则网页中汉字部分会出现乱码。
	郭立员最后编辑于 2022-02-16 22:55:41 点赞扫码免费获取我的基础教程【视频教程】扫码下方二维码关注我的公众号：3分钟学堂 QQ交流群：936858410

	回顶部

发送短消息 UID 694146 帖子 37 精华 0 鲜花 18 朵铜币 65 个银币 28 个性别在线时间 80 注册时间 2011-06-26 最后登录 2023-11-29 499953292 查看公共资料搜索主题搜索帖子 aa2632898 aa2632898 组别小学二年级 UID694146 帖子37 精华0 鲜花18 朵铜币65 个银币28 个在线时间80 注册时间2011-06-26	2^# 字体大小: t T 发表于 2023-08-27 13:39 \| \|只看该用户学习


	回顶部

上一主题| 下一主题

返回列表

发新话题

回复该主题

高级编辑器

高级编辑器

B Color Image Link Quote Code Smilies

你需要登录后才可以发帖登录 | 注册