短链接怎么批量还原php_用多线程脚本提升处理速度【指南】

发布时间 - 2025-12-31 00:00:00    点击率:
file_get_contents()无法批量还原短链接,因其默认跟随重定向且不返回响应头,导致无法获取Location字段;串行调用效率极低。应使用cURL多路复用,禁用自动跳转、只取响应头、提取Location,并处理3xx状态码、超时及反爬限制(如Referer、UA、DNS缓存等)。

为什么 file_get_contents() 不能直接批量还原短链接

短链接还原本质是发起 HTTP 请求并读取重定向目标(Location 响应头),而 file_get_contents() 默认不返回响应头,且无法控制跟随重定向的深度和行为。直接用它会拿到跳转后的页面内容,而非原始长 URL;更严重的是,串行调用会极慢,100 个链接可能耗时几十秒甚至分钟。

cURL + curl_multi_exec() 实现真正并发请求

PHP 原生支持多路复用 cURL 句柄,比开进程/线程更轻量、更可控。关键点在于:禁用自动跳转、只取响应头、提取 Location 字段,并正确处理 3xx 状态码和空/无效重定向。

  • 必须设置 CURLOPT_FOLLOWLOCATION = false,否则拿不到原始响应头
  • 必须启用 CURLOPT_HEADER = true,但注意响应体和头混在一起,需手动分离
  • 对返回状态码非 3xx 的链接(如已失效、404、被拦截),应返回原短链或空值,避免误判
  • 建议加 CURLOPT_TIMEOUT = 5 防止单个请求拖垮整批任务
$urls = ['https://t.co/abc123', 'https://bit.ly/xyz789'];
$mh = curl_multi_init();
$chs = [];

foreach ($urls as $i => $url) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_NOBODY, true);
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, false);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_TIMEOUT, 5);
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0');
    curl_multi_add_handle($mh, $ch);
    $chs[$i] = $ch;
}

$running = null;
do {
    curl_multi_exec($mh, $running);
} while ($running > 0);

$results = [];
foreach ($urls as $i => $url) {
    $header = curl_multi_getcontent($chs[$i]);
    $redirect = '';
    if (preg_match('/^Location:\s*(.+)$/mi', $header, $m)) {
        $redirect = trim($m[1]);
    }
    $results[] = ['short' => $url, 'long' => $redirect];
    curl_multi_remove_handle($mh, $chs[$i]);
    curl_close($chs[$i]);
}
curl_multi_close($mh);

var_dump($results);

遇到 302 但 Location 为空?检查 Referer 和 UA 限制

很多短链服务(如微博、微信)会校验 Referer 或拒绝非常规 User-Agent,导致返回 302 却不带 Location,或直接返回 403。这不是代码问题,而是反爬策略。

  • 加上 CURLOPT_REFERER(例如设为 https://www.google.com)可绕过部分检测
  • CURLOPT_USERAGENT 必须设为真实浏览器标识,不能留空或用默认值
  • 某些平台(如 dwz.cn)还要求携带 Cookie 或额外 Header,需抓包确认

别忽略 DNS 和连接复用开销

批量还原上百个不同域名的短链时,DNS 解析和 TCP 连接建立本身就会成为瓶颈。cURL 多路复用虽共享 event loop,但默认不复用 DNS 缓存和连接池。

立即学习“PHP免费学习笔记(深入)”;

  • CURLOPT_DNS_CACHE_TIMEOUT = 300 避免重复查 DNS
  • CURLOPT_TCP_KEEPALIVE = 1CURLOPT_FORBID_REUSE = false 提升复用率
  • 如果目标域名高度集中(如全是 t.co),效果更明显;若分散在 50+ 不同根域,仍建议分组限速(如每批 ≤20 个)

真正卡住的地方往往不是 PHP 逻辑,而是网络层响应质量——超时、丢包、WAF 拦截,这些没法靠“加线程”解决。


# php  # go  # cookie  # 微信  # 浏览器  # 微博  # curl  # dns  # google  # 状态码  # 并发请求  # 为什么  # red 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 微信小程序 require机制详解及实例代码  如何在自有机房高效搭建专业网站?  Android自定义listview布局实现上拉加载下拉刷新功能  Laravel如何实现事件和监听器?(Event & Listener实战)  高防服务器租用首荐平台,企业级优惠套餐快速部署  网页设计与网站制作内容,怎样注册网站?  如何快速生成橙子建站落地页链接?  如何在Windows 2008云服务器安全搭建网站?  laravel怎么为应用开启和关闭维护模式_laravel应用维护模式开启与关闭方法  Laravel如何配置中间件Middleware_Laravel自定义中间件拦截请求与权限校验【步骤】  php8.4header发送头信息失败怎么办_php8.4header函数问题解决【解答】  网站制作大概多少钱一个,做一个平台网站大概多少钱?  Laravel如何与Pusher实现实时通信?(WebSocket示例)  Laravel如何清理系统缓存命令_Laravel清除路由配置及视图缓存的方法【总结】  微信小程序 配置文件详细介绍  html5audio标签播放结束怎么触发事件_onended回调方法【教程】  Laravel安装步骤详细教程_Laravel环境搭建指南  html如何与html链接_实现多个HTML页面互相链接【互相】  网易LOFTER官网链接 老福特网页版登录地址  Laravel如何创建自定义中间件?(Middleware代码示例)  如何在阿里云部署织梦网站?  Zeus浏览器网页版官网入口 宙斯浏览器官网在线通道  手机网站制作与建设方案,手机网站如何建设?  Edge浏览器提示“由你的组织管理”怎么解决_去除浏览器托管提示【修复】  大连企业网站制作公司,大连2025企业社保缴费网上缴费流程?  Python图片处理进阶教程_Pillow滤镜与图像增强  Laravel如何编写单元测试和功能测试?(PHPUnit示例)  深圳网站制作平台,深圳市做网站好的公司有哪些?  佛山企业网站制作公司有哪些,沟通100网上服务官网?  Laravel如何实现RSS订阅源功能_Laravel动态生成网站XML格式订阅内容【教程】  极客网站有哪些,DoNews、36氪、爱范儿、虎嗅、雷锋网、极客公园这些互联网媒体网站有什么差异?  深圳网站制作公司好吗,在深圳找工作哪个网站最好啊?  悟空识字怎么关闭自动续费_悟空识字取消会员自动扣费步骤  如何安全更换建站之星模板并保留数据?  HTML5打空格有哪些误区_新手常犯的空格使用错误【技巧】  ,网页ppt怎么弄成自己的ppt?  Laravel Admin后台管理框架推荐_Laravel快速开发后台工具  Laravel如何部署到服务器_线上部署Laravel项目的完整流程与步骤  如何用5美元大硬盘VPS安全高效搭建个人网站?  如何为不同团队 ID 动态生成多个非值班状态按钮  如何将凡科建站内容保存为本地文件?  html5源代码发行怎么设置权限_访问权限控制方法与实践【指南】  Laravel如何创建自定义Artisan命令?(代码示例)  香港服务器网站卡顿?如何解决网络延迟与负载问题?  Win11怎么关闭专注助手 Win11关闭免打扰模式设置【操作】  JavaScript实现Fly Bird小游戏  Laravel如何实现登录错误次数限制_Laravel自带LoginThrottles限流配置【方法】  原生JS获取元素集合的子元素宽度实例  Windows驱动无法加载错误解决方法_驱动签名验证失败处理步骤  如何在IIS中新建站点并配置端口与IP地址?