Python正则抓取新闻标题和链接的方法示例

发布时间 - 2026-01-11 00:47:45    点击率:

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:

#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
  pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
  title = re.findall(pat, info)
  titles='\n'.join(title)
  #print titles
#修改指定字符串
  titles1=titles.replace('class="title"','title')
  titles2=titles1.replace('>',':')
  titles3=titles2.replace('href','url:')
  titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
  save=open('xinwen.txt','w')
  save.write(titles4)
  save.close()
titles = extract_title(doc)

PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:

JavaScript正则表达式在线测试工具:
http://tools./regex/javascript

正则表达式在线生成工具:
http://tools./regex/create_reg

更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。


# Python  # 正则  # 抓取  # 新闻标题  # 链接  # python3爬虫之入门基础和正则表达式  # 零基础写python爬虫之神器正则表达式  # Python的爬虫包Beautiful Soup中用正则表达式来搜索  # Python爬虫正则表达式常用符号和方法  # python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解  # python正则表达式爬取猫眼电影top100  # Python使用正则表达式抓取网页图片的方法示例  # python正则匹配抓取豆瓣电影链接和评论代码分享  # Python爬虫实现网页信息抓取功能示例【URL与正则模块】  # python正则表达式抓取成语网站  # Python正则抓取网易新闻的方法示例  # Python3使用正则表达式爬取内涵段子示例  # 正则表达式  # 进阶  # 操作技巧  # 相关内容  # 数据结构  # 给大家  # 更多关于  # 所述  # 程序设计  # 使用技巧  # 再为  # 新闻网站  # 测试工具  # 编程技巧  # 讲述了  # read  # create_reg  # def  # news  # www 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: 如何用wdcp快速搭建高效网站?  网站制作免费,什么网站能看正片电影?  如何快速上传建站程序避免常见错误?  如何在阿里云通过域名搭建网站?  在Oracle关闭情况下如何修改spfile的参数  如何基于云服务器快速搭建网站及云盘系统?  jimdo怎样用html5做选项卡_jimdo选项卡html5实现与切换效果【指南】  如何在不使用负向后查找的情况下匹配特定条件前的换行符  HTML5空格在Angular项目里怎么处理_Angular中空格的渲染问题【详解】  如何制作新型网站程序文件,新型止水鱼鳞网要拆除吗?  Laravel请求验证怎么写_Laravel Validator自定义表单验证规则教程  Android实现代码画虚线边框背景效果  Laravel表单请求验证类怎么用_Laravel Form Request分离验证逻辑教程  Win11怎么更改系统语言为中文_Windows11安装语言包并设为显示语言  Laravel 419 page expired怎么解决_Laravel CSRF令牌过期处理  网站建设保证美观性,需要考虑的几点问题!  Laravel如何记录日志_Laravel Logging系统配置与自定义日志通道  如何实现建站之星域名转发设置?  Laravel如何与Docker(Sail)协同开发?(环境搭建教程)  如何确保西部建站助手FTP传输的安全性?  哪家制作企业网站好,开办像阿里巴巴那样的网络公司和网站要怎么做?  如何用PHP快速搭建高效网站?分步指南  LinuxCD持续部署教程_自动发布与回滚机制  Laravel用户密码怎么加密_Laravel Hash门面使用教程  详解jQuery中基本的动画方法  猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】  原生JS获取元素集合的子元素宽度实例  Laravel distinct去重查询_Laravel Eloquent去重方法  如何快速查询网址的建站时间与历史轨迹?  香港服务器选型指南:免备案配置与高效建站方案解析  高防服务器租用指南:配置选择与快速部署攻略  Laravel定时任务怎么设置_Laravel Crontab调度器配置  手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?  海南网站制作公司有哪些,海口网是哪家的?  创业网站制作流程,创业网站可靠吗?  laravel怎么在请求结束后执行任务(Terminable Middleware)_laravel Terminable Middleware请求结束任务执行方法  nodejs redis 发布订阅机制封装实现方法及实例代码  Laravel怎么实现软删除SoftDeletes_Laravel模型回收站功能与数据恢复【步骤】  Laravel全局作用域是什么_Laravel Eloquent Global Scopes应用指南  详解CentOS6.5 安装 MySQL5.1.71的方法  ChatGPT怎么生成Excel公式_ChatGPT公式生成方法【指南】  如何在建站之星网店版论坛获取技术支持?  Python并发异常传播_错误处理解析【教程】  Laravel怎么实现模型属性的自动加密  标题:Vue + Vuex + JWT 身份认证的正确实践与常见误区解析  Laravel如何配置任务调度?(Cron Job示例)  如何为不同团队 ID 动态生成多个独立按钮  如何彻底卸载建站之星软件?  Laravel如何使用Telescope进行调试?(安装和使用教程)  如何在景安服务器上快速搭建个人网站?