Python正则抓取新闻标题和链接的方法示例
发布时间 - 2026-01-11 00:47:45 点击率:次本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:
#-*-coding:utf-8-*-
import re
from urllib import urlretrieve
from urllib import urlopen
#获取网页信息
doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻网站
#抓取新闻标题和链接
def extract_title(info):
pat = '<h3><a target=\"_blank\"(.*?)</a></h3>'
title = re.findall(pat, info)
titles='\n'.join(title)
#print titles
#修改指定字符串
titles1=titles.replace('class="title"','title')
titles2=titles1.replace('>',':')
titles3=titles2.replace('href','url:')
titles4=titles3.replace('="/','"http://www.itongji.cn/')
#写入文件
save=open('xinwen.txt','w')
save.write(titles4)
save.close()
titles = extract_title(doc)
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:
http://tools./regex/javascript
正则表达式在线生成工具:
http://tools./regex/create_reg
更多关于Python相关内容可查看本站专题:《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
# Python
# 正则
# 抓取
# 新闻标题
# 链接
# python3爬虫之入门基础和正则表达式
# 零基础写python爬虫之神器正则表达式
# Python的爬虫包Beautiful Soup中用正则表达式来搜索
# Python爬虫正则表达式常用符号和方法
# python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
# python正则表达式爬取猫眼电影top100
# Python使用正则表达式抓取网页图片的方法示例
# python正则匹配抓取豆瓣电影链接和评论代码分享
# Python爬虫实现网页信息抓取功能示例【URL与正则模块】
# python正则表达式抓取成语网站
# Python正则抓取网易新闻的方法示例
# Python3使用正则表达式爬取内涵段子示例
# 正则表达式
# 进阶
# 操作技巧
# 相关内容
# 数据结构
# 给大家
# 更多关于
# 所述
# 程序设计
# 使用技巧
# 再为
# 新闻网站
# 测试工具
# 编程技巧
# 讲述了
# read
# create_reg
# def
# news
# www
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
如何用wdcp快速搭建高效网站?
网站制作免费,什么网站能看正片电影?
如何快速上传建站程序避免常见错误?
如何在阿里云通过域名搭建网站?
在Oracle关闭情况下如何修改spfile的参数
如何基于云服务器快速搭建网站及云盘系统?
jimdo怎样用html5做选项卡_jimdo选项卡html5实现与切换效果【指南】
如何在不使用负向后查找的情况下匹配特定条件前的换行符
HTML5空格在Angular项目里怎么处理_Angular中空格的渲染问题【详解】
如何制作新型网站程序文件,新型止水鱼鳞网要拆除吗?
Laravel请求验证怎么写_Laravel Validator自定义表单验证规则教程
Android实现代码画虚线边框背景效果
Laravel表单请求验证类怎么用_Laravel Form Request分离验证逻辑教程
Win11怎么更改系统语言为中文_Windows11安装语言包并设为显示语言
Laravel 419 page expired怎么解决_Laravel CSRF令牌过期处理
网站建设保证美观性,需要考虑的几点问题!
Laravel如何记录日志_Laravel Logging系统配置与自定义日志通道
如何实现建站之星域名转发设置?
Laravel如何与Docker(Sail)协同开发?(环境搭建教程)
如何确保西部建站助手FTP传输的安全性?
哪家制作企业网站好,开办像阿里巴巴那样的网络公司和网站要怎么做?
如何用PHP快速搭建高效网站?分步指南
LinuxCD持续部署教程_自动发布与回滚机制
Laravel用户密码怎么加密_Laravel Hash门面使用教程
详解jQuery中基本的动画方法
猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】
原生JS获取元素集合的子元素宽度实例
Laravel distinct去重查询_Laravel Eloquent去重方法
如何快速查询网址的建站时间与历史轨迹?
香港服务器选型指南:免备案配置与高效建站方案解析
高防服务器租用指南:配置选择与快速部署攻略
Laravel定时任务怎么设置_Laravel Crontab调度器配置
手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?
海南网站制作公司有哪些,海口网是哪家的?
创业网站制作流程,创业网站可靠吗?
laravel怎么在请求结束后执行任务(Terminable Middleware)_laravel Terminable Middleware请求结束任务执行方法
nodejs redis 发布订阅机制封装实现方法及实例代码
Laravel怎么实现软删除SoftDeletes_Laravel模型回收站功能与数据恢复【步骤】
Laravel全局作用域是什么_Laravel Eloquent Global Scopes应用指南
详解CentOS6.5 安装 MySQL5.1.71的方法
ChatGPT怎么生成Excel公式_ChatGPT公式生成方法【指南】
如何在建站之星网店版论坛获取技术支持?
Python并发异常传播_错误处理解析【教程】
Laravel怎么实现模型属性的自动加密
标题:Vue + Vuex + JWT 身份认证的正确实践与常见误区解析
Laravel如何配置任务调度?(Cron Job示例)
如何为不同团队 ID 动态生成多个独立按钮
如何彻底卸载建站之星软件?
Laravel如何使用Telescope进行调试?(安装和使用教程)
如何在景安服务器上快速搭建个人网站?

