如何使用Golang构建简易Markdown解析器_Golang文本解析与HTML生成方法

发布时间 - 2025-12-31 00:00:00    点击率:
不建议从零实现Markdown解析器,因CommonMark规范有20+边界case,goldmark等成熟库已稳定解决嵌套、缩进、HTML混合等问题;推荐用goldmark禁用非必要扩展并自定义渲染。

为什么不用现成库而自己写 Markdown 解析器

除非你只处理极简的 Markdown 片段(比如仅支持 **bold***italic*`code` 和换行),否则不建议从零实现完整解析器。CommonMark 规范有 20+ 边界 case,比如嵌套强调、列表缩进对齐、HTML 内联混合等,blackfridaygoldmark 已经稳定维护多年。自己写容易在 ***abc***> > blockquote 这类嵌套场景产出错误 HTML。

用 goldmark 实现可控的简易解析(推荐路径)

goldmark 是目前最符合 CommonMark v0.30 的 Go 库,扩展性好、无 CGO 依赖、API 清晰。所谓“简易”,是指禁用不需要的扩展(如表格、脚注),并自定义渲染规则。

  • 默认开启所有扩展,需显式关闭:用 WithExtensions() 传入空切片或按需排除
  • 关键控制点在 goldmark.WithRenderer() —— 你可以继承 html.Renderer 并重写 RenderTextRenderStrong 等方法,避免生成 而改用 或添加 class
  • 若只需纯文本提取(如预览摘要),直接用 parser.Parse(text) + 遍历 AST 节点,比生成 HTML 更轻量
package main

import ( "bytes" "github.com/yuin/goldmark" "github.com/yuin/goldmark/renderer/html" )

func main() { md := goldmark.New( goldmark.WithExtensions(), // 不传任何扩展 → 只支持基础语法 goldmark.WithRenderer(html.NewRenderer( html.WithUnsafe(), // 允许原始 HTML(如需保留 @@##@@) )), ) var buf bytes.Buffer err := md.Convert([]byte("# Hello\n\nworld"), &buf) if err != nil { panic(err) } println(buf.String()) // 输出:

Hello

\n

world

\n }

手动解析时如何安全处理 inline 强调标记

如果坚持手写(例如嵌入到已有 parser 中),重点不是匹配 *_,而是遵守「左边界」和「右边界」规则:强调符必须前后紧邻非空白/非标点字符,且成对出现、不跨行。常见错误是用正则 \*(.*?)\* 导致贪婪匹配或忽略嵌套。

  • 正确做法:扫描字节流,记录未闭合的强调符位置(stack),遇到匹配符时检查栈顶类型是否一致、是否满足边界条件(如前一个字符不能是字母/数字)
  • 特别注意:**a**b** 应解析为 ab**,而非整个 a**b
  • Go 标准库 strings.Indexbytes.IndexByte 比正则更快,适合单次扫描

HTML 输出中容易被忽略的转义细节

Markdown 输入里的 &> 必须转义,但已由 goldmarkhtml.Renderer 自动处理;真正易漏的是自定义渲染器里手动拼接字符串时:

  • 不要直接 fmt.Sprintf("

    %s

    ", text)
    —— text 中的 & 会变成 & 双重编码
  • 应使用 html.EscapeString(text)(来自 net/html)确保只转义一次
  • 若允许用户输入 HTML 片段(如 ``),需配合 html.UnescapeString 或白名单过滤,不能简单放行

    复杂点永远在边界:AST 构建是否支持中断恢复、内联 HTML 是否影响后续解析、代码块缩进是否以 4 空格为唯一标准——这些在 goldmark 里已覆盖,自己写时最容易卡在某一个缩进差 1 空格的 case 上。


# html  # markdown  # git  # go  # github  # golang  # 编码  # 字节  #   # ai  # 标准库  # 为什么  # 字符串  # 继承  # class  # 切片  # 自定义  # 的是  # 你可以  # 不需要  # 已有  # 是指  # 遍历  # 只需  # 这类  # 重写 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: javascript中对象的定义、使用以及对象和原型链操作小结  千问怎样用提示词获取健康建议_千问健康类提示词注意事项【指南】  如何快速生成ASP一键建站模板并优化安全性?  Laravel怎么写单元测试_PHPUnit在Laravel项目中的基础测试入门  laravel怎么通过契约(Contracts)编程_laravel契约(Contracts)编程方法  Laravel如何使用Gate和Policy进行权限控制_Laravel权限判定与策略规则配置  制作电商网页,电商供应链怎么做?  矢量图网站制作软件,用千图网的一张矢量图做公司app首页,该网站并未说明版权等问题,这样做算不算侵权?应该如何解决?  Laravel数据库迁移怎么用_Laravel Migration管理数据库结构的正确姿势  javascript日期怎么处理_如何格式化输出  iOS验证手机号的正则表达式  php增删改查怎么学_零基础入门php数据库操作必知基础【教程】  Laravel如何获取当前登录用户信息_Laravel Auth门面使用与Session用户读取【技巧】  Laravel Seeder填充数据教程_Laravel模型工厂Factory使用  HTML 中动态设置元素 name 属性的正确语法详解  Laravel如何生成PDF或Excel文件_Laravel文档导出工具与使用教程  武汉网站设计制作公司,武汉有哪些比较大的同城网站或论坛,就是里面都是武汉人的?  Laravel如何设置自定义的日志文件名_Laravel根据日期或用户ID生成动态日志【技巧】  Laravel如何使用Gate和Policy进行授权?(权限控制)  制作无缝贴图网站有哪些,3dmax无缝贴图怎么调?  教你用AI润色文章,让你的文字表达更专业  Android滚轮选择时间控件使用详解  PHP怎么接收前端传的文件路径_处理文件路径参数接收方法【汇总】  Win11怎么更改系统语言为中文_Windows11安装语言包并设为显示语言  厦门模型网站设计制作公司,厦门航空飞机模型掉色怎么办?  如何确保西部建站助手FTP传输的安全性?  打造顶配客厅影院,这份100寸电视推荐名单请查收  Laravel如何使用Guzzle调用外部接口_Laravel发起HTTP请求与JSON数据解析【详解】  最好的网站制作公司,网购哪个网站口碑最好,推荐几个?谢谢?  html5如何实现懒加载图片_ intersectionobserver api用法【教程】  Laravel安装步骤详细教程_Laravel环境搭建指南  Linux网络带宽限制_tc配置实践解析【教程】  想要更高端的建设网站,这些原则一定要坚持!  QQ浏览器网页版登录入口 个人中心在线进入  iOS正则表达式验证手机号、邮箱、身份证号等  Laravel如何实现邮箱地址验证功能_Laravel邮件验证流程与配置  JavaScript如何实现音频处理_Web Audio API如何工作?  如何基于PHP生成高效IDC网络公司建站源码?  高端网站建设与定制开发一站式解决方案 中企动力  js代码实现下拉菜单【推荐】  如何用PHP工具快速搭建高效网站?  如何快速使用云服务器搭建个人网站?  如何在宝塔面板创建新站点?  创业网站制作流程,创业网站可靠吗?  phpredis提高消息队列的实时性方法(推荐)  html如何与html链接_实现多个HTML页面互相链接【互相】  Laravel策略(Policy)如何控制权限_Laravel Gates与Policies实现用户授权  如何在阿里云高效完成企业建站全流程?  Linux后台任务运行方法_nohup与&使用技巧【技巧】  Laravel怎么设置路由分组Prefix_Laravel多级路由嵌套与命名空间隔离【步骤】