主页 > 人工智能  > 

pptx2md-将PPT文件转换成Markdown

pptx2md-将PPT文件转换成Markdown

将 Powerpoint pptx 文件转换为 markdown 的工具。

Github:GitHub - ssine/pptx2md:pptx 到 markdown 的转换器

更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

主要功能

支持保留以下格式:

标题。支持具有模糊匹配的自定义目录。具有任意深度的列表。带有**粗体**、*斜体*、颜色和超链接的文本图片。它们被提取到图像文件中,并插入相对路径。具有合并单元格的表格。从上到下,然后从左到右的区块顺序。

支持输出为如下格式:

MarkdownTiddlywiki's wikitextMadokoQuarto 安装和使用 安装

您需要在系统上安装 **3.10** 版本高于 *Python* 和 *pip*,然后在终端中运行:

pip install pptx2md 用法

安装后,使用命令将 pptx 文件转换为 markdown。pptx2md [pptx filename]​

默认输出文件名为 ,提取(并插入到 .md 中)的任何图片都将放置在文件夹中。out.md/img/​

**注意:**不支持较旧的 .ppt 文件,请先将它们转换为新的 .pptx 版本。

**升级和移除:**

pip install --upgrade pptx2md pip uninstall pptx2md 自定义标题

默认情况下,此工具将所有 pptx 标题解析为 markdown 标题,以获得分层目录,在文件中提供预定义的标题列表并为其提供参数。level 1-t​

这是一个示例标题文件 (titles.txt):

Heading 1 Heading 1.1 Heading 1.1.1 Heading 1.2 Heading 1.3 Heading 2 Heading 2.1 Heading 2.2 Heading 2.1.1 Heading 2.1.2 Heading 2.3 Heading 3

开头带有空格的第一行被视为第二级标题,空格数是缩进的单位。在这种情况下, 将输出为 .由于它的开头有两个空格,所以 2 是标题缩进的单位,所以有 4 个空格时将输出为 。标题文本进行模糊匹配,不匹配的 pptx 标题将被视为最深的标题。 Heading 1.1## Heading 1.1 Heading 1.1.1### Heading 1.1.1​

将其与 . 一起使用。pptx2md [filename] -t titles.txt​

完整参数 ​-t [filename]​提供标题文件​-o [filename]​输出文件的路径​-i [path]​提取的图片目录​--image-width [width]​图片的最大宽度,以 px 为单位。如果设置,图像将作为 html img 标签放置。​--disable-image​禁用图像提取​--disable-escaping​不要尝试转义特殊字符​--disable-notes​不添加 Presenter 注释​--disable-wmf​保持 WMF 格式的映像不变(避免在 Linux 下出现异常)​--disable-color​在 HTML 中禁用颜色标签​--enable-slides​Deliniate Slides ,如果您想将 PPTX 幻灯片转换为 Markdown 幻灯片,这会有所帮助\n---\n​​--try-multi-column​尝试检测多柱玻片(非常慢)​--min-block-size [size]​要输出的文本块的最小字符数​--wiki​ / --mdk​如果你碰巧在使用 TiddlyWiki 或 Madoko,这个参数会输出相应的标记语言​--qmd​输出到用于 Quarto 支持的演示文稿的 QMD 标记语言​--page [number]​仅转换指定的页面​--keep-similar-titles​保留相似的标题,并在重复的幻灯片标题中添加“(续)”

注意:如果需要,请安装 wand 以获得更好的成功转换 wmf 图像的机会。

API 使用

您还可以在 Python 代码中以编程方式使用 pptx2md:

from pptx2md import convert, ConversionConfig from pathlib import Path # Basic usage convert( ConversionConfig( pptx_path=Path('presentation.pptx'), output_path=Path('output.md'), image_dir=Path('img'), disable_notes=True ) )

该类接受与命令行参数相同的参数:ConversionConfig​

​pptx_path​:输入 PPTX 文件的路径(必填)​output_path​:输出 markdown 文件的路径(必填)​image_dir​:提取图像的目录(必需)​title_path​: 自定义标题文件的路径​image_width​:图像的最大宽度(以 px 为单位)​disable_image​:跳过图像提取​disable_escaping​:跳过转义特殊字符​disable_notes​:跳过演示者注释​disable_wmf​:跳过 WMF 图像转换​disable_color​:跳过 HTML 中的颜色标签​enable_slides​:添加幻灯片分隔符​try_multi_column​:尝试检测多列幻灯片​min_block_size​:最小文本块大小​wiki​:以 TiddlyWiki 格式输出​mdk​:以 Madoko 格式输出​qmd​:以四开格式输出​page​:仅转换指定的页码​keep_similar_titles​: 保留带有“(续)”后缀的相似标题

标签:

pptx2md-将PPT文件转换成Markdown由讯客互联人工智能栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“pptx2md-将PPT文件转换成Markdown