微软开源新工具 MarkItDown,Office 文件轻松转换为 Markdown 格式

xxn 阅读:57499 2024-12-17 16:00:55 评论:0

IT之家 12 月 17 日报道,微软在 GitHub 上推出了一个名为 MarkItDown 的开源 Python 库,该库能够将包括 Office 文档在内的多种文件格式转换为 Markdown 格式。

使用此工具进行转换为用户提供了多种应用场景,例如文本索引、分析等,且还支持开发者利用大型语言模型进行图像的描述。

IT之家提供了 MarkItDown 库目前支持的文件格式列表如下:

  • PDF (.pdf)

  • PowerPoint (.pptx)

  • Word (.docx)

  • Excel (.xlsx)

  • 图像(EXIF 元数据和 OCR)

  • 音频(EXIF 元数据和语音转录)

  • HTML(特殊处理维基百科等格式)

  • 其他文本格式(csv, json, xml等)

开发者还可以配置 MarkItDown 库,利用大型语言模型描述图像,需将 mlm_client 和 mlm_model 参数配置为 MarkItDown 对象,示例如下:

from markitdown import MarkItDownfrom openai import OpenAIclient = OpenAI()md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")result = md.convert("example.jpg")print(result.text_content)

MarkItDown 库在 MIT 开源许可下发布,开发者可以自由使用、修改和分发该库,但在分发时需包含原始许可证和版权声明。

广告声明:文中提到的对外链接(包括但不限于超链接、二维码、口令等形式),旨在提供更多信息,便于快速获取,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容