微软开源新工具 MarkItDown,Office 文件轻松转换为 Markdown 格式
xxn
阅读:57499
2024-12-17 16:00:55
评论:0
IT之家 12 月 17 日报道,微软在 GitHub 上推出了一个名为 MarkItDown 的开源 Python 库,该库能够将包括 Office 文档在内的多种文件格式转换为 Markdown 格式。
使用此工具进行转换为用户提供了多种应用场景,例如文本索引、分析等,且还支持开发者利用大型语言模型进行图像的描述。
IT之家提供了 MarkItDown 库目前支持的文件格式列表如下:
PDF (.pdf)
PowerPoint (.pptx)
Word (.docx)
Excel (.xlsx)
图像(EXIF 元数据和 OCR)
音频(EXIF 元数据和语音转录)
HTML(特殊处理维基百科等格式)
其他文本格式(csv, json, xml等)
开发者还可以配置 MarkItDown 库,利用大型语言模型描述图像,需将 mlm_client 和 mlm_model 参数配置为 MarkItDown 对象,示例如下:
from markitdown import MarkItDownfrom openai import OpenAIclient = OpenAI()md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")result = md.convert("example.jpg")print(result.text_content)
MarkItDown 库在 MIT 开源许可下发布,开发者可以自由使用、修改和分发该库,但在分发时需包含原始许可证和版权声明。
广告声明:文中提到的对外链接(包括但不限于超链接、二维码、口令等形式),旨在提供更多信息,便于快速获取,结果仅供参考。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。