马达智数发布政务大模型专用版权数据集：构建安全可信和自主可控的政务大模型

随着人工智能技术的飞速发展，大语言模型在各个领域展现出巨大的潜力，尤其在政务领域。

IDC最新发布的《中国政务大模型在数字政府应用市场分析报告》揭示了一个趋势：政务大模型，基于先进的大语言模型（LLM）技术，正逐步成为提升政府服务效率、优化公共政策制定的关键工具。

报告预测，到2027年，生成式AI在政府中的应用将带来显著的效率提升。

政务大模型的应用场景广泛，覆盖政务服务、城市治理、政府办公等多个方面。政务大模型通过处理海量数据，强大的语义分析能力和深层次理解能力,提供精准的决策支持和数据洞察，从而极大地提升了政务工作的效率和质量。

政务大模型的典型应用场景涵盖了教育、交通、医疗、财经、公共服务、政法、媒体、文旅、应急、智慧城市、能源、环保等领域。

然而，政务领域的特殊性也对大语言模型提出了更高的要求，例如价值观对齐、中文理解能力、内容生成能力以及安全可信性等。为此，构建针对政务领域的大模型数据集显得尤为重要。

马达智数“政务大模型专用版权数据集”能够显著强化政务大模型在各种复杂应用场景下的价值观对齐以及中文理解能力和内容生成能力，避免大模型可能出现的语言幻觉和敏感性错误，提升大模型在政务应用中的安全可信和自主可控。

政务大模型专用版权数据集（V1.0）

该数据集是面向政务大模型训练设计开发的语料库。可用于强化大语言模型的价值观对齐以及中文理解能力和内容生成能力，提高大语言模型在政务特殊应用场景的准确性与可信任性。

数据集样例（期刊杂志列表）：

马达智数自主开发的多模态数据结构化引擎，支持自动解析多种类型的电子书格式，包括PDF、EPUB、mobi、azw3和DjVu等。

利用先进的OCR技术和自动化文本解析技术，能够精确解析和转换文档中的文本、图像、表格和公式，输出为适合多模态大模型训练的数据格式。

“政务大模型专用版权数据集”为政务大模型的训练和应用提供了重要的数据基础，有助于提升政务大模型的中文理解能力、内容生成能力以及安全可信性，推动政务智能化发展。

未来，随着技术的不断进步和应用场景的不断拓展，政务大模型将会在更多领域发挥重要作用，为构建智慧政府、提升政府治理能力做出更大的贡献。