Paddle-Inference
latest
使用指南
Paddle Inference 简介
如何选择正确的推理引擎
推理流程
一. 准备模型
二. 准备环境
三. 开发推理程序
四. 性能优化
架构设计
Paddle Inference 的高性能实现
Paddle Inference 的通用性
Roadmap
Release Note
安装指南
系统要求
硬件平台
操作系统
AI 软件加速库
多语言 API
安装 Python API
环境准备
开始安装
验证安装
开始使用
安装 C++ API
环境准备
开始安装
验证安装
开始使用
安装 C API
环境准备
开始安装
验证安装
开始使用
安装 Go API
Paddle Inference 集成 Golang 的方式
环境准备
安装步骤
验证安装
开始使用
下载安装 Linux 推理库
C++ 推理库
C 推理库
Python 推理库
下载安装 Windows 推理库
C++ 推理库
C 推理库
python 推理
下载安装 Mac 推理库
C++ 推理库
C 推理库
源码编译
源码编译基础
Linux 下从源码编译
Windows 下从源码编译
macOS 下从源码编译
快速开始
快速上手Python推理
运行 Python 示例程序
Python 推理程序开发说明
快速上手C++推理
运行 C++ 示例程序
C++ 推理程序开发说明
快速上手C推理
运行 C 示例程序
C 推理程序开发说明
快速上手GO推理
运行 GO 示例程序
GO 推理程序开发说明
导出模型
飞桨框架模型导出
1.Paddle训练模型
2.训练模型转换为预测部署模型
3.PaddleSlim导出预测部署模型
其他框架模型导出
1.安装模型转换工具X2Padlde
2.模型转换
转换结果说明
模型结构可视化
可视化
x86 CPU部署
在x86 CPU上开发推理应用
目录
简介
CPU原生推理
oneDNN推理加速
ONNX Runtime推理
在x86 CPU上部署BF16模型
概述
安装Paddle
检查机器
预测部署
性能benchmark
X86 CPU 上部署量化模型
概述
产出量化模型
转换量化模型
部署量化模型
性能benchmark
NVIDIA-GPU部署
GPU 原生推理
1. C++ 示例
2. Python 示例
GPU TensorRT 加速推理(NV-GPU/Jetson)
1. 概要
2. 环境准备
3, API 使用介绍
4. 运行 Dynamic shape
5. Paddle Inference 适配 TensorRT 原理介绍
GPU TensorRT 低精度或量化推理
1. Fp16 推理
2. Int8 量化推理
附录:硬件支持列表
其他硬件部署
飞腾/鲲鹏 CPU 安装说明
系统要求
源码编译
安装部署
如何卸载
申威 CPU 安装说明
系统要求
源码编译
安装部署
如何卸载
兆芯 CPU 安装说明
系统要求
源码编译
安装部署
如何卸载
龙芯 CPU 安装说明
系统要求
源码编译
安装部署
如何卸载
昆仑 XPU 安装说明
系统要求
源码编译
安装部署
如何卸载
AMD GPU / 海光 DCU 安装说明
系统要求
源码编译
安装部署
如何卸载
昇腾 NPU 安装说明
系统要求
源码编译
安装部署
如何卸载
Graphcore IPU 安装说明
系统要求
源码编译
安装部署
如何卸载
Paddle Inference 部署示例
调试与优化
精度核验与问题追查
1 追查准备工作
2 追查具体步骤
性能分析
1 框架 Profile 工具
2 NVIDIA Nsight Systems 性能分析工具
混合精度推理
一、半精度浮点类型 FP16
二、NVIDIA GPU的FP16算力
三、使用 Paddle Inference 进行混合精度推理
四、混合精度推理性能优化
多线程并发推理
利用多线程来实现并发推理
使用示例
多线程并发推理测试
Benchmark
CPU 性能数据
测试条件
数据
GPU 性能数据
测试条件
数据
API
Python API 文档
create_predictor 方法
get_version 方法
Config 类
1. Config 类定义
2. 设置预测模型
3. 使用 CPU 进行预测
4. 使用 GPU 进行预测
5. 使用 XPU 进行预测
6. 使用 IPU 进行预测
7. 使用 ONNXRuntime 进行预测
8. 设置模型优化方法
9. 启用内存优化
10. 设置缓存路径
11. Profile 设置
12. Log 设置
13. 查看config配置
Predictor 类
PredictorPool 类
Tensor 类
枚举类型
DataType
PrecisionType
C++ API 文档
CreatePredictor 方法
GetVersion 方法
Config 类
1. Config 构造函数
2. 设置预测模型
3. 使用 CPU 进行预测
4. 使用 GPU 进行预测
5. 使用 XPU 进行预测
6. 使用 ONNXRuntime 进行预测
7. 使用 IPU 进行预测
8. 设置模型优化方法
9. 启用内存优化
10. 设置缓存路径
11. FC Padding
12. Profile 设置
13. Log 设置
14. 查看config配置
PaddlePassBuilder 类
Predictor 类
获取输入输出
运行和生成
PredictorPool 类
Tensor 类
枚举类型
DataType
PrecisionType
PlaceType
C API 文档
枚举类型
DataType
PrecisionType
PlaceType
动态数组结构体
OneDimArrayInt32
OneDimArraySize
OneDimArrayCstr
TwoDimArraySize
Config 方法
1. 创建 Config
2. 设置预测模型
3. 使用 CPU 进行预测
4. 使用 GPU 进行预测
5. 使用 XPU 进行预测
6. 使用 ONNXRuntime 进行推理
7. 设置模型优化方法
8. 启用内存优化
9. 设置缓存路径
10. FC Padding
11. Profile 设置
12. Log 设置
13. 查看config配置
Predictor 方法
创建 Predictor
获取输入输出
执行推理
Tensor 方法
GO API 文档
AnalysisConfig 方法
1. 创建 Config
2. 设置预测模型
3. 使用 CPU 进行预测
4. 使用 GPU 进行预测
5. 使用 ONNXRuntime 进行推理
6. 设置模型优化方法
7. 启用内存优化
8. Profile 设置
9. Log 设置
10. 查看config配置
Predictor 方法
创建 Predictor
输入输出与执行推理
Tensor 方法
枚举类型
DataType
Precision
常见问题与解答
环境与编译问题
运行报错
精度与性能
Paddle-Inference
»
开始阅览 Paddle Inference 文档
Edit on GitHub
开始阅览 Paddle Inference 文档
¶
使用指南
API
常见问题与解答
Read the Docs
v: latest
Versions
master
latest
release-v2.3
release-v2.2
release-v2.1
release-v2.0
release-v1.8
qs2
java_api
Downloads
html
epub
On Read the Docs
Project Home
Builds