Foxit PDF SDK
FSDK::OCR类 参考

Public 成员函数

 constructor ()
 构造函数。
 
 GetOCRSuspectsInfo (ocred_pdf_doc)
 获取 OCR 可疑信息。 更多...
 
 IsEmpty ()
 检查当前对象是否为空。 更多...
 
 OCRConvertTo (format, src_pdf_path, password, saved_file_path, page_range, is_retain_flowing_text, callback)
 对 PDF 文档执行 OCR 并将其转换为指定格式的文档。 更多...
 
 OCRConvertTo (format, src_pdf_path, password, saved_file_path, page_range, is_retain_flowing_text, config, callback)
 对 PDF 文档执行 OCR 并将其转换为指定格式的文档。 更多...
 
 OCRPDFDocument (pdf_doc, is_editable, callback)
 对 PDF 文档的每一页执行 OCR。 更多...
 
 OCRPDFDocument (pdf_doc, is_editable, config, callback)
 对 PDF 文档的每一页执行 OCR。 更多...
 
 OCRPDFDocuments (settingdata_array, callback)
 对多个 PDF 文档的多个页面执行 OCR。 更多...
 
 OCRPDFPage (pdf_page, is_editable, callback)
 对 PDF 页面执行 OCR。 更多...
 
 OCRPDFPage (pdf_page, is_editable, config, callback)
 对 PDF 页面执行 OCR。 更多...
 

静态 Public 属性

static e_OCRConvertFormatDOC
 OCR 转换格式:DOC。
 
static e_OCRConvertFormatDOCX
 用于 OCR 转换的格式枚举。 更多...
 
static e_OCRConvertFormatHTML
 OCR 转换格式:HTML。
 
static e_OCRConvertFormatPPTX
 OCR 转换格式:PPTX。
 
static e_OCRConvertFormatRTF
 OCR 转换格式:RTF。
 
static e_OCRConvertFormatXLS
 OCR 转换格式:XLS。
 
static e_OCRConvertFormatXLSX
 OCR 转换格式:XLSX。
 

详细描述

此类用于对 PDF 页面或 PDF 文档执行 OCR。 在使用此类之前,请确保 OCR 引擎已经初始化。

参见
FSDK.OCREngine

成员函数说明

◆ GetOCRSuspectsInfo()

FSDK::OCR::GetOCRSuspectsInfo ( ocred_pdf_doc  )

获取 OCR 可疑信息。

参数 ocred_pdf_doc 是应已经进行过 OCR 的有效 PDF 文档。

参数
[in]ocred_pdf_doc有效的 PDF 文档对象。
返回
FSDK.OCRSuspectInfo 对象数组,如果其值为空,则表示文档 OCR 没有可疑信息。

◆ IsEmpty()

FSDK::OCR::IsEmpty ( )

检查当前对象是否为空。

当当前对象为空时,表示当前对象无用。

返回
true 表示当前对象为空,而 false 表示不为空。

◆ OCRConvertTo() [1/2]

FSDK::OCR::OCRConvertTo ( format  ,
src_pdf_path  ,
password  ,
saved_file_path  ,
page_range  ,
is_retain_flowing_text  ,
callback   
)

对 PDF 文档执行 OCR 并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 FSDK.OCR.e_OCRConvertFormatDOCX 开始的值, 应为这些值之一。
[in]src_pdf_path源 PDF 文件路径。此参数不应为空字符串。
[in]password源 PDF 文件的密码。如果 PDF 文件未加密,此参数应为空字符串。
[in]saved_file_path要保存的文件路径。此参数不应为空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换 PDF 文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流式文本,文本可能会重新格式化, 并且无法保证保留分页符。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
FSDK.OCR.e_OCRConvertFormatRTFFSDK.OCR.e_OCRConvertFormatDOCFSDK.OCR.e_OCRConvertFormatDOCX
默认值:true
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

◆ OCRConvertTo() [2/2]

FSDK::OCR::OCRConvertTo ( format  ,
src_pdf_path  ,
password  ,
saved_file_path  ,
page_range  ,
is_retain_flowing_text  ,
config  ,
callback   
)

对 PDF 文档执行 OCR 并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 FSDK.OCR.e_OCRConvertFormatDOCX 开始的值, 应为这些值之一。
[in]src_pdf_path源 PDF 文件路径。此参数不应为空字符串。
[in]password源 PDF 文件的密码。如果 PDF 文件未加密,此参数应为空字符串。
[in]saved_file_path要保存的文件路径。此参数不应为空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换 PDF 文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流式文本,文本可能会重新格式化, 并且无法保证保留分页符。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
FSDK.OCR.e_OCRConvertFormatRTFFSDK.OCR.e_OCRConvertFormatDOCFSDK.OCR.e_OCRConvertFormatDOCX
默认值:true
[in]configFSDK.OCRConfig 对象。
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

◆ OCRPDFDocument() [1/2]

FSDK::OCR::OCRPDFDocument ( pdf_doc  ,
is_editable  ,
callback   
)

对 PDF 文档的每一页执行 OCR。

此函数成功后,PDF 页面内容可能会改变。最好在使用这些页面之前, 解析或重新解析输入 PDF 文档中的 PDF 页面。

参数
[in]pdf_doc有效的 PDF 文档对象。
[in]is_editabletrue 表示 OCR 结果可编辑。 false 表示 OCR 结果只能搜索但不可编辑。
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

◆ OCRPDFDocument() [2/2]

FSDK::OCR::OCRPDFDocument ( pdf_doc  ,
is_editable  ,
config  ,
callback   
)

对 PDF 文档的每一页执行 OCR。

此函数成功后,PDF 页面内容可能会改变。最好在使用这些页面之前, 解析或重新解析输入 PDF 文档中的 PDF 页面。

参数
[in]pdf_doc有效的 PDF 文档对象。
[in]is_editabletrue 表示 OCR 结果可编辑。 false 表示 OCR 结果只能搜索但不可编辑。
[in]configFSDK.OCRConfig 对象。
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

◆ OCRPDFDocuments()

FSDK::OCR::OCRPDFDocuments ( settingdata_array  ,
callback   
)

对多个 PDF 文档的多个页面执行 OCR。

此函数可用于批量处理多个文档或页面。 用户可以通过 FSDK.OCRSettingDataArray 设置文档和页面范围。 在处理大量文档或页面时,此函数的时间性能将比多次调用 FSDK.OCRPDFDocumentFSDK.OCR.OCRPDFPage 更好。成功执行后,页面内容可能会改变,最好在使用这些 页面之前解析或重新解析 PDF 页面。目前,此函数只能用于 Windows。

参数
[in]settingdata_arrayFSDK.OCRSettingData 对象数组,如果 FSDK.OCRSettingData 对象的参数 page_range 为空,则表示对 PDF 文档的每一页执行 OCR。
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

◆ OCRPDFPage() [1/2]

FSDK::OCR::OCRPDFPage ( pdf_page  ,
is_editable  ,
callback   
)

对 PDF 页面执行 OCR。

此函数成功后,PDF 页面内容可能会改变, 建议重新解析输入的 PDF 页面。

参数
[in]pdf_page有效的 PDF 页面对象。此 PDF 页面应已被解析。
[in]is_editabletrue 表示 OCR 结果可编辑。 false 表示 OCR 结果只能搜索但不可编辑。
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

◆ OCRPDFPage() [2/2]

FSDK::OCR::OCRPDFPage ( pdf_page  ,
is_editable  ,
config  ,
callback   
)

对 PDF 页面执行 OCR。

此函数成功后,PDF 页面内容可能会改变, 建议重新解析输入的 PDF 页面。

参数
[in]pdf_page有效的 PDF 页面对象。此 PDF 页面应已被解析。
[in]is_editabletrue 表示 OCR 结果可编辑。 false 表示 OCR 结果只能搜索但不可编辑。
[in]configFSDK.OCRConfig 对象。
[in]callback基于回调类 FSDK.OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无。

类成员变量说明

◆ e_OCRConvertFormatDOCX

FSDK::OCR::e_OCRConvertFormatDOCX
static

用于 OCR 转换的格式枚举。

此枚举的值应单独使用。

OCR 转换格式:DOCX。