Foxit PDF SDK
foxit.addon.ocr.OCR类 参考
类 foxit.addon.ocr.OCR 继承关系图:
foxit.common.Base

Public 类型

enum  OCRConvertFormat {
  OCRConvertFormat.e_OCRConvertFormatDOCX = 0, OCRConvertFormat.e_OCRConvertFormatDOC = 1, OCRConvertFormat.e_OCRConvertFormatRTF = 2, OCRConvertFormat.e_OCRConvertFormatXLSX = 3,
  OCRConvertFormat.e_OCRConvertFormatXLS = 4, OCRConvertFormat.e_OCRConvertFormatPPTX = 5, OCRConvertFormat.e_OCRConvertFormatHTML = 6
}
 用于OCR转换的格式枚举。 更多...
 

Public 成员函数

 OCR ()
 构造函数。
 
 OCR (OCR other)
 带另一个OCR对象的构造函数。 更多...
 
OCRSuspectInfoArray GetOCRSuspectsInfo (PDFDoc ocred_pdf_doc)
 获取OCR可疑信息。 更多...
 
bool IsEmpty ()
 检查当前对象是否为空。 更多...
 
void OCRConvertTo (OCR.OCRConvertFormat format, string src_pdf_path, string password, string saved_file_path, Range page_range, bool is_retain_flowing_text, OCRProgressCallback callback)
 对PDF文档进行OCR并将其转换为指定格式的文档。 更多...
 
void OCRConvertTo (OCR.OCRConvertFormat format, string src_pdf_path, string password, string saved_file_path, Range page_range, bool is_retain_flowing_text, OCRConfig config, OCRProgressCallback callback)
 对PDF文档进行OCR并将其转换为指定格式的文档。 更多...
 
void OCRPDFDocument (PDFDoc pdf_doc, bool is_editable, OCRProgressCallback callback)
 对PDF文档的每个页面进行OCR。 更多...
 
void OCRPDFDocument (PDFDoc pdf_doc, bool is_editable, OCRConfig config, OCRProgressCallback callback)
 对PDF文档的每个页面进行OCR。 更多...
 
void OCRPDFDocuments (OCRSettingDataArray settingdata_array, OCRProgressCallback callback)
 对多个PDF文档的多个页面进行OCR。 更多...
 
void OCRPDFPage (PDFPage pdf_page, bool is_editable, OCRProgressCallback callback)
 对PDF页面进行OCR。 更多...
 
void OCRPDFPage (PDFPage pdf_page, bool is_editable, OCRConfig config, OCRProgressCallback callback)
 对PDF页面进行OCR。 更多...
 

详细描述

此类用于对PDF页面或PDF文档进行OCR。 请确保在使用此类之前已初始化OCR引擎。

参见
OCREngine

成员枚举类型说明

◆ OCRConvertFormat

用于OCR转换的格式枚举。

此枚举的值应单独使用。

枚举值
e_OCRConvertFormatDOCX 

OCR转换格式:DOCX。

e_OCRConvertFormatDOC 

OCR转换格式:DOC。

e_OCRConvertFormatRTF 

OCR转换格式:RTF。

e_OCRConvertFormatXLSX 

OCR转换格式:XLSX。

e_OCRConvertFormatXLS 

OCR转换格式:XLS。

e_OCRConvertFormatPPTX 

OCR转换格式:PPTX。

e_OCRConvertFormatHTML 

OCR转换格式:HTML。

构造及析构函数说明

◆ OCR()

foxit.addon.ocr.OCR.OCR ( OCR  other)
inline

带另一个OCR对象的构造函数。

参数
[in]other另一个OCR对象。

成员函数说明

◆ GetOCRSuspectsInfo()

OCRSuspectInfoArray foxit.addon.ocr.OCR.GetOCRSuspectsInfo ( PDFDoc  ocred_pdf_doc)
inline

获取OCR可疑信息。

参数 ocred_pdf_doc 是应该已经进行过OCR的有效PDF文档。

参数
[in]ocred_pdf_doc有效的PDF文档对象。
返回
OCRSuspectInfo 对象数组,如果其值为空,则表示文档OCR没有可疑信息。

◆ IsEmpty()

bool foxit.addon.ocr.OCR.IsEmpty ( )
inline

检查当前对象是否为空。

当当前对象为空时,意味着当前对象无用。

返回
true 表示当前对象为空,而 false 表示不为空。

◆ OCRConvertTo() [1/2]

void foxit.addon.ocr.OCR.OCRConvertTo ( OCR.OCRConvertFormat  format,
string  src_pdf_path,
string  password,
string  saved_file_path,
Range  page_range,
bool  is_retain_flowing_text,
OCRProgressCallback  callback 
)
inline

对PDF文档进行OCR并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatDOCX 开始的值, 这应该是这些值中的一个。
[in]src_pdf_path源PDF文件路径。这不应该是空字符串。
[in]password源PDF文件的密码。如果PDF文件未加密,这应该是空字符串。
[in]saved_file_path要保存的文件路径。这不应该是空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换PDF文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流动文本,文本可能被重新格式化, 分页符不能保证被保留。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatRTF , foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatDOC , foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatDOCX
默认值:true
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRConvertTo() [2/2]

void foxit.addon.ocr.OCR.OCRConvertTo ( OCR.OCRConvertFormat  format,
string  src_pdf_path,
string  password,
string  saved_file_path,
Range  page_range,
bool  is_retain_flowing_text,
OCRConfig  config,
OCRProgressCallback  callback 
)
inline

对PDF文档进行OCR并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatDOCX 开始的值, 这应该是这些值中的一个。
[in]src_pdf_path源PDF文件路径。这不应该是空字符串。
[in]password源PDF文件的密码。如果PDF文件未加密,这应该是空字符串。
[in]saved_file_path要保存的文件路径。这不应该是空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换PDF文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流动文本,文本可能被重新格式化, 分页符不能保证被保留。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatRTF , foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatDOC , foxit.addon.ocr.OCR.OCRConvertFormat.e_OCRConvertFormatDOCX
默认值:true
[in]configOCRConfig 对象。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocument() [1/2]

void foxit.addon.ocr.OCR.OCRPDFDocument ( PDFDoc  pdf_doc,
bool  is_editable,
OCRProgressCallback  callback 
)
inline

对PDF文档的每个页面进行OCR。

此函数成功后,PDF页面内容可能会改变。最好在使用这些页面之前 解析或重新解析输入PDF文档中的PDF页面。

参数
[in]pdf_doc有效的PDF文档对象。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocument() [2/2]

void foxit.addon.ocr.OCR.OCRPDFDocument ( PDFDoc  pdf_doc,
bool  is_editable,
OCRConfig  config,
OCRProgressCallback  callback 
)
inline

对PDF文档的每个页面进行OCR。

此函数成功后,PDF页面内容可能会改变。最好在使用这些页面之前 解析或重新解析输入PDF文档中的PDF页面。

参数
[in]pdf_doc有效的PDF文档对象。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]configOCRConfig
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocuments()

void foxit.addon.ocr.OCR.OCRPDFDocuments ( OCRSettingDataArray  settingdata_array,
OCRProgressCallback  callback 
)
inline

对多个PDF文档的多个页面进行OCR。

此函数可用于批量处理多个文档或页面。 用户可以通过 OCRSettingDataArray 设置文档和页面范围。 当处理大量文档或页面时,此函数的时间性能将比多次调用 OCR.OCRPDFDocument OCR.OCRPDFPage 更好。成功执行后,页面内容可能会改变, 最好在使用这些页面之前解析或重新解析PDF页面。

参数
[in]settingdata_arrayOCRSettingData 对象数组,如果 OCRSettingData 对象的 参数 page_range 为空,则表示对PDF文档的每一页进行OCR。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFPage() [1/2]

void foxit.addon.ocr.OCR.OCRPDFPage ( PDFPage  pdf_page,
bool  is_editable,
OCRProgressCallback  callback 
)
inline

对PDF页面进行OCR。

此函数成功后,PDF页面内容可能会改变, 建议重新解析输入的PDF页面。

参数
[in]pdf_page有效的PDF页面对象。此PDF页面应已被解析。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFPage() [2/2]

void foxit.addon.ocr.OCR.OCRPDFPage ( PDFPage  pdf_page,
bool  is_editable,
OCRConfig  config,
OCRProgressCallback  callback 
)
inline

对PDF页面进行OCR。

此函数成功后,PDF页面内容可能会改变, 建议重新解析输入的PDF页面。

参数
[in]pdf_page有效的PDF页面对象。此PDF页面应已被解析。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]configOCRConfig
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 null 表示不接收进度通知。
返回
无返回值。