Foxit PDF SDK
foxit::addon::ocr::OCR类 参考
类 foxit::addon::ocr::OCR 继承关系图:
foxit::Base

Public 类型

enum  OCRConvertFormat {
  e_OCRConvertFormatDOCX = 0, e_OCRConvertFormatDOC = 1, e_OCRConvertFormatRTF = 2, e_OCRConvertFormatXLSX = 3,
  e_OCRConvertFormatXLS = 4, e_OCRConvertFormatPPTX = 5, e_OCRConvertFormatHTML = 6
}
 用于OCR转换的格式枚举。 更多...
 

Public 成员函数

 OCR ()
 构造函数。
 
 OCR (const OCR &other)
 带另一个OCR对象的构造函数。 更多...
 
 ~OCR ()
 析构函数。
 
OCRSuspectInfoArray GetOCRSuspectsInfo (pdf::PDFDoc ocred_pdf_doc)
 获取OCR可疑信息。 更多...
 
bool IsEmpty () const
 检查当前对象是否为空。 更多...
 
void OCRConvertTo (OCRConvertFormat format, const wchar_t *src_pdf_path, const wchar_t *password, const wchar_t *saved_file_path, common::Range page_range, bool is_retain_flowing_text, OCRProgressCallback *callback=0)
 对PDF文档进行OCR并将其转换为指定格式的文档。 更多...
 
void OCRConvertTo (OCRConvertFormat format, const wchar_t *src_pdf_path, const wchar_t *password, const wchar_t *saved_file_path, common::Range page_range, bool is_retain_flowing_text, const OCRConfig &config, OCRProgressCallback *callback=0)
 对PDF文档进行OCR并将其转换为指定格式的文档。 更多...
 
void OCRPDFDocument (pdf::PDFDoc pdf_doc, bool is_editable, OCRProgressCallback *callback=0)
 对PDF文档的每个页面进行OCR。 更多...
 
void OCRPDFDocument (pdf::PDFDoc pdf_doc, bool is_editable, const OCRConfig &config, OCRProgressCallback *callback=0)
 对PDF文档的每个页面进行OCR。 更多...
 
void OCRPDFDocuments (const ocr::OCRSettingDataArray &settingdata_array, OCRProgressCallback *callback=0)
 对多个PDF文档的多个页面进行OCR。 更多...
 
void OCRPDFPage (pdf::PDFPage pdf_page, bool is_editable, OCRProgressCallback *callback=0)
 对PDF页面进行OCR。 更多...
 
void OCRPDFPage (pdf::PDFPage pdf_page, bool is_editable, const OCRConfig &config, OCRProgressCallback *callback=0)
 对PDF页面进行OCR。 更多...
 
bool operator != (const OCR &other) const
 不等于操作符。 更多...
 
OCRoperator= (const OCR &other)
 赋值操作符。 更多...
 
bool operator== (const OCR &other) const
 等于操作符。 更多...
 
- Public 成员函数 继承自 foxit::Base
FS_HANDLE Handle () const
 获取当前对象的句柄。 更多...
 

详细描述

此类用于对PDF页面或PDF文档进行OCR。 请确保在使用此类之前已初始化OCR引擎。

参见
OCREngine

成员枚举类型说明

◆ OCRConvertFormat

用于OCR转换的格式枚举。

此枚举的值应单独使用。

枚举值
e_OCRConvertFormatDOCX 

OCR转换格式:DOCX。

e_OCRConvertFormatDOC 

OCR转换格式:DOC。

e_OCRConvertFormatRTF 

OCR转换格式:RTF。

e_OCRConvertFormatXLSX 

OCR转换格式:XLSX。

e_OCRConvertFormatXLS 

OCR转换格式:XLS。

e_OCRConvertFormatPPTX 

OCR转换格式:PPTX。

e_OCRConvertFormatHTML 

OCR转换格式:HTML。

构造及析构函数说明

◆ OCR()

foxit::addon::ocr::OCR::OCR ( const OCR other)

带另一个OCR对象的构造函数。

参数
[in]other另一个OCR对象。

成员函数说明

◆ GetOCRSuspectsInfo()

OCRSuspectInfoArray foxit::addon::ocr::OCR::GetOCRSuspectsInfo ( pdf::PDFDoc  ocred_pdf_doc)

获取OCR可疑信息。

参数 ocred_pdf_doc 是应该已经进行过OCR的有效PDF文档。

参数
[in]ocred_pdf_doc有效的PDF文档对象。
返回
OCRSuspectInfo 对象数组,如果其值为空,则表示文档OCR没有可疑信息。

◆ IsEmpty()

bool foxit::addon::ocr::OCR::IsEmpty ( ) const

检查当前对象是否为空。

当当前对象为空时,意味着当前对象无用。

返回
true 表示当前对象为空,而 false 表示不为空。

◆ OCRConvertTo() [1/2]

void foxit::addon::ocr::OCR::OCRConvertTo ( OCRConvertFormat  format,
const wchar_t *  src_pdf_path,
const wchar_t *  password,
const wchar_t *  saved_file_path,
common::Range  page_range,
bool  is_retain_flowing_text,
OCRProgressCallback callback = 0 
)

对PDF文档进行OCR并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 OCR::e_OCRConvertFormatDOCX 开始的值, 这应该是这些值中的一个。
[in]src_pdf_path源PDF文件路径。这不应该是空字符串。
[in]password源PDF文件的密码。如果PDF文件未加密,这应该是空字符串。
[in]saved_file_path要保存的文件路径。这不应该是空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换PDF文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流动文本,文本可能被重新格式化, 分页符不能保证被保留。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
OCR::e_OCRConvertFormatRTF, OCR::e_OCRConvertFormatDOC, OCR::e_OCRConvertFormatDOCX
默认值:true
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ OCRConvertTo() [2/2]

void foxit::addon::ocr::OCR::OCRConvertTo ( OCRConvertFormat  format,
const wchar_t *  src_pdf_path,
const wchar_t *  password,
const wchar_t *  saved_file_path,
common::Range  page_range,
bool  is_retain_flowing_text,
const OCRConfig config,
OCRProgressCallback callback = 0 
)

对PDF文档进行OCR并将其转换为指定格式的文档。

参数
[in]format要转换的文档格式。请参考从 OCR::e_OCRConvertFormatDOCX 开始的值, 这应该是这些值中的一个。
[in]src_pdf_path源PDF文件路径。这不应该是空字符串。
[in]password源PDF文件的密码。如果PDF文件未加密,这应该是空字符串。
[in]saved_file_path要保存的文件路径。这不应该是空字符串。
[in]page_range需要转换的页面范围。如果这是空范围,则表示转换PDF文档的每一页。
[in]is_retain_flowing_texttrue 表示生成的文档将保留流动文本,文本可能被重新格式化, 分页符不能保证被保留。false 表示生成的文档将保留原始页面布局。
此参数仅对以下格式类型有用:
OCR::e_OCRConvertFormatRTF, OCR::e_OCRConvertFormatDOC, OCR::e_OCRConvertFormatDOCX
默认值:true
[in]configOCRConfig 对象。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocument() [1/2]

void foxit::addon::ocr::OCR::OCRPDFDocument ( pdf::PDFDoc  pdf_doc,
bool  is_editable,
OCRProgressCallback callback = 0 
)

对PDF文档的每个页面进行OCR。

此函数成功后,PDF页面内容可能会改变。最好在使用这些页面之前 解析或重新解析输入PDF文档中的PDF页面。

参数
[in]pdf_doc有效的PDF文档对象。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocument() [2/2]

void foxit::addon::ocr::OCR::OCRPDFDocument ( pdf::PDFDoc  pdf_doc,
bool  is_editable,
const OCRConfig config,
OCRProgressCallback callback = 0 
)

对PDF文档的每个页面进行OCR。

此函数成功后,PDF页面内容可能会改变。最好在使用这些页面之前 解析或重新解析输入PDF文档中的PDF页面。

参数
[in]pdf_doc有效的PDF文档对象。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]configOCRConfig
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFDocuments()

void foxit::addon::ocr::OCR::OCRPDFDocuments ( const ocr::OCRSettingDataArray settingdata_array,
OCRProgressCallback callback = 0 
)

对多个PDF文档的多个页面进行OCR。

此函数可用于批量处理多个文档或页面。 用户可以通过 OCRSettingDataArray 设置文档和页面范围。 当处理大量文档或页面时,此函数的时间性能将比多次调用 OCR::OCRPDFDocumentOCR::OCRPDFPage 更好。成功执行后,页面内容可能会改变, 最好在使用这些页面之前解析或重新解析PDF页面。

参数
[in]settingdata_arrayOCRSettingData 对象数组,如果 OCRSettingData 对象的 参数 page_range 为空,则表示对PDF文档的每一页进行OCR。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFPage() [1/2]

void foxit::addon::ocr::OCR::OCRPDFPage ( pdf::PDFPage  pdf_page,
bool  is_editable,
OCRProgressCallback callback = 0 
)

对PDF页面进行OCR。

此函数成功后,PDF页面内容可能会改变, 建议重新解析输入的PDF页面。

参数
[in]pdf_page有效的PDF页面对象。此PDF页面应已被解析。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ OCRPDFPage() [2/2]

void foxit::addon::ocr::OCR::OCRPDFPage ( pdf::PDFPage  pdf_page,
bool  is_editable,
const OCRConfig config,
OCRProgressCallback callback = 0 
)

对PDF页面进行OCR。

此函数成功后,PDF页面内容可能会改变, 建议重新解析输入的PDF页面。

参数
[in]pdf_page有效的PDF页面对象。此PDF页面应已被解析。
[in]is_editabletrue 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
[in]configOCRConfig
[in]callback基于回调类 OCRProgressCallback 实现的自定义进度回调对象。 NULL 表示不接收进度通知。
返回
无返回值。

◆ operator !=()

bool foxit::addon::ocr::OCR::operator != ( const OCR other) const

不等于操作符。

参数
[in]other另一个OCR对象。此函数将检查当前对象是否不等于此对象。
返回
true 表示不相等,而 false 表示相等。

◆ operator=()

OCR& foxit::addon::ocr::OCR::operator= ( const OCR other)

赋值操作符。

参数
[in]other另一个OCR对象,其值将被分配给当前对象。
返回
对当前对象本身的引用。

◆ operator==()

bool foxit::addon::ocr::OCR::operator== ( const OCR other) const

等于操作符。

参数
[in]other另一个OCR对象。此函数将检查当前对象是否等于此对象。
返回
true 表示相等,而 false 表示不相等。