1 #if (defined(_WIN32) || defined(_WIN64)) || defined(__linux__) 142 static ErrorCode Initialize(
const wchar_t* ocr_resource_path,
bool is_shared_cpu_cores_mode);
164 static void SetLogFile(
const char* log_file_path);
177 static void SetLogFile(
const wchar_t* log_file_path);
509 typedef enum _OCRConvertFormat {
511 e_OCRConvertFormatDOCX = 0,
513 e_OCRConvertFormatDOC = 1,
515 e_OCRConvertFormatRTF = 2,
517 e_OCRConvertFormatXLSX = 3,
519 e_OCRConvertFormatXLS = 4,
521 e_OCRConvertFormatPPTX = 5,
523 e_OCRConvertFormatHTML = 6
550 OCR& operator = (
const OCR& other);
566 bool operator != (
const OCR& other)
const;
575 bool IsEmpty()
const;
662 void OCRConvertTo(OCRConvertFormat format,
const wchar_t* src_pdf_path,
const wchar_t* password,
const wchar_t* saved_file_path,
common::Range page_range,
bool is_retain_flowing_text,
OCRProgressCallback* callback =
NULL);
684 void OCRConvertTo(OCRConvertFormat format,
const wchar_t* src_pdf_path,
const wchar_t* password,
const wchar_t* saved_file_path,
common::Range page_range,
bool is_retain_flowing_text,
const OCRConfig& config,
OCRProgressCallback* callback =
NULL);
686 #if (defined(_WIN32) || defined(_WIN64)) || defined(__linux__) 724 #if (defined(_WIN32) || defined(_WIN64)) || defined(__linux__)
bool is_detect_pictures
决定是否检测图片。true 表示在分析过程中将检测图片。 false 表示不检测图片,PDF文档图像上的图片内容可能被解释为文本。 如果您只想从图像中提取文本,可以将此选项设置为 false。 默认值:...
Definition: fs_ocr.h:320
Definition: fs_common.h:1364
CFX_Object Object
对象类型。
Definition: fs_basictypes.h:221
bool is_editable
决定OCR结果是否可编辑。true 表示OCR结果是可编辑的。 false 表示OCR结果只能搜索但不能编辑。
Definition: fs_ocr.h:468
static void SetLogFile(const char *log_file_path)
为OCR引擎设置日志文件。
OCRSettingData(pdf::PDFDoc pdf_doc, const common::Range &page_range, bool is_editable, const OCRConfig &ocr_config)
带参数的构造函数。
Definition: fs_ocr.h:406
OCRConfig(bool is_detect_pictures, bool is_remove_noise, bool is_correct_skew, bool is_enable_text_extraction_mode, bool is_sequentially_process, bool is_auto_overwrite_resolution, int resolution_to_overwrite, int confidence)
带参数的构造函数。
Definition: fs_ocr.h:241
virtual bool NeedToCancelNow(const wchar_t *info)=0
用于取消当前OCR进度的回调函数。
宽字符串类
Definition: fx_string.h:1457
Definition: fs_pdfdoc.h:771
OCRConfig()
构造函数。
Definition: fs_ocr.h:219
virtual void ProgressNotify(int current_rate)=0
用于向用户更新当前进度状态数据的回调函数,以便用户更新进度条。
void Set(pdf::PDFDoc pdf_doc, const common::Range &page_range, bool is_editable, const OCRConfig &ocr_config)
设置值。
Definition: fs_ocr.h:423
static ErrorCode Initialize(const wchar_t *ocr_resource_path)
初始化OCR引擎。
OCRSettingData()
构造函数。
Definition: fs_ocr.h:396
WString suspect_words
OCR识别后的可疑词汇。
Definition: fs_ocr.h:490
int resolution_to_overwrite
用于覆盖 PDF 文档图像分辨率的分辨率值(DPI)。
Definition: fs_ocr.h:378
bool operator==(const char *str1, const CFX_ByteString &str2)
检查两个字节字符串是否相等。
Definition: fs_basictypes.h:128
OCRSettingData & operator=(const OCRSettingData &data)
赋值操作符。
Definition: fs_ocr.h:437
virtual bool IsImageIgnored(foxit::pdf::graphics::ImageObject *image_object)=0
用于确定是否应从OCR文本识别中排除图像对象的回调函数。
bool is_sequentially_process
决定OCR引擎是否在一个进程上顺序处理页面。
Definition: fs_ocr.h:362
ErrorCode
错误代码的枚举。
Definition: fs_basictypes.h:237
bool is_auto_overwrite_resolution
决定是否自动设置分辨率。
Definition: fs_ocr.h:370
OCRConfig & operator=(const OCRConfig &other)
赋值操作符。
Definition: fs_ocr.h:286
foxit::RectF words_rect
在 PDF坐标系统 中可疑词汇的边界矩形
Definition: fs_ocr.h:487
pdf::PDFDoc pdf_doc
需要进行OCR的有效PDF文档。
Definition: fs_ocr.h:459
Definition: fs_pdfpage.h:421
void * FS_HANDLE
句柄类型。
Definition: fs_basictypes.h:214
int page_index
页面索引。
Definition: fs_ocr.h:484
bool operator!=(const OCRSettingData &data)
不等于操作符。
Definition: fs_ocr.h:452
Definition: fs_basictypes.h:449
bool operator!=(const OCRConfig &other)
不等于操作符。
Definition: fs_ocr.h:305
static void SetLanguages(const wchar_t *languages)
设置要包含在语言数据库中进行OCR识别的语言名称。
bool is_correct_skew
决定是否启用偏斜校正。true 表示启用偏斜校正。 false 表示不启用偏斜校正。 默认值:true。
Definition: fs_ocr.h:338
Foxit命名空间。
Definition: fs_taggedpdf.h:27
int confidence
用于判断识别文本是否可靠的置信度阈值。
Definition: fs_ocr.h:387
bool is_remove_noise
决定是否去除PDF图像的噪声。如果PDF图像包含一些噪声,比如随机的黑点或斑点,这可能很有用。 如果图像上字母的线条很细,应将此选项设置为 false,否则会影响文本的识别。 true 表示图像中的噪声...
Definition: fs_ocr.h:329
#define NULL
空指针值。
Definition: fx_system.h:792
bool is_enable_text_extraction_mode
决定是否启用文本提取模式。
Definition: fs_ocr.h:351
static void SetOCRCallback(OCRCallback *callback)
设置用于取消OCR进度的回调对象。
void Set(bool is_detect_pictures, bool is_remove_noise, bool is_correct_skew, bool is_enable_text_extraction_mode, bool is_sequentially_process, bool is_auto_overwrite_resolution, int resolution_to_overwrite, int confidence)
设置值。
Definition: fs_ocr.h:267
common::Range page_range
需要进行OCR的页面范围。
Definition: fs_ocr.h:462
Definition: fs_pdfgraphicsobject.h:1102
OCRConfig ocr_config
OCRConfig 对象。
Definition: fs_ocr.h:471
static void Release()
释放OCR引擎。
Definition: fx_coordinates.h:771