Foxit PDF SDK
FSDK::TextPage类 参考

Public 成员函数

 constructor (page, flags)
 从已解析的 PDF 页面构造的构造函数。 更多...
 
 GetBaselineRotation (rect_index)
 获取指定矩形的文本趋势(作为旋转)。 更多...
 
 GetCharCount ()
 获取所有字符的数量。 更多...
 
 GetCharInfo (char_index)
 获取特定字符的字符信息。 更多...
 
 GetCharRange (rect)
 获取指定矩形区域内所有文本矩形的字符索引范围。 更多...
 
 GetChars (start, count)
 获取由起始索引和计数指定的范围内的所有字符。 更多...
 
 GetIndexAtPos (x, y, tolerance)
 获取页面上指定位置处或附近的字符索引, 位于 PDF 坐标系统 中。 更多...
 
 GetText (flag)
 获取页面文本。 更多...
 
 GetTextInRect (rect)
 获取矩形内的文本,位于 PDF 坐标系统 中。 更多...
 
 GetTextRect (rect_index)
 按索引获取文本矩形。 更多...
 
 GetTextRectArrayByRect (rect)
 获取指定矩形区域内所有文本矩形的数组。 更多...
 
 GetTextRectCount (start, count)
 计算由起始索引和计数指定的范围内的文本矩形数量。 更多...
 
 GetTextUnderAnnot (annot)
 获取与指定注释相交的页面文本。 更多...
 
 GetWordAtPos (x, y, tolerance)
 获取页面上指定位置处或附近的单词的字符范围, 位于 PDF 坐标系统 中。 更多...
 
 IsEmpty ()
 检查当前对象是否为空。 更多...
 

Public 属性

 e_TextDisplayOrder
 如果设置此项,表示按显示顺序获取 PDF 页面的文本内容。
 
 e_TextStreamOrder
 获取 PDF 页面文本内容时使用的文本顺序标志枚举。 更多...
 

静态 Public 属性

static e_ParseTextNormal
 用于文本页面的解析标志枚举。 更多...
 
static e_ParseTextOutputHyphen
 解析 PDF 页面的文本内容,在换行时输出连字符。
 
static e_ParseTextUseStreamOrder
 按流顺序解析 PDF 页面的文本内容。
 

详细描述

PDF 文本页面表示 PDF 页面中的所有文本内容,根据这些文本的指定解析标志。 类 FSDK.TextPage 可用于检索 PDF 页面中文本的信息,例如单个字符、单个单词、 指定字符范围或矩形内的文本内容等。
此类对象还可用于构造其他文本相关类的对象,以便对文本内容进行更多操作 或从文本内容访问指定信息:

  • 要在 PDF 页面的文本内容中搜索文本,请使用文本页面对象构造 FSDK.TextSearch 对象。
  • 要访问用作超文本链接的文本,请使用文本页面对象构造 FSDK.PageTextLinks 对象。
参见
FSDK.TextSearch
FSDK.PageTextLinks

成员函数说明

◆ constructor()

FSDK::TextPage::constructor ( page  ,
flags   
)

从已解析的 PDF 页面构造的构造函数。

参数
[in]page有效的 PDF 页面对象。此页面应已被解析。
[in]flags文本页面的解析标志。请参考从 FSDK.TextPage.e_ParseTextNormal 开始的值,这可以是这些值之一或组合。

◆ GetBaselineRotation()

FSDK::TextPage::GetBaselineRotation ( rect_index  )

获取指定矩形的文本趋势(作为旋转)。

参数
[in]rect_index要检索的矩形的索引。 有效范围:从 0 到 (count -1)。count 由函数 FSDK.TextPage.GetTextRectCount 返回。
返回
文本趋势,作为旋转值。请参考从 FSDK.e_Rotation0 开始的值, 这将是这些值之一。

◆ GetCharCount()

FSDK::TextPage::GetCharCount ( )

获取所有字符的数量。

返回
字符数量。

◆ GetCharInfo()

FSDK::TextPage::GetCharInfo ( char_index  )

获取特定字符的字符信息。

参数
[in]char_index字符的从零开始的索引。 范围:从 0 到 (charcount - 1)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。
返回
由字符索引指定的字符的字符信息。

◆ GetCharRange()

FSDK::TextPage::GetCharRange ( rect  )

获取指定矩形区域内所有文本矩形的字符索引范围。

参数
[in]rect矩形区域,位于 PDF 坐标系统 中。
返回
指定矩形区域内所有文本矩形的字符索引范围。

◆ GetChars()

FSDK::TextPage::GetChars ( start  ,
count   
)

获取由起始索引和计数指定的范围内的所有字符。

参数
[in]start起始字符的索引,它是预期文本内容的第一个字符。 有效范围:从 0 到 (charcount -1)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。默认值:0。
[in]count要检索的字符数量。-1 表示获取从 start_index 到 PDF 页面末尾的所有字符。 特别地,当参数 count 大于 (charcount - start) 时, 将检索所有剩余字符(从 start_index 开始)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。默认值:-1。
返回
指定字符索引范围内的字符。

◆ GetIndexAtPos()

FSDK::TextPage::GetIndexAtPos ( ,
,
tolerance   
)

获取页面上指定位置处或附近的字符索引, 位于 PDF 坐标系统 中。

参数
[in]xx 位置的值,位于 PDF 坐标系统 中。
[in]yy 位置的值,位于 PDF 坐标系统 中。
[in]tolerance字符命中检测的容差值,以点为单位。这不应为负数。
返回
位于或靠近点 (x,y) 的字符索引,从 0 开始。特别地,如果有 多个字符靠近点 (x, y),将返回最小的字符索引。 如果在该点处或附近没有字符,将返回 -1。

◆ GetText()

FSDK::TextPage::GetText ( flag  )

获取页面文本。

参数
[in]flag文本顺序标志,用于决定如何获取相关 PDF 页面的文本内容。请参考从 FSDK.TextPage.e_TextStreamOrder 开始的值,这应该是这些值之一。
返回
相关 PDF 页面的所有文本内容,按指定的文本顺序。

◆ GetTextInRect()

FSDK::TextPage::GetTextInRect ( rect  )

获取矩形内的文本,位于 PDF 坐标系统 中。

参数
[in]rect矩形区域,位于 PDF 坐标系统 中。
返回
指定矩形内的文本字符串。

◆ GetTextRect()

FSDK::TextPage::GetTextRect ( rect_index  )

按索引获取文本矩形。

参数
[in]rect_index要检索的矩形的索引。 有效范围:从 0 到 (count -1)。count 由函数 FSDK.TextPage.GetTextRectCount 返回。
返回
指定的文本矩形。

◆ GetTextRectArrayByRect()

FSDK::TextPage::GetTextRectArrayByRect ( rect  )

获取指定矩形区域内所有文本矩形的数组。

参数
[in]rect矩形区域,位于 PDF 坐标系统 中。
返回
指定矩形内的文本矩形数组。

◆ GetTextRectCount()

FSDK::TextPage::GetTextRectCount ( start  ,
count   
)

计算由起始索引和计数指定的范围内的文本矩形数量。

参数
[in]start字符索引范围中起始字符的索引。 有效范围:从 0 到 (charcount -1)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。
[in]count字符索引范围中的字符数量。-1 表示获取从 start_index 到 PDF 页面末尾的所有字符。
返回
指定字符索引范围内的文本矩形数量。-1 表示错误。

◆ GetTextUnderAnnot()

FSDK::TextPage::GetTextUnderAnnot ( annot  )

获取与指定注释相交的页面文本。

如果整个字符或字符的大部分与注释相交, 则当前函数将检索此字符。

参数
[in]annot注释。将检索与此注释相交的页面文本。 目前,仅支持文本标记注释 (高亮/下划线/删除线/波浪线注释);对于其他类型的注释, 此函数将抛出异常 FSDK.e_ErrUnsupported
返回
与指定注释相交的文本。

◆ GetWordAtPos()

FSDK::TextPage::GetWordAtPos ( ,
,
tolerance   
)

获取页面上指定位置处或附近的单词的字符范围, 位于 PDF 坐标系统 中。

目前,对于中文/日文/韩文,仅支持获取指定位置处或 附近的单个字符。

参数
[in]xx 位置的值,位于 PDF 坐标系统 中。
[in]yy 位置的值,位于 PDF 坐标系统 中。
[in]tolerance单词命中检测的容差值,以点为单位。这不应为负数。
返回
表示预期单词的字符范围。此范围对象中最多有一个有效的范围段。 如果返回的范围对象为空,表示未找到此类单词。

◆ IsEmpty()

FSDK::TextPage::IsEmpty ( )

检查当前对象是否为空。

当当前对象为空时,表示当前对象无用。

返回
true 表示当前对象为空,而 false 表示不为空。

类成员变量说明

◆ e_ParseTextNormal

FSDK::TextPage::e_ParseTextNormal
static

用于文本页面的解析标志枚举。

此枚举的值可以单独使用或组合使用。

根据字符在 PDF 页面中的位置对其进行规范化来解析 PDF 页面的文本内容。

◆ e_TextStreamOrder

FSDK::TextPage::e_TextStreamOrder

获取 PDF 页面文本内容时使用的文本顺序标志枚举。

此枚举的值应单独使用。

如果设置此项,表示按流顺序获取 PDF 页面的文本内容。