PDF 文本页面表示 PDF 页面中的所有文本内容,根据这些文本的指定解析标志。 类 FSDK.TextPage 可用于检索 PDF 页面中文本的信息,例如单个字符、单个单词、 指定字符范围或矩形内的文本内容等。
此类对象还可用于构造其他文本相关类的对象,以便对文本内容进行更多操作 或从文本内容访问指定信息:
- 参见
- FSDK.TextSearch
-
FSDK.PageTextLinks
◆ constructor()
| FSDK::TextPage::constructor |
( |
page |
, |
|
|
flags |
|
|
) |
| |
◆ GetBaselineRotation()
| FSDK::TextPage::GetBaselineRotation |
( |
rect_index |
| ) |
|
◆ GetCharCount()
| FSDK::TextPage::GetCharCount |
( |
| ) |
|
◆ GetCharInfo()
| FSDK::TextPage::GetCharInfo |
( |
char_index |
| ) |
|
获取特定字符的字符信息。
- 参数
-
- 返回
- 由字符索引指定的字符的字符信息。
◆ GetCharRange()
| FSDK::TextPage::GetCharRange |
( |
rect |
| ) |
|
获取指定矩形区域内所有文本矩形的字符索引范围。
- 参数
-
- 返回
- 指定矩形区域内所有文本矩形的字符索引范围。
◆ GetChars()
| FSDK::TextPage::GetChars |
( |
start |
, |
|
|
count |
|
|
) |
| |
获取由起始索引和计数指定的范围内的所有字符。
- 参数
-
| [in] | start | 起始字符的索引,它是预期文本内容的第一个字符。 有效范围:从 0 到 (charcount -1)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。默认值:0。 |
| [in] | count | 要检索的字符数量。-1 表示获取从 start_index 到 PDF 页面末尾的所有字符。 特别地,当参数 count 大于 (charcount - start) 时, 将检索所有剩余字符(从 start_index 开始)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。默认值:-1。 |
- 返回
- 指定字符索引范围内的字符。
◆ GetIndexAtPos()
| FSDK::TextPage::GetIndexAtPos |
( |
x |
, |
|
|
y |
, |
|
|
tolerance |
|
|
) |
| |
获取页面上指定位置处或附近的字符索引, 位于 PDF 坐标系统 中。
- 参数
-
| [in] | x | x 位置的值,位于 PDF 坐标系统 中。 |
| [in] | y | y 位置的值,位于 PDF 坐标系统 中。 |
| [in] | tolerance | 字符命中检测的容差值,以点为单位。这不应为负数。 |
- 返回
- 位于或靠近点 (x,y) 的字符索引,从 0 开始。特别地,如果有 多个字符靠近点 (x, y),将返回最小的字符索引。 如果在该点处或附近没有字符,将返回 -1。
◆ GetText()
| FSDK::TextPage::GetText |
( |
flag |
| ) |
|
获取页面文本。
- 参数
-
- 返回
- 相关 PDF 页面的所有文本内容,按指定的文本顺序。
◆ GetTextInRect()
| FSDK::TextPage::GetTextInRect |
( |
rect |
| ) |
|
获取矩形内的文本,位于 PDF 坐标系统 中。
- 参数
-
- 返回
- 指定矩形内的文本字符串。
◆ GetTextRect()
| FSDK::TextPage::GetTextRect |
( |
rect_index |
| ) |
|
◆ GetTextRectArrayByRect()
| FSDK::TextPage::GetTextRectArrayByRect |
( |
rect |
| ) |
|
获取指定矩形区域内所有文本矩形的数组。
- 参数
-
- 返回
- 指定矩形内的文本矩形数组。
◆ GetTextRectCount()
| FSDK::TextPage::GetTextRectCount |
( |
start |
, |
|
|
count |
|
|
) |
| |
计算由起始索引和计数指定的范围内的文本矩形数量。
- 参数
-
| [in] | start | 字符索引范围中起始字符的索引。 有效范围:从 0 到 (charcount -1)。charcount 由函数 FSDK.TextPage.GetCharCount 返回。 |
| [in] | count | 字符索引范围中的字符数量。-1 表示获取从 start_index 到 PDF 页面末尾的所有字符。 |
- 返回
- 指定字符索引范围内的文本矩形数量。-1 表示错误。
◆ GetTextUnderAnnot()
| FSDK::TextPage::GetTextUnderAnnot |
( |
annot |
| ) |
|
获取与指定注释相交的页面文本。
如果整个字符或字符的大部分与注释相交, 则当前函数将检索此字符。
- 参数
-
- 返回
- 与指定注释相交的文本。
◆ GetWordAtPos()
| FSDK::TextPage::GetWordAtPos |
( |
x |
, |
|
|
y |
, |
|
|
tolerance |
|
|
) |
| |
获取页面上指定位置处或附近的单词的字符范围, 位于 PDF 坐标系统 中。
目前,对于中文/日文/韩文,仅支持获取指定位置处或 附近的单个字符。
- 参数
-
| [in] | x | x 位置的值,位于 PDF 坐标系统 中。 |
| [in] | y | y 位置的值,位于 PDF 坐标系统 中。 |
| [in] | tolerance | 单词命中检测的容差值,以点为单位。这不应为负数。 |
- 返回
- 表示预期单词的字符范围。此范围对象中最多有一个有效的范围段。 如果返回的范围对象为空,表示未找到此类单词。
◆ IsEmpty()
| FSDK::TextPage::IsEmpty |
( |
| ) |
|
检查当前对象是否为空。
当当前对象为空时,表示当前对象无用。
- 返回
- true 表示当前对象为空,而 false 表示不为空。
◆ e_ParseTextNormal
| FSDK::TextPage::e_ParseTextNormal |
|
static |
用于文本页面的解析标志枚举。
此枚举的值可以单独使用或组合使用。根据字符在 PDF 页面中的位置对其进行规范化来解析 PDF 页面的文本内容。
◆ e_TextStreamOrder
| FSDK::TextPage::e_TextStreamOrder |
获取 PDF 页面文本内容时使用的文本顺序标志枚举。
此枚举的值应单独使用。如果设置此项,表示按流顺序获取 PDF 页面的文本内容。