|
|
|
|
- Reglas de conversión
- Etiquetas admitidas
- Gestión del conjunto de caracteres
Convierte una cadena o buffer HTML en texto. Las siguientes operaciones se realizan durante la conversión: - Eliminación de etiquetas HTML,
- Conversión de caracteres especiales HTML,
- Conversión de caracteres CR (Retorno de carro) a espacios,
- Conversión de múltiples espacios a espacios simples.
MyHTMLText is string MyHTMLText = "<!--test--><b><i>"Hello!"</i></b>" Text is string = HTMLToText(MyHTMLText) // Text is set to: "Hello"! Sintaxis
<Result> = HTMLToText(<Text in HTML format> [, <Charset used>])
<Result>: Cadena de caracteres Texto que corresponde al resultado de la conversión HTML. Se utiliza la codificación del conjunto de caracteres actual de WINDEV o WEBDEV. <Text in HTML format>: Cadena o buffer Texto a convertir. <Charset used>: Constante opcional de tipo Integer Constante que identifica el conjunto de caracteres utilizado para la escritura del <Texto en formato HTML>. De forma predeterminada, se utiliza el conjunto de caracteres actual de WINDEV o WEBDEV (constante charsetCurrent). Si se encuentra alguna información sobre el conjunto de caracteres utilizado en el parámetro <Texto en formato HTML>, esta información tiene prioridad sobre este parámetro. Para obtener más información sobre estas constantes, consulte Correspondencia entre idiomas, subidiomas, conjuntos de caracteres y naciones. Observaciones Reglas de conversión - Las etiquetas HTML se analizan para conservar el mejor formato posible en el texto de salida (retornos de carro (CR), espacios, tabulaciones, etc.). El formato no se conserva: negrita, cursiva, colores, etc.
- Los siguientes elementos no aparecen en el texto de salida:
- etiquetas HTML
- contenido del "header" (información en la etiqueta <HEAD>)
- comentarios
- textos de control
- scripts
- definiciones SSL
- estilos CSS (excepto los atributos de "color")
- elementos de formulario
- Uso de retornos de carro (CR)
- Se insertan 2 retornos de carro para reemplazar las siguientes etiquetas: <P>, <H1> a <H6>, <TABLE>, <UL> o <OL>
- Se inserta 1 retorno de carro para reemplazar las siguientes etiquetas: <BR>, <TR>, <LI>, <DD> o <DIV>
- Se inserta 1 solo retorno de carro si hay varias etiquetas idénticas consecutivas (<TR>, <LI>, <DD> o <DIV>), excepto para las etiquetas <BR>
- Gestión de arrays
- Por cada fila de un array (etiqueta <TR>), se inserta un retorno de carro.
- Por cada columna de un array (etiqueta <TD>), se inserta una tabulación.
- Gestión de caracteres especiales
Un carácter especial es un carácter definido en el estándar HTML. Por ejemplo, un espacio puede escribirse como "&nbsp;" y el carácter "é" como "&eacute,". Este estándar se utiliza automáticamente.
Etiquetas admitidas Las etiquetas no admitidas se ignoran: su contenido se tiene en cuenta como texto. Las etiquetas admitidas son las siguientes: - <PRE>
- <UL>: Salto de línea + tabulación
- <OL>: Salto de línea + tabulación
- <LI>: Tabulador
- <H1>: Salto de línea antes y después
- <H2>: Salto de línea antes y después
- <H3>: Salto de línea antes y después
- <H4>: Salto de línea antes y después
- <H5>: Salto de línea antes y después
- <H6>: Salto de línea antes y después
- <P>: Salto de línea antes y después
- <BR>: Salto de línea
- <DL>: Salto de línea
- <DT>: Salto de línea
- <DD>: Tabulación y salto de línea
- <TABLE>: Salto de línea
- <TR>: Salto de línea
- <TD>: Elementos separados por una tabulación
- <HEAD>: Contenido ignorado, excepto los parámetros del conjunto de caracteres
- <STYLE>: Contenido ignorado
- <SCRIPT>: Contenido ignorado
- <!-- -->: Comentarios ignorados
Gestión del conjunto de caracteres Para conocer el conjunto de caracteres utilizado en el texto HTML, la función HTMLToText utiliza la información que se encuentra en el atributo CONTENT de una etiqueta <META>. Si no se encuentra esta etiqueta, se debe especificar el conjunto de caracteres utilizado para escribir el texto HTML con el parámetro <Conjunto de caracteres utilizado>. Si el contenido HTML utiliza un conjunto de caracteres arábigos y WINDEV o WEBDEV utiliza un conjunto de caracteres en francés, el texto de salida utilizará caracteres no válidos. Observaciones: - Si el texto de salida contiene varios signos de interrogación ("?"), significa que los caracteres del conjunto de caracteres utilizado en el documento HTML no pueden expresarse con los caracteres del idioma actual.
- El conjunto de caracteres UTF-8 se utiliza comúnmente para codificar páginas Web.
Esta página también está disponible para…
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|