AYUDA EN LÍNEA
 WINDEVWEBDEV Y WINDEV MOBILE

Ayuda / WLanguage / Funciones WLanguage / Funciones estándar / Funciones de cadenas
  • Reglas de conversión
  • Etiquetas admitidas
  • Gestión del conjunto de caracteres
WINDEV
WindowsLinuxUniversal Windows 10 AppJavaReportes y ConsultasCódigo de Usuario (UMC)
WEBDEV
WindowsLinuxPHPWEBDEV - Código Navegador
WINDEV Mobile
AndroidWidget Android iPhone/iPadIOS WidgetApple WatchMac CatalystUniversal Windows 10 App
Otros
Procedimientos almacenados
Convierte una cadena o buffer HTML en texto. Las siguientes operaciones se realizan durante la conversión:
  • Eliminación de etiquetas HTML,
  • Conversión de caracteres especiales HTML,
  • Conversión de caracteres CR (Retorno de carro) a espacios,
  • Conversión de múltiples espacios a espacios simples.
Ejemplo
MyHTMLText is string
MyHTMLText = "<!--test-->&lt;b&gt;&lt;i&gt;&quot;Hello!&quot;&lt;/i&gt;&lt;/b&gt;"
Text is string = HTMLToText(MyHTMLText)
// Text is set to: "Hello"!
WINDEVCódigo de Usuario (UMC)
// If the HTML document is set to:
//<HTML>
// <HEAD>
//  <TITLE>This is a test for a Web page</TITLE>
//  <META http-equiv="content-type" content="text/html; charset=UTF-8">
// </HEAD>
//<BODY>
// <P>This is &nbsp;&nbsp;&nbsp;&nbsp; an HTML page in English</P>
// It contains 1 paragraph<BR /><DD>a tab<BR />and 3 line breaks
//  <BR /><A href="http://www.pcsoft.fr">This is a link</A>
// </BODY>
//</HTML>
 
Text = HTMLToText(MyHTMLText)
// Text will contain:
// This is        an HTML page   in English.
//
// It contains 1 paragraph
//   a tab
// and 3 line breaks
// This is a link
Sintaxis
<Result> = HTMLToText(<Text in HTML format> [, <Charset used>])
<Result>: Cadena de caracteres
Texto que corresponde al resultado de la conversión HTML. Se utiliza la codificación del conjunto de caracteres actual de WINDEV o WEBDEV.
<Text in HTML format>: Cadena o buffer
Texto a convertir.
<Charset used>: Constante opcional de tipo Integer
Constante que identifica el conjunto de caracteres utilizado para la escritura del <Texto en formato HTML>.
De forma predeterminada, se utiliza el conjunto de caracteres actual de WINDEV o WEBDEV (constante charsetCurrent).
Si se encuentra alguna información sobre el conjunto de caracteres utilizado en el parámetro <Texto en formato HTML>, esta información tiene prioridad sobre este parámetro.
Para obtener más información sobre estas constantes, consulte Correspondencia entre idiomas, subidiomas, conjuntos de caracteres y naciones.
Observaciones

Reglas de conversión

  • Las etiquetas HTML se analizan para conservar el mejor formato posible en el texto de salida (retornos de carro (CR), espacios, tabulaciones, etc.). El formato no se conserva: negrita, cursiva, colores, etc.
  • Los siguientes elementos no aparecen en el texto de salida:
    • etiquetas HTML
    • contenido del "header" (información en la etiqueta <HEAD>)
    • comentarios
    • textos de control
    • scripts
    • definiciones SSL
    • estilos CSS (excepto los atributos de "color")
    • elementos de formulario
  • Uso de retornos de carro (CR)
    • Se insertan 2 retornos de carro para reemplazar las siguientes etiquetas: <P>, <H1> a <H6>, <TABLE>, <UL> o <OL>
    • Se inserta 1 retorno de carro para reemplazar las siguientes etiquetas: <BR>, <TR>, <LI>, <DD> o <DIV>
    • Se inserta 1 solo retorno de carro si hay varias etiquetas idénticas consecutivas (<TR>, <LI>, <DD> o <DIV>), excepto para las etiquetas <BR>
  • Gestión de arrays
    • Por cada fila de un array (etiqueta <TR>), se inserta un retorno de carro.
    • Por cada columna de un array (etiqueta <TD>), se inserta una tabulación.
  • Gestión de caracteres especiales
    Un carácter especial es un carácter definido en el estándar HTML. Por ejemplo, un espacio puede escribirse como "&amp;nbsp;" y el carácter "é" como "&amp;eacute,". Este estándar se utiliza automáticamente.

Etiquetas admitidas

Las etiquetas no admitidas se ignoran: su contenido se tiene en cuenta como texto.
Las etiquetas admitidas son las siguientes:
  • <PRE>
  • <UL>: Salto de línea + tabulación
  • <OL>: Salto de línea + tabulación
  • <LI>: Tabulador
  • <H1>: Salto de línea antes y después
  • <H2>: Salto de línea antes y después
  • <H3>: Salto de línea antes y después
  • <H4>: Salto de línea antes y después
  • <H5>: Salto de línea antes y después
  • <H6>: Salto de línea antes y después
  • <P>: Salto de línea antes y después
  • <BR>: Salto de línea
  • <DL>: Salto de línea
  • <DT>: Salto de línea
  • <DD>: Tabulación y salto de línea
  • <TABLE>: Salto de línea
  • <TR>: Salto de línea
  • <TD>: Elementos separados por una tabulación
  • <HEAD>: Contenido ignorado, excepto los parámetros del conjunto de caracteres
  • <STYLE>: Contenido ignorado
  • &lt;SCRIPT&gt: Contenido ignorado
  • <!-- -->: Comentarios ignorados

Gestión del conjunto de caracteres

Para conocer el conjunto de caracteres utilizado en el texto HTML, la función HTMLToText utiliza la información que se encuentra en el atributo CONTENT de una etiqueta <META>.
Si no se encuentra esta etiqueta, se debe especificar el conjunto de caracteres utilizado para escribir el texto HTML con el parámetro <Conjunto de caracteres utilizado>.
Si el contenido HTML utiliza un conjunto de caracteres arábigos y WINDEV o WEBDEV utiliza un conjunto de caracteres en francés, el texto de salida utilizará caracteres no válidos.
Observaciones:
  • Si el texto de salida contiene varios signos de interrogación ("?"), significa que los caracteres del conjunto de caracteres utilizado en el documento HTML no pueden expresarse con los caracteres del idioma actual.
  • El conjunto de caracteres UTF-8 se utiliza comúnmente para codificar páginas Web.
Componente: wd290rtf.dll
Versión mínima requerida
  • Versión 12
Esta página también está disponible para…
Comentarios
Haga clic en [Agregar] para publicar un comentario

Última modificación: 22/06/2023

Señalar un error o enviar una sugerencia | Ayuda local