Pregunta Extrae todo el texto de una fuente específica del documento de MS Word?


He convertido un documento PDF a formato de palabra. El PDF es un número de una revista. Necesito todo el texto que es una fuente determinada, y 9.5 o 10 puntos. Esos son los contenidos de los artículos, en los que quiero hacer minería de texto (solo frecuencias de palabras). Las toneladas de otras cosas que serían extremadamente tediosas para eliminar de una manera diferente.

Hacer clic derecho en un área de texto y seleccionar "Seleccionar texto con formato similar" no funciona. (Esto es lo que estaba planeando hacer). Solo selecciona el párrafo actual. Traté de 'seleccionar todo' y luego establecer el formato de todos los párrafos para que sea el mismo, pero esto no tuvo ningún efecto.


0


origen




Respuestas:


En una copia de su documento (en caso de que quiera conservar todo el texto), puede eliminar todo el texto que no sea la fuente y el tamaño específicos al hacer 3 buscar y reemplazar (los dos primeros resaltarán el texto que desea mantener, el tercero eliminará el texto sin formato restante).

(NB: asegúrese de que los recuadros de Buscar y reemplazar con texto estén vacíos y no incluyan accidentalmente un espacio en Reemplazar)

  1. Busque todo el texto de la fuente que sea de 9,5 puntos y reemplácelo con resaltado (mantendrá el texto pero lo resaltará en el último color de resaltador que haya utilizado; es posible que desee resaltar una palabra al comienzo para que tenga un color seleccionado). enter image description here
  2. Haga lo mismo, busque y reemplace, pero esta vez reemplace la letra de 10 puntos con resaltado.

Los pasos 1 y 2 anteriores significarán que no se resaltará ningún texto que NO sea 9.5 o 10 puntos en el estilo de fuente que está buscando.

  1. Haga un buscar y reemplazar, donde el hallazgo es simplemente No destacar (para obtener No destacar como la opción Formato, tiene que seleccionarlo desde el botón Formato en la esquina inferior izquierda de la captura de pantalla dos veces).
    enter image description here

Esto eliminará todo el texto no resaltado, dejándolo solo con el texto que desea conservar.


2