Pregunta ¿Con qué comando debería abrir archivos .raw.gz?


Tengo un montón de archivos .raw.gz que son archivos de datos transmitidos desde Twitter con la interfaz JSON. Me pregunto qué comando debería usar en mi Mac OSX para abrir (descomprimir) estos archivos. He intentado con alquitrán, descomprimir, gunzip, ninguno de ellos funcionó para mí.


0


origen


Pero gunzip debería darte el archivo .raw. Entonces, ¿sabe usted qué es el archivo .raw?
De acuerdo con Xichen. Por lo tanto, la file utilizar. - Renaud
Esto es lo que obtengo cuando ejecuto gunzip hoktay @ csreg193> gunzip twitter_20091006.raw.gz gunzip: twitter_20091006.raw.gz: no en formato gzip - Huseyin Oktay


Respuestas:


Deberías probar el file comando, si está disponible en MacOSX, para verificar el tipo de archivo. De todos modos, creo que deberías hacer eso después de eliminar el archivo x.raw.gz (que normalmente te da un archivo x.raw). Normalmente, debe obtener el archivo de texto json sin procesar después de hacer gunzip.


1



Esto es lo que obtengo cuando escribo el comando de archivo: archivo twitter_20091006.raw.gz twitter_20091006.raw.gz: data - Huseyin Oktay
Ouch ... ¿Intentó abrir el archivo en modo texto y ver si hay un texto legible por humanos? ¿Podrías compartir cómo obtuviste esos archivos? Puede ayudar. - Renaud
Esta es la información sobre cómo se obtienen los archivos. Los archivos contienen ingestas continuas más grandes y singulares. Los archivos están en formato JSON. curlStream.bat se usó con un programa llamado cURL para descargar la transmisión de Twitter. La API de Twitter se encuentra en apiwiki.twitter.com/Twitter-API-Documentation. La mayoría de los campos JSON se definen en apiwiki.twitter.com/Return-Values. curlStream.bat invoca la API de Twitter Streaming, con documentación en apiwiki.twitter.com/Streaming-API-Documentation. - Huseyin Oktay
Intenté abrir, pero desafortunadamente no es texto legible para humanos. - Huseyin Oktay
Ok, no puedo probar ya que no quiero registrarme en devtwitter. De todos modos, dado que curl debería redirigir sus datos por defecto en la salida de la consola estándar, mi consejo es que podría intentar una llamada curl elemental en la API de Twitter al ajustar algunos parámetros de curvatura (ver curl -h) - Renaud