Robots en Tiempo Real

Robots en Tiempo Real [27-01 00:51] por NEMESISX [arg]
Hola a todos.
Por si no lo conocen, hay una excelente aplicación que permite rastrear detalladamente la actividad de los buscadores en nuestros sitios. La aplicacion se llama ROBOTSTATS, la pueden descargar en esta página: http://www.robotstats.com/
A los newbies como yo, seguramente les va a venir de 10 para ver que es lo que están revisando los robots EN TIEMPO REAL !
Los que son mas experimentados y pueden aportar alguna opinion sobre esta herramienta, o sugerir alguna que sea mejor, serán muy bienvenidos sus comentarios.
En mi hosting se loguean las estádisticas en cuanto a HITS de los buscadores y ancho de banda consumido. En esta aplicación pueden revisar en tiempo real la páginas que estan revisando los buscadores. Por si la quieren ver funcionando, yo la tengo instalada en este link:
http://www.webconferencia.net/robotstats/
Ojo que la aplicacion todavía está en Beta, y me costó mucho hacerla funcionar. Ademas, los desarrolladores son franceses y lamentablemente la data que disponen en ingles es muy pobre o nula.
Cuentenme que les parece !
Saludos

.. [27-01 07:37] por WOOKIE [arg]
Hola Neme. Me parece que puede ser util para un sitio mediano para abajo, o por curiosidad un tiempo, porque si tenes mucho trafico, por lo que veo consume unos cuantos recursos (imaginate que por cada hit, hace un match sobre ip s y mas de 180 strings para reconocer el spider, luego se conecta a mysql, actualiza, cierra, y recien ahi te libera). El tema de los spiders, para mi, es fundamental controlarlo en los sitios con mucho trafico, pero para monitorearlo limitarse a ver como estas indexado y no mas. Algo que yo hago, cada tanto, es agregar una sola linea de codigo en la entrada de los scripts para que vuelque en un archivo el user_agent e ip con el nro. de segundo en el cual entro. Si encontras algo que no sea Mozilla, o te resulta raro, lo buscas en Google, y si es para excluir, lo haces por codigo o por htaccess (mejor). El segundo sirve para chequear si un mismo spider no te esta chocando demasiado seguido (50 lineas seguidas en el segundo 10 del IP X, es para cuidarse..). Esto, como los geotargeting por SQL, para mi queda excluido de un portalito. Saludos!

Gracias :) [27-01 08:08] por NEMESISX [arg]
Siempre interesantes tus comentarios Master. Me pasó el tema de que google no estaba obedeciendo mi robots.txt
Yo tengo una forma de ver en tiempo real toda la actividad de las visitas. Pero te imaginás, no puedo estar 24 hs viendo por donde anda el Spider. Sin esto, solo disponia la info de si hay o no HITS de los buscadores y el ancho de banda que me consumian. Gracias a esto, me di cuenta de que google no estaba funcionando como yo se lo indicaba a través del robots.txt y al final opté por ELIMINAR ese archivo.
Fijate la diferencia de dias anteriores al 26/1 (dia en que eliminé el robots.txt) y dias anteriores, referente a HITS de google.
A mi me queda por seguir analizando que pasaba con el robots.txt mio, pese a que estoy convencido de que no tenia errores (me ayudó ML a configurarlo).
SI no era por una aplicación así, realmente no me habria dado cuenta del movimiento en TR de los spider en mi sitio.
Coincido totalmente en que debería ser un monitoreo TEMPORARIO por los recursos que consume. Tipo activarlo una semana, y despues retirarlo.
Pero voy al punto en que si hay mas gente como yo, que está jodida por el tema de que los spiders están /"perdidos/" por la periferia de sus sitios, esto le puede venir de 10.
Un ABrazo Master, y gracias por respuesta.

.. [27-01 08:50] por WOOKIE [arg]
Pasa el robots y lo vemos. Un tip, con Crawl-Delay: xx , en xx pone los segs que quieras darle de demora a cada spider entre pag y pag, para bajarles el ritmo. Una desventaja (minima, pero..) de no tener robots, como tampoco favicon, es q te genera una entrada de 404 en el error-log con cada hit, y si lo multplicas por decenas de miles de paginas diarias, gratis no es. No entiendo de perdidos, te referis a los spiders que se pierden? Ya arregle el programita. Abrazo.

Gracias [27-01 19:29] por NEMESISX [arg]
Mi robots.xtx era así:
User-agent: *
Disallow: /foros/admincp/
Disallow: /foros/member.php
Y luego una extensa lista de /"disallows/" con todas las carpetas o archivos a las que no queria que acceda. La cosa es que funcionaba bárbaro en el sentido de que efectivamente no accedia a las cosas que indicaba allí. Pero sorprendentemente, bajó dramáticamente la cantidad de HITS particularmente de GOOGLE en el resto de las páginas al punto de que llegué a considerar que estaba penalizado por ellos.
Retiro el archivo y google recuperó inmediatamente la actividad sobre mis páginas.
Me da la impresión que el spider sigue un path de links desde la Home de mi sitio, que quedó INTERUMPIDO al yo quitarle acceso a uno de esos documentos .php
No le veo otra explicación. Lo estoy analizando desde el punto de que pareciera que en mi sitio bloquearle determinado .php al spider, entorpece la ruta del mismo a otros links.
Gracias por el tip, y fijate que me parece que no subiste el programita con el fix. Sigo descargando la 3.9.3 con el mismo error.
Abrazo :)

.. [27-01 19:54] por WOOKIE [arg]
la q descargas no dice 3.9.4 en el titlebar ? debes tener cacheado, borra los archivos del explorer. recien lo probe y baja la .4 .. Saludos

gracias... [27-01 01:12] por NOICARETLA [arg]
vamos a probarlo!
che tenes idea si te dice si pasa el freshbot de google x tu sitio?
saludos

Seguro que si [27-01 01:41] por NEMESISX [arg]
Esto lo que hace es detectar al Spider o bien por el User Agent, o por la IP (lo configurás vos).
Por lo que veo, no viene configurado por default asi que si lo agregás no tendrias problemas en detectarlo cuando entre a tu sitio.
Yo no lo configuré porque estoy seguro de que por mi sitio no pasa :)

robots.txt [27-01 08:24] por NOICARETLA [arg]
q paso? q tenias puesto en el archivo? sirve de algo realmente?
mira google solo lo usa para decir a q carpetas no quieren q entren los spiders
http://www.google.com/robots.txt
:)

Ni Idea... [27-01 08:37] por NEMESISX [arg]
Pero te puedo asegurar que no tenia errores y aún así me jodió la vida :(
Lo puse porque estaba harto de que el spider se la pasara haciendo peticiones a carpetas de acceso restringido, en donde siempre obtenia el mismo contenido: /"No Autorizado a ver esa página/". La cosa es que si, logre que no vea esas páginas, pero inexplicablemente bajó la actividad en todas las otras tambien. No digo que no las revisaba, solo que revisaba el 10% de los contenidos que revisaba antes del robots.txt
Todavia estoy analizando que es lo que pasó, porque realmente es muy loco.
Por ahora, no voy a usar robots.txt

mmmmm [27-01 08:40] por NOICARETLA [arg]
no sera q bajo tu rank y x eso el robot no te analizaba tan a fondo porque no le daba relevancia a tu site? no analizaste si te estaba pasando eso y vos pensaste q era el robots.txt?

Mi PR siempre igual [27-01 08:48] por NEMESISX [arg]
Pero te digo que llegué a pensar que estaba penalizado por google. La cosa es que retiré el robots.txt y se me solucionó el problema. Aparte no es que tengo mas hits de google porque accede a zonas restringidas. Nada que ver. Me está indexando todos los contenidos en la forma en que esperaba que lo haga cuando tenia ese archivo. Es un tema realmente...

herramientas [27-01 10:22] por NOICARETLA [arg]
mira aca tenes algunas herramientas.. te paso el link a un simulador de spider pero si te fijas mas abajo tenes un validador de robots.txt y otras cositas
http://www.searchengineworld.com/cgi-bin/sim_spider.cgi

Gracias por visitar el foro de " Robots en Tiempo Real".

Mapa del Sitio - Iusacell - Movistar - Prodigy - Sección Amarilla - Telcel - Telmex

Búsqueda personalizada

Este es el Mapa del sitio o Sitemap de Empresas de México o Empremexico.