<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    Adolfo
    <br>
    <br>
    Gusto en saber de tí
    <br>
    El problema que planteas se refiere a una pregunta previa que es: <br>
    <ul>
      <li>¿Cómo defines que un registro está duplicado?</li>
      <ul>
        <li>¿se ingresó dos veces el mismo registro por error de
          proceso?
        </li>
        <li>¿se importó dos veces un registro externo?</li>
        <li>¿falla en el sistema?
        </li>
        <li>otro...???</li>
      </ul>
      <ul>
        <li>Dos catalogadores que no coordinaron hicieron el mismo
          ingreso cada uno por separado</li>
        <ul>
          <li>Los registros son iguales byte-a-byte (eso lo sabe la
            computadora), <br>
          </li>
          <li>o son "casi iguales", o sea la misma obra pero difieren en
            cosas menores como la puntuación, los espacios en blanco y
            la capitalización (eso <b>no </b>lo sabe la computadora)
            <br>
          </li>
        </ul>
      </ul>
    </ul>
    <br>
    De modo que la detección y eliminación de "duplicados(?)" es un
    proceso heurístico, no es automático.<br>
    Luego de definir los criterios de "duplicado" o "casi duplicado" o
    "sospechoso" pasas a la eliminacion
    de los culpables.<br>
    Para eso el MX es maravilloso
    <br>
    Define entonces primero cuál es el problema y buscamos la solución
    adecuada al problema<br>
    <br>
    Saludos
    <br>
    ernesto
    <br>
    <br>
    <br>
    <br>
    El 03/05/2012 4:56, Adolfo Hernandez escribió:
    <blockquote cite="mid:20120503075624.3543A9ACDD@estafeta.csic.es"
      type="cite">At 15:26 27/04/2012, you wrote:
      <br>
      <blockquote type="cite">Adolofo
        <br>
        <br>
        Envié respuesta a tu consulta pero me rebota con el mensaje que
        tu correo no es correcto
        <br>
        Favor revisa, o si te parece, puedo contestar tu pregunta a toda
        la lista pues el tema es de interés general
        <br>
        <br>
        Saludos
        <br>
        Ernesto Spinak
        <br>
      </blockquote>
      <br>
      <br>
      Muchas Gracias Ernesto:
      <br>
      <br>
      Con respecto a mi correo no entiendo cual puede ser el problema
      pues en esa dirección recibo cerca de 40 mails diarios. La
      dirección cindoc.csic.es realmente es un alias, dado que, como
      supongo que sabrás el CINDOC formalmente se disolvió hace dos
      años. En el edificio que tu conoces en Madrid, sólamente quedamos
      8 de los antiguos funcionarios del CINDOC, y creo que por no mucho
      tiempo. Formalmente estamos adscritos a un nuevo Instituto (Centro
      de Ciencias Humanas y Sociales), por lo que formalmente mi
      dirección de e-mail debería ser <a class="moz-txt-link-abbreviated" href="mailto:ahernandez@cchs.csic.es">ahernandez@cchs.csic.es</a>.
      <br>
      <br>
      En cuanto a la pregunta que te hacía sobre detección de duplicados
      creo que sería interesante pasarla a la lista, dado que en
      principio no he visto nada escrito sobre el tema, y creo que tiene
      interés para un gran número de usuarios.
      <br>
      <br>
      Muchas gracias por tu atención. Saludos
      <br>
      <br>
      <br>
    </blockquote>
    <br>
    <br>
    <pre class="moz-signature" cols="72">-- 
  .^.                                .^.
  ( )                                ( )
  ===                                ===
 =[=]================================[=]=
  | |  Ernesto Spinak                | |
  | |  <a class="moz-txt-link-abbreviated" href="mailto:spinaker@adinet.com.uy">spinaker@adinet.com.uy</a>        | |
  | |  Montevideo, Uruguay           | |
  | |  tel/fax  (598) 2622-3352      | |
  | |  celular  (598) 99612238      | |
 =[=]================================[=]=
  ===                                ===
  ( )                                ( )
   V                                  V </pre>
  </body>
</html>