<html>
<head>
<meta content="text/html; charset=ISO-8859-1"
http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
Adolfo
<br>
<br>
Gusto en saber de tí
<br>
El problema que planteas se refiere a una pregunta previa que es: <br>
<ul>
<li>¿Cómo defines que un registro está duplicado?</li>
<ul>
<li>¿se ingresó dos veces el mismo registro por error de
proceso?
</li>
<li>¿se importó dos veces un registro externo?</li>
<li>¿falla en el sistema?
</li>
<li>otro...???</li>
</ul>
<ul>
<li>Dos catalogadores que no coordinaron hicieron el mismo
ingreso cada uno por separado</li>
<ul>
<li>Los registros son iguales byte-a-byte (eso lo sabe la
computadora), <br>
</li>
<li>o son "casi iguales", o sea la misma obra pero difieren en
cosas menores como la puntuación, los espacios en blanco y
la capitalización (eso <b>no </b>lo sabe la computadora)
<br>
</li>
</ul>
</ul>
</ul>
<br>
De modo que la detección y eliminación de "duplicados(?)" es un
proceso heurístico, no es automático.<br>
Luego de definir los criterios de "duplicado" o "casi duplicado" o
"sospechoso" pasas a la eliminacion
de los culpables.<br>
Para eso el MX es maravilloso
<br>
Define entonces primero cuál es el problema y buscamos la solución
adecuada al problema<br>
<br>
Saludos
<br>
ernesto
<br>
<br>
<br>
<br>
El 03/05/2012 4:56, Adolfo Hernandez escribió:
<blockquote cite="mid:20120503075624.3543A9ACDD@estafeta.csic.es"
type="cite">At 15:26 27/04/2012, you wrote:
<br>
<blockquote type="cite">Adolofo
<br>
<br>
Envié respuesta a tu consulta pero me rebota con el mensaje que
tu correo no es correcto
<br>
Favor revisa, o si te parece, puedo contestar tu pregunta a toda
la lista pues el tema es de interés general
<br>
<br>
Saludos
<br>
Ernesto Spinak
<br>
</blockquote>
<br>
<br>
Muchas Gracias Ernesto:
<br>
<br>
Con respecto a mi correo no entiendo cual puede ser el problema
pues en esa dirección recibo cerca de 40 mails diarios. La
dirección cindoc.csic.es realmente es un alias, dado que, como
supongo que sabrás el CINDOC formalmente se disolvió hace dos
años. En el edificio que tu conoces en Madrid, sólamente quedamos
8 de los antiguos funcionarios del CINDOC, y creo que por no mucho
tiempo. Formalmente estamos adscritos a un nuevo Instituto (Centro
de Ciencias Humanas y Sociales), por lo que formalmente mi
dirección de e-mail debería ser <a class="moz-txt-link-abbreviated" href="mailto:ahernandez@cchs.csic.es">ahernandez@cchs.csic.es</a>.
<br>
<br>
En cuanto a la pregunta que te hacía sobre detección de duplicados
creo que sería interesante pasarla a la lista, dado que en
principio no he visto nada escrito sobre el tema, y creo que tiene
interés para un gran número de usuarios.
<br>
<br>
Muchas gracias por tu atención. Saludos
<br>
<br>
<br>
</blockquote>
<br>
<br>
<pre class="moz-signature" cols="72">--
.^. .^.
( ) ( )
=== ===
=[=]================================[=]=
| | Ernesto Spinak | |
| | <a class="moz-txt-link-abbreviated" href="mailto:spinaker@adinet.com.uy">spinaker@adinet.com.uy</a> | |
| | Montevideo, Uruguay | |
| | tel/fax (598) 2622-3352 | |
| | celular (598) 99612238 | |
=[=]================================[=]=
=== ===
( ) ( )
V V </pre>
</body>
</html>