<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"><!-- P {margin-top:0;margin-bottom:0;} --></style>
</head>
<body dir="ltr">
<div id="divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri,Helvetica,sans-serif;" dir="ltr">
<p>Hi,</p>
<p><br>
</p>
<p>2 remarks : <br>
</p>
<p>- in ABCD 2.0 you can also use the 'bigisis' variety of ISIS-databases, allowing records up to 1 Mb.
<br>
</p>
<p>- if that is still not enough, you should indeed go for another software, however we can recommend J-ISIS which, like ABCD2.0, uses the Tika-library for text-extracting and, unlike ABCD2.0, Lucene for indexing text document.</p>
<p><br>
</p>
<p>We have successfully used ABCD2.0 for indexing full-text records, e.g. in the 'DubCore' demo database, where the full-text is extracted by a script (in the 'utilities/extra' menu) by Tika and saved in a text (or html)-file, which is indexed with - as you
 did - a 'cat' command to serve the text-file as input for the indexing-technique 8 (but indexing with 'm'-parameter of fullinv/m). See more detailed instructions in the updated ABC-of-ABCD manual for v2.0.
<br>
</p>
<p>All this works fine and (very) fast, what is missing is relevance ranking. Hence the suggestion to use J-ISIS (see its 'Digital Library' example) as it uses Lucene which has relevance ranking. In J-ISIS there are also no more limits re record-size.</p>
<p>ABCD v3.0 (developed and tested currently) is using J-ISIS and therefore will also use full-text and relevance ranking.<br>
</p>
<p><br>
</p>
<div id="Signature">
<div class="BodyFragment"><font size="2"><span style="font-size:10pt;">
<div class="PlainText">Egbert de Smet<br>
Universiteit Antwerpen</div>
</span></font></div>
</div>
<br>
<br>
<div style="color: rgb(0, 0, 0);">
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> Leandro Vicente <leandro_biblioteca@hotmail.com><br>
<b>Sent:</b> Friday, October 19, 2018 3:05 PM<br>
<b>To:</b> spinaker; De Smet Egbert; isis-users@iccisis.org<br>
<b>Subject:</b> Re: [Isis-users] Former command "lr"</font>
<div> </div>
</div>
<div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Hi Egbert, Ernesto and group</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Thanks for the comments, really appreciate . Ernesto, I was not aware of the $$REF trick, it was good to know. For some reason my web search didn'd get such content from Gilda's wiki. Nice. Egbert, I decided to work another way but 'join' would be fine as well.
 I think 'join' would give me the same results under the same limits.<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Anyway, it's fair to share with you the way a handled the demands.</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Some institution are willing to search into table of contents. So, they OCR the pages and paste it on MFN (by either traditional ABCD worksheet or a PHP form over IsisScript). The point is, there is a 32kb limitation documented and experienced.</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
I'm working with table of contents written in text files. Then, I use append method over 1300 table of contents files (such batch is created automatically by PHP), and retag, mxcp, and so on. I have a PHP script that read each table of content file and splits
 it if size gets over 32kb. So, I may have something like ID1132A.txt, ID1132B.txt, ID1132C etc, each one under 30kb (there are table of contents with 25 pages or even more, specially in law literature).</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Working on a separate database or not, the point is, how to index into the dictionary all the table of contents once we have this 32kb limitation? We are stuck under the formatting language interpreted by mx because there is always need of using a FST. And
 unfortunately we can't use $$REF on it. So, we again miss <span><span>'</span></span>LR<span><span>'</span></span> implementation here.</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
On FST, a possible way is (working with an auxiliary database):<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>505 4 ref->sum(l->sum(|IDA|v8),(v505+| |)),<br>
</span>
<div>505 4 ref->sum(l->sum(|IDB|v8),(v505+| |)),<br>
</div>
<span>505 4 ref->sum(l->sum(|IDC|v8),(v505+| |)),</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>Another way may be (working right from the text files):</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>505 4 ref->sum(l->sum(|ID|v8t),(s(cat('C:\ABCD\www\bases\book\pfts\pt\<span>IDA',v8,<span>'</span></span>.txt')))),<br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><span>505 4 ref->sum(l->sum(|ID|v8t),(s(cat('C:\ABCD\www\bases\book\pfts\pt\<span>IDB',v8,<span>'</span></span>.txt')))),</span><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><span>505 4 ref->sum(l->sum(|ID|v8t),(s(cat('C:\ABCD\www\bases\book\pfts\pt\<span>IDC',v8,<span>'</span></span>.txt')))),</span><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>On another development, I also splited each table of content paragraph into a new MFN (with PHP and IsisScript). Worked fine, retrieved fine, but on the indexing process under a bibliographic database,
<span><span>'</span></span>LR<span><span>'</span></span> is in need again. I mean, I handled huge, mass text information under ISIS technology this way, but only for retrieving and displaying purposes. We can<span><span>'</span></span>t
<span><span><span>'</span></span></span>REF<span><span><span>'</span></span></span> it to another database without
<span><span>'</span></span>LR<span><span>'</span></span>.</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><span><span><br>
</span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><span><span></span></span>To reach that goal I left ISIS solution behind from this point on, and started working with something more elastic.</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<span>So, thanks again and, if someone is aware of an alternative to <span><span>'</span></span>LR<span><span>'</span></span> within
<span><span></span></span>FST<span><span></span></span>, please let us know.<br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Leandro</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> spinaker <spinaker@adinet.com.uy><br>
<b>Sent:</b> Thursday, October 18, 2018 4:45 AM<br>
<b>To:</b> De Smet Egbert; Leandro Vicente; isis-users@iccisis.org<br>
<b>Subject:</b> Re: [Isis-users] Former command "lr"</font>
<div> </div>
</div>
<meta content="text/html; charset=Windows-1252">
<div style="background-color:#FFFFFF">
<div class="x_moz-cite-prefix">Dear Victor<br>
<br>
You are right (in part) ...<br>
Because of this limitation (there is no "LR" code) Guilda implemented a solution<br>
Please, take a look in <br>
<a class="x_moz-txt-link-freetext" href="http://abcdwiki.net/wiki/es/index.php?title=Formatos_de_salida_que_integran_la_informaci%C3%B3n_de_bases_de_datos_relacionadas" id="LPlnk875813" previewremoved="true">http://abcdwiki.net/wiki/es/index.php?title=Formatos_de_salida_que_integran_la_informaci%C3%B3n_de_bases_de_datos_relacionadas</a><br>
Formatos de salida que integran la información de bases de datos relacionadas<br>
<br>
<i><font color="#330099">" ... Ahora bien, según establece la teoría, la función L recupera solo el mfn del primer registro localizado a través de la expresión de búsqueda suministrada, y en la relación entre la base bibliográfica y sus copias tenemos que un
 registro bibliográfico puede relacionarse con varios registros en la base de datos de copias.
<br>
<br>
 Ante esta situación, ABCD generó su propia forma de acceso a las relaciones de este tipo, incluyendo en la pft, como preliteral incondicional, el siguiente comando:
<br>
         /'$$REF:Base_de_datos, Formato, Expresion de búsqueda'/<br>
</font></i><br>
etc<br>
<br>
Regards<br>
Ernesto Spinak<br>
<br>
<br>
<br>
El 18/10/2018 a las 4:32, De Smet Egbert escribió:<br>
</div>
<blockquote type="cite">
<div id="x_divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Helvetica,sans-serif">
<p style="margin-top:0px; margin-bottom:0px">Hi,</p>
<p style="margin-top:0px; margin-bottom:0px"><br>
</p>
<p style="margin-top:0px; margin-bottom:0px">you are right : CISIS doesn't have that LR() function and also for me this has created lots of problems. We asked for a quotation to implement this with some ex-Bireme experts who know the CISIS-coding well but their
 price was exorbitantly high, so the idea was dropped.</p>
<p style="margin-top:0px; margin-bottom:0px">However I solved most of my issues with a detour via the 'join=' parameter of mx, for this case operating on the same database itself (meaning : joining the database with itself...). That parameter indeed will add
 all occurrences pointed to by the postings of the search-key into the resulting joined record. With some extra processing (with PFT or proc) the fields added with tags 3200x can be used as normal fields.<br>
</p>
<p style="margin-top:0px; margin-bottom:0px"><br>
</p>
<div id="x_Signature">
<div class="x_BodyFragment"><font size="2"><span style="font-size:10pt">
<div class="x_PlainText">Egbert de Smet<br>
Universiteit Antwerpen</div>
</span></font></div>
</div>
<br>
<br>
<div style="color:rgb(0,0,0)">
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="x_divRplyFwdMsg" dir="ltr"><font style="font-size:11pt" face="Calibri, sans-serif" color="#000000"><b>From:</b> isis-users
<a class="x_moz-txt-link-rfc2396E" href="mailto:isis-users-bounces+egbert.desmet=ua.ac.be@iccisis.org">
<isis-users-bounces+egbert.desmet=ua.ac.be@iccisis.org></a> on behalf of Leandro Vicente
<a class="x_moz-txt-link-rfc2396E" href="mailto:leandro_biblioteca@hotmail.com"><leandro_biblioteca@hotmail.com></a><br>
<b>Sent:</b> Thursday, October 18, 2018 4:20 AM<br>
<b>To:</b> <a class="x_moz-txt-link-abbreviated" href="mailto:isis-users@iccisis.org">
isis-users@iccisis.org</a><br>
<b>Subject:</b> [Isis-users] Former command "lr"</font>
<div> </div>
</div>
<div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Hi all,</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
I apologize in advance if this topic has been already addressed into the group list, but I didn't find anything.</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
In Winisis we use to have commands "l" and "lr". Apparently command "lr" was not implemented in CISIS. As we know, "l" returns the first MFN of a given key, and "lr" used to return all MFNs indexed under such key.<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
In FST I have<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<b>100 4 ref->author(l->author(|ID|v8),(v100+| |)),</b></div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
which looks for authors in db "author". The point is, "l" returns only the first MFN with ID=X and we may have lots more.</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Does anyone have a tip on how could we possibly retrieve all MFNs once "lr" is not implemented?<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Thanks,</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
<br>
</div>
<div style="font-family:Calibri,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0)">
Leandro<br>
</div>
</div>
</div>
</div>
<br>
<fieldset class="x_mimeAttachmentHeader"></fieldset> <br>
<pre>_______________________________________________
isis-users mailing list
<a class="x_moz-txt-link-abbreviated" href="mailto:isis-users@iccisis.org">isis-users@iccisis.org</a>
To manage your own subscription options go to: <a class="x_moz-txt-link-freetext" href="http://lists.iccisis.org/listinfo/isis-users">http://lists.iccisis.org/listinfo/isis-users</a>
Or contact Henk Rutten: <a class="x_moz-txt-link-abbreviated" href="mailto:hlrutten@xs4all.nl">hlrutten@xs4all.nl</a>
</pre>
</blockquote>
<p style="margin-top:0px; margin-bottom:0px"><br>
</p>
<pre class="x_moz-signature" cols="72">-- 
  .^.                                .^.
  ( )                                ( )
  ===                                ===
 =[=]================================[=]=
  | |  Ernesto Spinak                | |
  | |  <a class="x_moz-txt-link-abbreviated" href="mailto:spinaker@adinet.com.uy">spinaker@adinet.com.uy</a>        | |
  | |  Montevideo, Uruguay           | |
  | |  tel/fax  (598) 2622-3352      | |
  | |  celular  (598) 99612238      | |
 =[=]================================[=]=
  ===                                ===
  ( )                                ( )
   V                                  V </pre>
</div>
</div>
</div>
</div>
</body>
</html>