<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
<small><font face="Helvetica, Arial, sans-serif">Dear Atanu,<br>
<br>
<a href="http://www.ifremer.fr/avano/">Avano</a> is indeed a thematic
OAI harvester for aquatic and marine science. <br>
<br>
Then Avano harvests a few repositories from different aquatic sciences
research institutes. All resources stored in those specialized
repositories are systematically and automatically referenced in Avano.
But only 20% of the records available via Avano come from harvesting of
these aquatic repositories.<br>
<br>
Avano also interrogates a group of Open Archives not specialized in
aquatic sciences which contain relevant resources. This is the case for
the PubMed Central server, which specializes in biomedical sciences and
life sciences, provides more than 18.000 records are relevant to
Avano’s research fields. <br>
<br>
In theory, the thematic harvesting of a repository should be made
possible by using the Set option of the OAI-PMH protocol. Nevertheless,
in reality, we have never found any “Marine and Aquatic Sciences” Set
in any of the harvested repositories. In order to filter those
repositories, we have developed a research system based on key-words
and key-expressions related to aquatic sciences. <br>
<br>
To process repositories that are not perfectly categorized within our
fields of interest, Avano uploads all of their records in a temporary
database. <br>
<br>
Those data are indexed before a daily automatic system searches for
about 100.000 scientific names of aquatic species in the record. For
example, if a record contains the character string Crassostrea gigas
(scientific name of an oyster species), we consider that there is
hardly any chance that this name is used in a different context than
our field of interest, so it will be automatically visible in Avano.<br>
<br>
Avano also searches for a few hundred of more general terms and
expressions related to the aquatic environment. For example, Avano
searches for the words fish, marine, fishing, water treatment...
Records spotted by this key-word system are then manually validated by
librarians before they can be viewed via Avano. To validate those
records, librarians use a specific website. Key-words found in records
are highlighted. This system allows librarians to reject index files
when key-words are not related to their fields of interest (for example
when FISH is used for fluorescence in situ hybridization). <br>
<br>
Of course, this method is far from being ideal: <br>
- This method partially relies on a manual sorting of the records which
requires some time (a few minutes per day to filter the new files among
the 150 repositories already recorded, plus extra time to process the
back-log when new repositories are recorded). <br>
- As we do not spend more than 2 or 3 seconds to either validate a file
or not, we may accept a low percentage of records that are not related
to Avano’s fields of interest… <br>
<br>
Kind regards,<br>
Fred</font></small><br>
<br>
<br>
Atanu Garai a écrit :
<blockquote cite="mid:489AF105.6070401@gmail.com" type="cite">*Apologies
for cross-posting*
  <br>
  <br>
Dear Colleagues
  <br>
  <br>
Globethics.net intends to harvest all ethics related metadata from
  <br>
open repositories around the world and interpolate the same as part of
  <br>
the digital library. We feel that this would be a great service towards
  <br>
fulfilling the information and knowledge needs and exchange for the
  <br>
global ethics community. In so doing, we have studied few alternatives
  <br>
and solutions, as given below:
  <br>
  <br>
1. OAI-PMH 2.0 specification and implementation guidelines:
  <br>
The original OAI-PMH 2.0 specification and implementation guideline for
  <br>
'service providers' like harvesters/aggregators provides steps towards
  <br>
implementing harvesting engine. The only way to provide subject (or
  <br>
keyword) related metadata retrieval, according to this guideline, is to
  <br>
specify the subject in the Set. A closer examination in the set-spec,
  <br>
as available in the ROAR
  <br>
(<a class="moz-txt-link-freetext" href="http://roar.eprints.org/">http://roar.eprints.org/</a>) tells us that 'ethics'
  <br>
as subject does not appear in the data providers that I have surveyed
  <br>
so far. The conclusion is that using OAI-PMH 2.0 implementation
  <br>
guidelines we will not be able to harvest metadata in this domain in an
  <br>
optimal fashion.
  <br>
  <br>
2. The second strategy is the strategy followed by AVANO -
  <br>
<a class="moz-txt-link-freetext" href="http://www.ifremer.fr/avano/">http://www.ifremer.fr/avano/</a> - a harvester in the domain of aquatic and
  <br>
marine sciences. Essentially, they aggregate all the metadata in a
  <br>
temporary (internal) database, run a search query and then interpolate
  <br>
the relevant records onto their AVANO public interface. This is a
  <br>
advantageous proposition for subject-specialist harvester, but we are
  <br>
constrained by resources to implement this strategy.
  <br>
  <br>
3. The third way, which I have not found any implementation example so
  <br>
far, is to take the relevant metadata from already existing global
  <br>
harvesters like OAI and interpolate into Globethics..net server. The
  <br>
current global harverster that we are examining are - OAISTER and
  <br>
Scientific Commons. However, I would like to know the possible
  <br>
standardized mechanisms by which we can take relevant (searching with
the word 'ethics' in Scientific Commons gets 75000+ records) metadata
from
  <br>
these harvestors and ingest in our database.
  <br>
  <br>
Thank you for your time to reflect on this issues.
  <br>
  <br>
Regards
  <br>
Atanu Garai
  <br>
Globethics.net
  <br>
International Secretariat
  <br>
150, route de Ferney
  <br>
CH-1211 Geneva 2
  <br>
Switzerland
  <br>
Tel.: +41 22 791 62 49
  <br>
Fax: +41 22 710 23 86
  <br>
Web: <a class="moz-txt-link-abbreviated" href="http://www.globethics.net">www.globethics.net</a>
  <br>
  <br>
  <br>
_______________________________________________
  <br>
OAI-implementers mailing list
  <br>
List information, archives, preferences and to unsubscribe:
  <br>
<a class="moz-txt-link-freetext" href="http://www.openarchives.org/mailman/listinfo/oai-implementers">http://www.openarchives.org/mailman/listinfo/oai-implementers</a>
  <br>
  <br>
</blockquote>
<br>
<div class="moz-signature">-- <br>
<font face="Arial" size="2">Fred Merceur<br>
Ifremer / Bibliothèque La Pérouse<br>
<a class="moz-txt-link-abbreviated" href="mailto:frederic.merceur@ifremer.fr">frederic.merceur@ifremer.fr</a><br>
Tél : 02-98-49-88-69<br>
Fax : 02-98-49-88-84<br>
<a href="http://www.ifremer.fr/blp/">Bibliothèque La Pérouse</a><br>
<a href="http://www.ifremer.fr/docelec/">Archimer, Ifremer's
Institutional Repository</a><br>
<a href="http://www.ifremer.fr/avano/">Avano, a marine and aquatic OAI
harvester</a><br>
<br>
<b>Avant d'imprimer, pensez à l'environnement!</b>
</font></div>
</body>
</html>