Análise às pesquisas dos utilizadores no Arquivo.pt

demo-wordcloud-arqu

Os query logs do Arquivo.pt são recursos únicos para investigação

O Arquivo.pt disponibiliza um serviço “tipo Google” (Google-like) que permite pesquisar páginas e imagens recolhidas da web desde a década de 1990. Note-se que a pesquisa do Arquivo.pt complementa os motores de busca da web, uma vez que permite a pesquisa temporal de informação que já não se encontra disponível online nos seus sítios originais.

A análise do comportamento dos utilizadores é um importante tópico de investigação para compreender as suas necessidades de informação e melhorar a qualidade dos resultados de pesquisa. Assim, quando um utilizador interage com um motor de pesquisa, este regista as acções do utilizador num ficheiro denominado query log (registo de pesquisas). Os query logs sobre arquivos da Web são recursos únicos para a investigação porque descrevem as necessidades reais dos utilizadores de arquivos da Web sobre informações históricas que foram publicadas em linha.

Estudo de caso

Flavie Gallois e Adam Jatowt, da Universidade de Innsbruck, e Ricardo Campos, da Universidade da Beira Interior e do INESC TEC, analisaram o comportamento de pesquisa dos utilizadores com base no conjunto de dados de pesquisas do Arquivo.pt recolhidos durante um período de 3 meses, entre junho e setembro de 2021 (Analyzing User Search Behaviour in Temporal Web Repositories through Search Query Log Analysis).

Este estudo analisou as características das pesquisas, como o comprimento, o tipo ou a frequência, e comparou os resultados obtidos com trabalhos anteriores sobre o comportamento de pesquisa dos utilizadores em arquivos da Web e em motores de pesquisa da Web em tempo real.

O estudo revelou tendências e padrões fundamentais sobre o modo como os utilizadores procuram informações nos arquivos da Web, o que motiva a realização de mais trabalhos de investigação.

Como é que os utilizadores de arquivos Web pesquisam?

Figure 1 : Distribution of country origin of users
Figura 1 : Distribuição por país de origem dos utilizadores
Figure 2: Distribution of languages used in queries
Figura 2: Distribuição por língua utilizadas nas pesquisas

Os utilizadores eram de Portugal em 85,7% das pesquisas. No entanto, a língua portuguesa foi identificada através da identificação automática da língua das pesquisas como sendo utilizada em apenas 37% das pesquisas. Isto sugere que os utilizadores utilizam outras línguas que não a sua para pesquisar em arquivos Web.

Os utilizadores do Arquivo.pt tendem a utilizar queries mais longas, com mais palavras e caracteres, em comparação com estudos anteriores, tanto em arquivos da web como em motores de busca live-web. Cerca de 92% das pesquisas tinham 5 ou menos termos (média de 25 caracteres), sendo 3 o número mais comum de termos submetidos. No trabalho anterior sobre o comportamento de pesquisa em arquivos da Web, observou-se que os utilizadores tendiam a submeter de 1 a 3 termos por pesquisa, sendo 1 termo a submissão mais comum.

Os utilizadores tendem a fazer várias consultas numa sessão, em vez de uma única pesquisa, o que pode indicar a necessidade de aperfeiçoar as suas consultas de pesquisa ou de explorar várias opções de pesquisa

87,7% das pesquisas submetidas ao Arquivo.pt utilizaram browsers de desktop (computadores de secretária), apesar de o Arquivo.pt disponibilizar interfaces de utilizador amigáveis para telemóveis, as páginas antigas arquivadas na web não são responsivas e são mal renderizadas em dispositivos móveis. Assim, é expetável que os utilizadores utilizem maioritariamente os arquivos web através dos seus desktops.

Figure 3: Arquivo.pt users can refine the time span of their queries by using the From and To datepickers.
Figura 3: Os utilizadores do Arquivo.pt podem refinar o período de tempo das suas pesquisas utilizando os selectores de data “De” e “Até” (From and To).

Os utilizadores refinaram o período de tempo da pesquisa (utilizando os marcadores de data) em cerca de 50% das pesquisas, o que indica uma consciência das necessidades temporais próprias da utilização de arquivos Web. Curiosamente, os utilizadores modificaram o seletor de data “De” com mais frequência do que o seletor de data “Até”. Note-se que a manutenção do período de tempo predefinido pode corresponder às necessidades de informação do utilizador e não indica necessariamente a falta de conhecimento da existência da função de definição do período de tempo (própria da pesquisa em arquivos Web).

Apenas uma pequena percentagem de utilizadores incluiu anos específicos nos seus termos de pesquisa (4%), o que pode sugerir que a função de intervalo de tempo foi insuficiente ou passou despercebida a alguns utilizadores.

Os resultados obtidos sugerem que os utilizadores estão mais conscientes das suas necessidades de informação e que melhoraram as suas técnicas de pesquisa para serem mais eficazes nos arquivos Web, em vez de os utilizarem apenas por curiosidade, como primeiros utilizadores.

O que é procurado num arquivo Web?

Os autores do estudo aplicaram o reconhecimento automático de entidades (automatic entity recognition) sobre as pesquisas dos utilizadores e obtiveram um conjunto de nuvens de palavras que fornecem graficamente uma ideia das necessidades de informação mais comuns dos utilizadores do Arquivo.pt:

Figure 4: Word cloud of the most frequent query terms submitted to Arquivo.pt.
Figura 4: Nuvem de palavras dos termos de pesquisa mais frequentes submetidos ao Arquivo.pt.
Figure 6: The most frequent Geographical Locations in query terms submitted to Arquivo.pt.
Figura 6: As localizações geográficas mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.

Figure 6: The most frequent Organizations in query terms submitted to Arquivo.pt

    Figura 6: As organizações mais frequentes nos termos de pesquisa submetidos ao Arquivo.pt.
Figure 7: The most frequent Persons in query terms submitted to Arquivo.pt.
Figura 7: As pessoas mais frequentes nos termos de consulta submetidos ao Arquivo.pt.

Acesso ao dados das pesquisas no Arquivo.pt (query dataset)

O Arquivo.pt lançou um conjunto de recursos para apoiar estudos de investigação sobre as pesquisas dos utilizadores (query dataset):

Métricas de avaliação para pesquisa em arquivos Web

O primeiro passo para compreender o comportamento do utilizador é definir métricas de avaliação. A definição de métricas é uma ferramenta poderosa para estabelecer objectivos a longo e a curto prazo para decidir que novos produtos e funcionalidades devem ser lançados aos utilizadores.

Partilhamos um relatório de trabalho em curso que agrega informações sobre as métricas de avaliação da pesquisa em arquivos da Web: Web Archive Search Evaluation Metrics . Isto contribui para comparar o comportamento de pesquisa dos utilizadores entre os motores de pesquisa da Web em direto e os dos arquivos da Web. Não hesite em comentar diretamente o documento colaborativo ou em contactar-nos.

Este relatório fornece também um resumo de referências sobre trabalhos anteriores, fluxos de pesquisa e estrutura dos correspondentes registos de pesquisa produzidos pelo Arquivo.pt, para facilitar o trabalho dos investigadores no estudo destes conjuntos de dados.

Para saber mais

Dados abertos para Processamento da Linguagem Natural

Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

Última atualização em 13 de Dezembro de 2024 às 13:56

Arquivo.pt preservou documentos online em várias línguas sobre as Eleições Parlamentares Europeias de 2019

As Eleições Parlamentares Europeias de 2019 foram um evento de relevância internacional. A estratégia para preservar a informação relevante na World Wide Web é delegada às instituições nacionais. No entanto, a preservação de páginas web que documentam eventos internacionais ainda não foi oficialmente atribuída.

A equipa do Arquivo.pt, com o objetivo de preservar o conteúdo online multilingue que documenta este evento, aplicou uma combinação de processos humanos e automáticos de seleção.

O processo de geração da coleção sobre as Eleições Parlamentares Europeias de 2019 foi realizado em duas etapas.

Na primeira etapa, foram identificados 40 termos relevantes em português sobre as Eleições Parlamentares Europeias de 2019, que foram posteriormente traduzidos automaticamente para as 24 línguas oficiais da União Europeia: búlgaro, croata, checo, dinamarquês, holandês, inglês, estónio, finlandês, francês, alemão, grego, húngaro, irlandês, italiano, letão, lituano, maltês, polaco, português, romeno, eslovaco, esloveno, espanhol e sueco.

Estas traduções foram revistas em colaboração com o Publications Office of the European Union. Além disso, paralelamente, foi lançada uma lista colaborativa para reunir contribuições de endereços relevantes oriundos da comunidade internacional.

Na segunda etapa, a equipa do Arquivo.pt executou iterativamente 6 recolhas (99 milhões de ficheiros web, 4,8 TB) utilizando diferentes configurações e software de recolha, para maximizar a qualidade do conteúdo recolhido.

Os dados web obtidos foram agregados numa coleção especial identificada como EAWP23 e tornaram-se pesquisáveis ​​e acessíveis através do Arquivo.pt em julho de 2020 (https://arquivo.pt/ee2019).

Projeto CLEOPATRA: Cross-lingual Event-centric Open Analytics Research Academy

Daniel Gomes e Diego Alves se apresentando no evento final do CLEÓPATRA
Daniel Gomes e Diego Alves apresentando no evento final do CLEÓPATRA.

CLEOPATRA ITN foi uma Rede de Formação Inovadora Marie Skłodowska-Curie destinada a gerar formas de compreender melhor a cobertura digital massiva de grandes eventos na Europa durante as últimas décadas.

O principal objetivo era facilitar o processamento avançado multilíngue em grande escala de informações textuais e visuais acerca dos principais eventos contemporâneos e desenvolver métodos inovadores para acesso e interação eficientes com informações multilíngue.

No total, 14 pesquisadores em estágio inicial hospedados em 9 universidades europeias desenvolveram suas pesquisas enquanto estavam matriculados como estudantes de doutoramento.

Parceiros associados como o Arquivo.pt contribuíram para o CLEOPATRA acolhendo e formando investigadores em início de carreira como Diego Alves. No âmbito do programa de formação,  este investigador realizou um estágio no Arquivo.pt em Lisboa de junho a agosto de 2022.

A ideia era desenvolver parte da sua investigação sobre estruturas sintáticas das línguas da UE utilizando os recursos textuais preservados pelo Arquivo.pt e trocar conhecimentos com os especialistas em preservação da web sobre estratégias de extração e processamento de dados históricos da web.

Diego Alves defendeu a sua tese de doutoramento intitulada Computational typological analysis of syntactic structures in European languages em julho de 2023 na Faculdade de Ciências Humanas e Sociais da Universidade de Zagreb (Croácia).

Gerando conjuntos de dados textuais para processamento de linguagem natural

O trabalho de Diego Alves originou conjuntos de dados multilíngues sobre as Eleições Parlamentares Europeias de 2019 que constituem recursos preciosos para investigação científica.

Este trabalho será detalhado no capítulo “Robustness of Corpus-based Typological Strategies for Dependency Parsing” do livro de acesso aberto CLEOPATRA intitulado “Event Analytics across Languages and Communities”.

Um fluxo de Processamento de Linguagem Natural em 3 etapas foi desenvolvido para gerar conjuntos de dados textuais que podem ser usados ​​em diversos tipos de estudos na área de Humanidades Digitais:

  1. Extrair texto: O conteúdo textual foi extraído de cada URL arquivado usando a biblioteca Python newspaper3k. O idioma de cada texto extraído foi determinado usando a biblioteca langdetect e os textos escritos em diferentes línguas foram armazenados em ficheiros distintos;
  2. Limpar textos extraídos: um script Python foi aplicado para limpar os textos removendo informações desnecessárias (ex.: instâncias repetidas, linhas vazias, etc.);
  3. Dupla verificação de identificação de língua: a língua de cada texto extraído e limpo foi verificada novamente para eliminar possíveis erros originados durante as etapas anteriores.

Dois novos conjuntos de dados para investigação em acesso-aberto!

Um dos resultados obtidos foi um conjunto de dados contendo textos agrupados por língua disponível publicamente. Cada ficheiro contém os textos numa determinada língua sobre as Eleições da União Europeia de 2019. A distribuição dos textos extraídos para cada língua está descrita na figura abaixo:

Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).
Número de tokens de cada corpus extraídos da coleção Eleições da União Europeia 2019 preservados pelo Arquivo.pt (EAWP23).

O referido corpus foi anotado automaticamente quanto às relações gramaticais e de dependência para gerar um corpus com informações sintáticas úteis para estudos linguísticos.

Foi aplicado  o modelo multilíngue da ferramenta UDify (Kondratyuk e Straka, 2019).

Os textos anotados seguiram a mesma ordem dos respetivos ficheiros de texto originais. Cada frase foi anotada seguindo a Universal Dependencies framework no formato CoNNL-U, que é a referência em termos de anotação sintática em Processamento de Linguagem Natural. Assim, cada ficheiro deste conjunto de dados contém os textos anotados numa determinada língua sobre as Eleições da União Europeia de 2019.

Os textos anotados sintaticamente sobre as Eleições Europeias de 2019 estão disponíveis ao público!

Saber mais

Participação do Arquivo.pt em eventos internacionais sobre arquivos da Web

logo-IIPC

Última atualização em 1 de Agosto de 2023 às 12:54

Encontro com a comunidade dos arquivos da Web

O Internacional Internet Preservation Consortium (IIPC), consórcio que reune inicitivas de preservação da Web de todo o mundo, realizou a Assembleia Geral com os seus associados no dia 10 de maio de 2023.

Nos dias seguintes, 11 e 12 de maio, realizou-se a IIPC Web Archiving Conference (IIPC WAC), uma iniciativa aberta à comunidade, onde podem participar pessoas ou entidades não associodas ao IIPC e interessadas no domínio da preservação da Web.

O acolhimento dos dois eventos foi feito conjuntamente pela KB – National Library of the Netherlands, e pelo Beeld &  Geluid – Netherlands Institute for Sound & Vision.

Contributos do Arquivo.pt na Web Archiving Conference

O Arquivo.pt participou nas reuniões dos grupos de trabalho do IIPC (Training Working Group e Curators Working Group) e contribuiu com apresentações nas sessões temáticas  Collaborations & Outreach e Program infrastructure (sessões 7 e 17).

  • Arquivo.pt updates 2023 (slides)
  • Linking web archiving with arts and humanities: the collaboration between ROSSIO and Arquivo.pt (video, slides)
  • Arquivo.pt behind the curtains (slides)

Encontro com a comunidade dos investigadores RESAW

RESAW (Research Infrastructure for the Study of Archived Web Materials) é uma iniciativa criada em 2012 com o objetivo de promover os estudos baseados em conteúdos Web arquivados, em áreas como Ciências Sociais, Artes e Humanidades Digitais.

A conferência RESAW 2023 foi realizada no MUCEM Lab (Mediterranean Institute of Heritage Crafts), em Marselha, de 5 a 6 de junho de 2023, sob o tema Exploring the Archived Web During a Highly Transformative Age.

Contributos do Arquivo.pt no RESAW 2023

O Arquivo.pt contribuiu com apresentações para as sessões Web Archive in Mediterranean area and its merge(4.A,), From online Tools to Web Archive (6.B.), Towards a participatory approach to collections (9. A.), Digging up the materials for writing web history (9.B.).

  • How to research governmental web data? (abstract, slides)
  • Archiving Cryptocurrencies (abstract, slides)
  • Time to explore, time to learn from the archived web: Arquivo.pt training initiative (abstract, slides)
  • Exhibiting Web Memories from Arquivo.pt: a call for community participation (abstract, slides)

Encontro do Projeto CLEOPATRA

O Projeto CLEOPATRA, liderado pelo L3S Research Center at the Gottfried Wilhelm Leibniz University of Hannover, desenvolveu desde 2019 um progama de formação para investigadores doutorandos (Early Stage Researcher, PhD).

O Arquivo.pt participou em três cursos: Incentives design for hybrid multilingual information processing and analytics, em Southampton; National and transnational media coverage of European parliamentary elections, 2004-2014, Londres; e NLP for under-resourced languages, em Zagreb, na Croácia.

Em 2022, o Arquivo.pt acolheu dois investigadores nas suas instalações os quais utilizaram os recursos arquivados e tiveram apoio especial da equipa do Arquivo.pt para desenvolverem a sua investigação.

O projeto CLEOPATRA terminou em 2023 com a realização de um encontro a 16 de maio, em Hannover, que reuniu professores, investigadores e representantes de instituições envolvidas.

Daniel Gomes, Gestor do Arquivo.pt, destacou as novas ferramentas que o Arquivo.pt disponibiza e os resultados dos trabalhos realizados pelos investigadores que passaram pelo Arquivo.pt.

  • Secondments@Arquivo.pt and new research tools available (Slides)

Continuam as sessões online Café com o Arquivo.pt

banner-cafe-com-o-arquivo-pt

Última atualização em 6 de Agosto de 2024 às 14:10

banner-cafe-com-o-arquivo-pt

Partilhe esta página: arquivo.pt/cafe

Bem vindos à 3ª temporada do Café com o Arquivo.pt

O Arquivo.pt continua a oferecer à comunidade sessões online que endereçam tópicos relacionados com a preservação da informação publicada na web.

Ouça os convidados e converse directamente com a equipa do Arquivo.pt para saber como tirar maior partido do serviço e concorrer a mais uma edição anual do Prémio Arquivo.pt.

Sessões da 3ª temporada

Sessão especial Dia Mundial da Preservação Digital 2021 – 5 de novembro – Major Minors

No mês de novembro comemora-se o Dia Mundial da Preservação Digital e para assinalar esta iniciativa internacional, o Arquivo.pt realizou uma sessão online aberta à comunidade.

O trabalho dos convidados especiais desta sessão, Leandro Costa, Paulo Martins e José Carlos Ramalho (orientador), foi o 1º classificado do Prémio Arquivo.pt 2021.

22ª sessão – 20 de janeiro de 2022 – Politiquices

O Politiquices.pt permite pesquisar relações de apoio ou oposição entre personalidades e partidos políticos expressas em títulos de notícias. Esta aplicação utiliza informação preservada no Arquivo.pt para criar uma ontologia de relações, recorrendo a tecnologia de processamento de linguagem natural.

David Batista, 2º classificado do Prémio Arquivo.pt 2021, explica como desenvolveu o seu trabalho e demonstra as aplicações para os investigadores e cidadãos em geral.

21ª sessão – 17 de fevereiro de 2022 – Primeiras páginas de jornais online portugueses

Primeiras páginas de jornais online portugueses” apresenta uma análise gráfica interativa das primeiras páginas de jornais online portugueses. Para este estudo foram analisados itens específicos dentro do desenho de jornais, permitindo assim observar tendências ao longo do tempo.

Susana Parreira, explica como desenvolveu este trabalho no âmbito do seu mestrado, com a colaboração e orientação de Ana Boavida (Universidade de Coimbra) Ana Sabino (Instituto Politécnico de Castelo Branco e Penousal Machado.

Temporadas anteriores

Apresentação na IIPC Web Archiving Conference

Arquivo.pt preserva websites de projectos científicos nacionais

thumbnail_memoriafct

Última atualização em 26 de Fevereiro de 2021 às 13:06

Preservar os websites de projectos científicos é importante

Os conteúdos dos websites tendem a desaparecer quando os projetos científicos terminam.

A preservação dos websites de projetos científicos é importante porque:

  • documenta o desenvolvimento dos projetos;
  • assegura o acesso a conteúdos técnicos e científicos únicos que os investigadores publicaram nos websites dos projetos (ex. apresentações, fotografias, conjuntos de dados);
  • reforça a visibilidade dos resultados dos projetos financiados pela FCT.

Recolha experimental dos websites dos projetos de científicos em 2016

O Arquivo.pt recolheu websites de projetos financiados pela FCT em 2016 de forma automática.

A informação acerca destes websites estava dispersa pois não era registada durante o processo administrativo.

Durante cerca 20 anos a FCT financiou projetos científicos, por isso o número de sites poderia ser demasiado elevado para serem identificados manualmente.

Foi então adoptada uma metodologia automática de identificação destes websites desenvolvida pelo Arquivo.pt.

A base de dados da FCT tinha um total de 11 996 entradas de projetos mas não incluía referências a endereços web. Aplicando a metodologia automática foram identificados 7 956 URLs relacionados com os projectos científicos financiados.

A recolha dos conteúdos referenciados por estes endereços resultaram na preservação de 600 721 ficheiros (72 GB), incluindo conteúdos tais como páginas da web de grupos de pesquisa, páginas pessoais de investigadores ou blogs relacionados com os projetos.

Referências online em relatórios de projectos científicos passaram a ser preservadas a partir de 2020

A partir de junho de 2020, os endereços dos websites dos projetos financiados pela FCT passaram obrigatoriamente a ser registados nos relatórios de progresso e final submetidos à FCT.

O Arquivo.pt passou a utilizar estes endereços para preservar o conteúdos de websites de projetos científicos nacionais de forma sistemática.

1ª recolha oficial de websites de projectos científicos

Em junho de 2020, o Arquivo.pt obteve 263 endereços relacionados com 100 projetos científicos a partir dos relatórios financiados pela FCT. Grande parte dos endereços (67%) não tinha qualquer versão anteriormente preservada no Arquivo.pt.

Os endereços obtidos apontam para recursos online tais como os websites dos projetos, unidades de I&D, notícias nos media, artigos em revistas científicas ou repositórios, base de dados, vídeos no Youtube ou páginas do Facebook.

Em julho de 2020, lançou-se uma recolha especial a partir deste conjunto de endereços que resultou em 6,9 GB de informação obtidos a partir da visita a 31 606 URLs.

Exposição acerca de projetos de Investigação & Desenvolvimento

A Memória da Investigação Científica é uma exposição online dedicada aos websites de projetos científicos financiados pela Fundação para a Ciência e a Tecnologia (FCT) que o Arquivo.pt tem preservado.

Encontram-se também websites das Unidades de Investigação & Desenvolvimento financiadas pela FCT.

Memorial do Arquivo.pt preserva gratuitamente websites científicos

O serviço Memorial do Arquivo.pt tem preservado websites históricos da FCT que foram desativados. Estes foram criados para eventos ou iniciativas que terminaram e por isso os seus conteúdos deixaram de ser actualizados.

Para incluir um website no Memorial, o Arquivo.pt começa por fazer uma recolha de alta qualidade dos seus conteúdos.

Em seguida, os conteúdos recolhidos são validados em colaboração com os responsáveis pelo website.

Finalmente, o endereço do website é redireccionado para os conteúdos que passaram a ser preservados pelo Arquivo.pt.

Por exemplo, se alguém quiser aceder a qualquer página do site do Encontro Arquivos Científicos realizado em 2014, será redirecionado para o Arquivo.pt.

Assim, os conteúdos permanecem acessíveis ao longo do tempo e os links, as referências em comunicações científicas que possam existir não se quebram.

O serviço de preservação digital Memorial do Arquivo.pt não tem custos para websites da comunidade académica e científica, bastando enviar um pedido para contacto@arquivo.pt.

Para saber mais

Arquivos online ou do online?

thumbnail_tendencias

No final de 2020, recomendamos alguns textos que colocam o futuro em perspetiva.

Destacamos o tema da preservação dos conteúdos online, apresentado no livro   “Tendências 2021”, mais precisamente no capítulo intitulado “Arquivos online ou do online?” da autoria de Daniel Gomes, Gestor do Arquivo.pt.

Fui convidado para escrever acerca dos desafios e ameaças aos arquivos online. A primeira questão que me surgiu foi o que se entende por um “arquivo online”?

A minha preocupação reside nos “arquivos do online” porque ainda nem existe uma consciência instituída acerca da sua necessidade, seja a nível académico, governamental ou individual.

É tecnologicamente impossível preservar toda a informação online. Mas é um absurdo não ter a consciência, e consequentemente a acção, de que temos de preservar alguma da informação online para acesso a curto, médio e longo prazo.

Leia o texto na íntegra nas páginas 23 a 26 do livro em acesso-aberto “Tendências 2021”.

O desafio é cultivar a consciência da importância de preservar conteúdos online aprendendo como fazê-lo na prática.

Votos de Bom Ano!

Coleção histórica do Geocities disponível no Arquivo.pt

thumbnail research_geocities

Última atualização em 23 de Setembro de 2021 às 15:30

O Geocities.com foi a primeira grande “rede social” que permitia a qualquer pessoa criar o seu website e difundir informação através da Internet. Foi criado em 1994, adquirido pela Yahoo! em 1999 e encerrado em 2009.

Surgiram iniciativas para preservar os conteúdos do Geocities, tais como o projecto do Archive Team que reuniu 641 GB de informação em 2009, o oOCities ou o Geocities.ws.

Dada a relevância histórica do Geocities, o Arquivo.pt também integrou os seus conteúdos que prevaleceram até aos dias de hoje.

Agora, qualquer pessoa pode facilmente explorar os conteúdos históricos do Geocities utilizando as ferramentas inovadoras de pesquisa disponibilizadas pelo Arquivo.pt como a pesquisa de páginas, pesquisa de imagens ou via API.

Com esta iniciativa, o Arquivo.pt pretende contribuir para o surgimento de estudos inovadores em áreas como Artes, Humanidades ou Sociologia (ver sumário do projecto).

Pesquise agora o Geocities em: arquivo.pt/searchGeocities

Exemplos de sites Geocities preservados no Arquivo.pt

Video Enhancing access to research the Geocities historical collection

Enhancing access to research the Geocities historical collection, Pedro Gomes, RESAW 2021 (slides)

 

Conheça os vencedores do Prémio Arquivo.pt 2020!

Última atualização em 22 de Agosto de 2024 às 15:20

Os vencedores do Prémio Arquivo.pt 2020 foram anunciados pelo Jornal Público, parceiro oficial de comunicação desta edição, que atribuiu uma menção honrosa ao melhor trabalho baseado nos conteúdos do jornal. Foram recebidos 29 trabalhos candidatos.

A cerimónia de entrega de prémios decorreu durante o Ciência 2020 – Encontro com a Ciência e Tecnologia, dia 4 de novembro, no Centro de Congressos de Lisboa.

1º classificado – “Desarquivo”

O vencedor do prémio no valor de 10 000 euros foi o trabalho “Desarquivo” desenvolvido por Miguel Ramalho.

“Desarquivo” é um website que permite pesquisar por entidades (ex. pessoas, organizações e locais) e identificar relações entre elas, a partir das notícias publicadas em jornais online ao longo do tempo.

Os resultados das pesquisas são apresentados na forma de um grafo ou rede de relações que permitem a um jornalista, investigador ou qualquer outro cidadão explorar dinamicamente as relações entre informação histórica preservada da Web pelo Arquivo.pt.

Por exemplo, um utilizador pode visualizar a maior ou menor proximidade entre partidos políticos ao longo do tempo.

2º classificado – “Extensão Arquivo.pt”

O 2º prémio no valor de 3 000 euros foi atribuído ao trabalho “Extensão Arquivo.pt”, uma extensão para browser desenvolvida por Rodrigo Marques e Hugo Silva.

Esta ferramenta permite realizar pesquisas avançadas no Arquivo.pt diretamente a partir do browser, sem necessitar de abandonar a página que está visualizar no momento.

A “Extensão Arquivo.pt” está disponível para download na Chrome Web Store.

3º classificado – “Arquivo Económico .pt”

O 3º classificado recebeu um prémio no valor de 2 000 euros e foi atribuído ao trabalho “Arquivo Económico .pt” de Nuno Bragança.

O “Arquivo Económico .pt” organiza e apresenta a informação preservada pelo Arquivo.pt acerca dos preços de produtos desde o tempo do escudo português.

Como resultado temos uma interface Web que permite pesquisar o preço de bens de consumo por diversas categorias, tais como supermercado, transportes e diversos, em determinadas datas.

Por exemplo, o utilizador pode saber quanto custava em 1999 uma viagem de comboio ente Lisboa-Porto ou uma chamada de telemóvel.

Menção Honrosa do Público

O Jornal Público, parceiro oficial da 3ª edição do Prémio Arquivo.pt atribuiu a sua Menção Honrosa ao trabalho “Jornal do Passado”, desenvolvido por Bruno Galhardo.

“Jornal do Passado” é um jogo para todas as idades, desenvolvido para Android, no qual o utilizador põe à prova os seus conhecimentos sobre notícias/eventos tentando adivinhar a data em que ocorreram.

Como resultado temos uma app que nos permite pesquisar a informação histórica preservada pelo Arquivo.pt de uma forma pedagógica e divertida.

Galeria de imagens

Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
20201104-EncontroCiencia-0140
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 no grande auditório do Centro de Congressos de Lisboa
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020
Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 20201104-EncontroCiencia-0140 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 no grande auditório do Centro de Congressos de Lisboa Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020 Entrega de prémios na sessão de encerramento do Encontro Ciência 2020

Saber mais

Use browsers do passado e exporte resultados com a nova versão do Arquivo.pt

Exportação de resultados do Arquivo.pt em Excel

O Arquivo.pt lançou uma nova versão do seu serviço no dia 1 de julho de 2020 denominada Responsive.

O objetivo desta versão foi melhorar a experiência de utilização entre diferentes dispositivos e adicionar novas funcionalidades.

Experimente “Ver com browser antigo”!

Adicionámos uma opção para ver a página preservada utilizando também um browser do passado. Nas Opções escolha Ver com browser antigo e será redirecionado para o serviço oldweb.today que emula browsers do passado como por exemplo o Netscape Navigator, Microsoft Internet Explorer ou o NSCA Mosaic.

Este serviço é útil para investigação, em áreas como o Web design, Arte, Comunicação ou História, em que é necessário aceder da forma o mais fidedigna possível ao aspeto visual original de uma página do passado.

Página da Expo 98 vista no Internet Explorer através do serviço Oldweb.Today (printscreen)
Página da Expo 98 vista no Internet Explorer 4.0 através do serviço Oldweb.Today (printscreen)

Faça a sua experiência para ver a página da Expo’98  com um browser antigo ou outra página antiga à sua escolha. Poderá ter de aguardar um pouco para o processamento do seu pedido mas sempre é mais rápido do que conseguir instalar um browser do passado no seu computador.

Exportar resultados de uma pesquisa

Esta nova função permite guardar os resultados da sua pesquisa para posterior tratamento e análise. Isto é especialmente útil para realizar investigações exaustivas acerca de um determinado tópico.

Após uma pesquisa, nas Opções basta escolher um dos formato disponíveis para exportação dos resultados obtidos: XLSX, CSV ou TXT.

 

Exportação de resultados do Arquivo.pt em Excel
Exportação de resultados do Arquivo.pt em Excel de uma pesquisa simples ao termo “universidade” com limite de 10 resultados

Mais novidades da versão Responsive

Prémio Arquivo.pt 2019 – Candidaturas abertas!

Última atualização em 6 de Agosto de 2024 às 17:27

O Prémio Arquivo.pt 2019 está oficialmente com as candidaturas abertas. O prazo para submissão de trabalhos vai até às 13h do dia 03 de maio.

São 15 000 euros em prémios para os três primeiros trabalhos.

Estão aptos a concorrer trabalhos individuais ou em grupo sobre quaisquer temas, desde que o Arquivo.pt seja a fonte principal de informação.

Veja como inscrever-se em: arquivo.pt/premio2019

Boa sorte!