Textstruktur; speciella tillämpningar; andra indata

  1. Informationsextraktion
  2. Filtrering
  3. Sammanfattning
  4. Flerspråkig informationssökning
  5. Talsökning och OCR-sökning

  6.  
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

Informationsextraktion

 
 
 

Informationsextraktion

 
 
 
 
 

Informationsextraktion - datastrukturer

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Informationsextraktion - processteg

  1. Lexikal och morfologisk analys
  2. Namnigenkänning
  3. Syntaktisk analys
  4. Uppgiftsspecifika mönster
  5. Integration av referenskedjor och andra textuella sammanhang
  6. Inferenser
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Lexikal och morfologisk analys

Lexikal analys med hjälp av grammatiska lexika och en stor mängd speciallexika, såsom företagsnamnböcker och slikt.

Exemplet är engelska, så någon morfologisk analys behöver inte redovisas :-|.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

Namnigenkänning

Enkla tumregler och specialordböcker gör att namn går att känna igen ganska enkelt:
 

Personnamn:

Titel: tf professor Jussi Karlgren
Typiskt förnamn: Fred Karlsson
Typiskt suffix: Jr.
Mellaninitial: Kari K Pitkänen
 

Företagsnamn:

Paperinkeräys OY
Skandinaviska Enskilda Banken
Pizzeria Mamma Rosa
Waiguo Ren Restaurant

Specialordböcker är nödvändiga i vilket fall - i synnerhet för platsnamn
 

Namnvarianter:

Hewlett Packard Corp. - HP
William Jefferson Clinton - Bill Clinton - Bill
Margareta af Uggla - friherrinnan af Ugglas
 

Tidsuttryck

Förra veckan                  7 december 1986
 
 

 

Syntaktisk analys

  Proteus plockar ihop enklare nominalfraser - substantiv med framförställda attribut - och verb med hjälpverb på rent lokala grunder;
om det finns fog för det, semantiskt, plockar den ihop större nominalfraser också.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

Syntaktisk analys

I exemplet känner systemet igen

company description, company-name

och

position of company

och använder en enkel begreppshierarki för att kolla sortrestriktioner.

manufacturer isa company
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

Uppgiftsspecifika mönster ("Scenario patterns")

person retires as position

person is succeeded by person
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

Metaregler - regelscheman

Även enkla relationer kan uttryckas med en mängd konstruktioner. Proteus använder regelscheman:
  med platshållare för eventuellt inskjutna attribut av olika slag
   
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 
 

Hur skapa mönster

   
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Referenskedjor

   
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Inferens

Sam was president: he was succeeded by Harry. => Harry is president.

Sam will be president; he succeeds Harry. => Harry was president.
 

Evaluering

Precision och täckning jämförs fält för fält med ett manuellt facit.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

Filtrering

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Jämfört med informationssökning

  1. Beständigt behov
  2. Dynamisk dokumentmängd
  3. Reducering av information, snarare än hämtning av detsamma: binär klassifikation

Jämfört med informationsextraktion

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Flerspråkig sökning

Ansatser

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Flaskhalsar

Många system kräver bättre lexika än vad som finns idag, och många kräver parallella texter - vilka är dyra att få tag på och producera.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Exemplet LSI

  1. Införskaffa ett parallell-korpus.
  2. Bygg ett LSI-index med både käll- och målspråket samtidigt.
  3. Om korpus är tillräckligt stor är LSI-rymden stabil, och tillåter att nya dokument adderas ("viks in").
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Brussökning

 

Talsökning

  Men transkription är svårt, och antalet ord som kan kännas igen är en storleksordning färre än antalet ord i typiska samlingar. Speciellt är ovanliga ord - namn, till exempel - utmärkta indexeringsnycklar. Och de finns aldrig i lexika.

OCR-sökning