Fraasien tunnistus on tärkeää sekä yksikielisessä tiedonhaussa että kieltenvälisessä tiedonhaussa (CLIR). CLIRissä fraasien tunnistus on erityisen tärkeää: jos fraaseja ei tunnisteta ja käännetä fraaseina, niiden merkitys voi muuttua täysin käännöksessä.
Fraasien tunnistuksen edut ilmenevät parhaiten seuraavissa tapauksissa:
Fraasien tunnistuksen perusmenetelmiä on kolme erilaista:
Näistä keinoista POS-tunnistus on jo käsitelty aiemmin. POS-tunnistus auttaa fraasisen tunnistamisessa siten, että tyypillisissä fraaseissa on tiettyjen sanaluokkien sanoja: a red house (Det Adj Noun) = NP. Kun POS-tunnistus on tehty, voidaan lausekkeita tunnistaa etsimällä sopivia sanaluokkajonoja.
Kollokaatiolla tarkoitetaan sanan merkitykseen perustuvaa taipumusta esiintyä yhdessä tietynlaisten sanojen kanssa, sanat siis kollokoivat keskenään. Jos kaksi tai usempi sana näyttää tesktikorpuksen tilastollisen tarkastelun perusteella esiintyvän usein peräkkäin, voidaan olettaa sanojen muodostavan fraasin.