- 2018. április 13., 10:00
A projekt egyelőre csak kísérleti, de később nagyon hasznos lehet például a digitális asszisztenseknél.
Hirdetés

A Google folyamatosan fejleszti szolgáltatásait, a digitális személyi asszisztenseknél azonban belefutott egy érdekes problémába: a beszédfelismerés nagyon jól működik akkor, ha csak a beszélő hangját hallani, illetve háttérzajokat, viszont a szoftver gondban van akkor, ha egyszerre többen is beszélnek. Márpedig ilyen elég gyakran előfordul. Ez persze nem véletlen: a Google algoritmusa a gépi tanulás révén több (tíz)ezer féle hangmintát ismer fel, és ezeket nagyon hatékonyan ki tudja szűrni egy hangfelvételről, azonban ez a módszer arra nem alkalmas, hogy több beszélő hangját el lehessen különíteni egymástól.

A fejlesztők ezért egy másik megoldást választottak: készítettek egy olyan algoritmust, amely a beszélők arcát, elsősorban a szájmozgást figyeli, és az így szerzett extra információkat használja fel ahhoz, hogy a hangfelvételen szereplők beszélgetéseit külön-külön rögzítse.

Egyelőre nem tudni, hogy a Google pontosan mihez szeretne kezdeni a technológiával; az biztos, hogy a megoldás a digitális személyi asszisztensek működését pontosítani tudja, de könnyen elképzelhető a felhasználása orvosi területen is. Javítható vele továbbá az automatikus feliratkészítő rendszerek hatékonysága is, amelyek eléggé küszködnek akkor, ha egyszerre többen is beszélnek. Egyelőre a lehetőségek értékelése folyik; de annyi azért biztos, hogy a Google először a saját szolgáltatásait szeretné majd felturbózni az újdonsággal.

Ezek is érdekelhetnek

2011. december 18., 12:00
2011. augusztus 31., 15:00
2011. július 25., 12:00
Hozzászólások