人工智能还有哪些让你意想不到？百度大脑开放日AI技能全面解锁-人工智能-ITBear科技资讯

在AI技术逐渐渗透产业发展、落地的过程中，开发者可谓是最重要的一环。3月20日，首场百度大脑开放日在北京中关村创业大街百度大脑创新体验中心举行，此次活动旨在为AI开发者提供及时、全面、近距离的了解百度大脑最新AI产品和案例，帮助更多开发者探索AI前沿应用，并且能与百度AI技术大拿们进行深度、持续的交流。

活动当天，百度AI技术生态部总经理喻友平，就百度大脑平台与生态进行了全面的详解，同时展示了百度大脑开放平台Q1核心升级内容，包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出，以及开源深度学习框架方面的优化升级，更有多个应用场景案例与大家分享，可谓干货满满，广受前来参加活动的开发者与媒体们欢迎与称赞。

PaddlePaddle：用深度学习赋能智能+的方方面面

1.业界首个视频分类模型库：新增视频模型库，提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码，用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。

2.基于PaddlePaddle的BERT多机多卡和混合精度训练。新增支持NLP语义表示BERT模型，支持多机多卡训练，支持混合精度训练，训练速度对比主流实现提升50%+，提供完整部署示例。

3.分布式训练性能大幅提升：大规模稀疏参数服务器Benchmark发布， CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader，多机多卡训练性能多方面提升。

并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍，PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性，支持可定制的并行扩展，覆盖DQN、DDPG、PPO、A3C等主流强化学习算法。通过8块GPU拉动近20000个CPU节点运算，将近5个小时迭代一轮的PPO算法加速到不到1分钟。

如今，百度PaddlePaddle已经广泛应用于农业、林业、工业、零售、人力、制造、石油、通讯、地产、汽车等多个行业领域，与合作伙伴一起帮助越来越多的行业完成向“智能+”的升级转变。

语音方向：首次开放搭载国际领先的注意力模型的语音能力：语音识别极速版

根据喻友平介绍，目前百度大脑语音开放能力包括语音唤醒、语音识别、语音合成等通用能力，还包括即将推出的语音识别自训练平台、软硬一体的语音开发套件以及各种场景方案。

1月的百度输入法探索版发布会上，首次发布了领先国际的语音技术：在线语音领域全球首创的流式多级截断注意力模型SMLT「Streaming trancated multi-layer attention」。这是首次在大规模语音识别工业界采用注意力(attention)模型，在百度输入法产品发布后，惊艳的语音输入体验得到了业界的一致好评。基于以上成果持续进行更多创新，提升识别率的同时又大幅优化解码速度。百度大脑语音方向首次将这一系列技术创新整合为语音能力对外开放：“语音识别极速版”，拥有更快的响应速度，相对识别准确度提升15%，为开发者带来更极致的识别体验。

此项语音能力在API调用方式下，实时率小于0.1，意味着5s的音频不到500ms即可完成识别过程，极大减少了识别音频所需的耗时，提升了语音交互的响应体验。在近距离安静环境下，识别准确率可达到98%，同时支持略带口音、童声、耳语的识别，使语音识别应用更加广泛。多平台的SDK也即将推出，使APP、服务器端更可实时识别，应用这一领先技术。目前，每个开发者账户将赠送5W次免费调用量，针对新能力的使用者，也即将推出一系列赠送及优惠活动。

同时，近场语音识别升级了预置语义解析。预置场景由35个升级为51个，包括天气、航班、电话、电影播放、页面屏幕控制、电视剧、美食、手机设置、通用录、提醒、短信、故事等，语义解析效果全面优化，80%优于原有解析结果。

不仅如此，还有一些新品即将上线。如：语音识别自训练平台，支持自动评估选出最好的基线模型，仅上传业务场景文本语料即可训练语言模型，零代码自助训练专属的语音识别模型，极大地方便语音开发者提升所在业务场景的识别准确率，满足业务上的语音识别需求。另外，远场语音开发套件也即将上架售卖，可快速进行远场识别开发评估，此套件应用于机器人、儿童故事机、家电、车载设备等硬件。同时还将开放离线合成，以及推出更多音库。

视觉方向：从车到人再到“证” 用AI都能看得清

在百度大脑开放日，喻友平还介绍了视觉方向更新升级的四方面内容，包括OCR、车辆分析、人脸人体以及图像识别。

首先，在极大便捷工作的OCR方面：1.新增了卡证OCR 4个新能力：户口本OCR、出生医学证明OCR、港澳通行证OCR、台湾通行证OCR，总数达到9种;

新增票据OCR 4个新能力：行程单OCR、保单识别OCR、通用机打发票OCR，定额发票OCR，总数达到9种;

汽车场景3个新能力：车辆VIN OCR、机动车销售发票OCR、车辆合格证OCR，总数达到6种。这些OCR新能力在关键字段的准确率均在90%以上，并有多项是业界首次平台化开放。至此，OCR产品全系列共34款，实现卡证、票据、文档、汽车全场景覆盖。

同时，对已有的OCR能力也进行了功能升级：表格识别：支持合并单元格、无表格线等复杂样式;iOCR 自定义模版文字识别：支持列宽不固定、有合并单元格的表格样式的定制识别;驾驶证识别：支持驾驶证副页的识别。

其次，在车辆分析方面，推出全新系列服务：包括车辆检测、车流统计、车辆属性分析和外观损伤识别。其中，车辆检测，通过识别图像中的所有机动车辆(包含小汽车、卡车、巴士、摩托车、三轮车)，返回每辆车的类型和坐标位置，并对每类车辆分别计数，可应用于违章停车监测和智能停车场。

(车辆检测)

车流统计，则根据视频抓拍图片序列，进行车辆检测和追踪，识别各类车辆(包括小汽车、卡车、巴士、摩托车、三轮车)在指定区域内的驶入/驶出情况，实现动态车流统计，可应用于实时监控交通道路、卡口的车流量，自动统计不同时段各类车辆的进出数量，分析路口、路段的交通状况，为交通调度、路况优化提供精准参考依据。而车辆属性分析和外观损伤识别两项服务，也即将开放，尽请期待。

(车辆属性识别)

在人脸人体识别方面，新发布了情绪识别，可以准确识别7类情绪：生气、害怕、厌恶、高兴、悲伤、惊讶、无情绪。此项技术可应用于幼儿园安全监控等场景，通过监控孩子的心理状态，判断教师和幼儿是否有异常状况，从而保障幼儿安全、及时预警并参与辅导等。同时人脸融合以及手部关键点将在3月推出。此外还有2项功能全新升级，包括：人脸检测快速检测人脸并返回人脸框位置、定位五官与轮廓关键点数量，从72个增加至150个;新增2种手势，共24种常见手势，整体识别率在90%以上，使得手势识别更丰富、更准确;而即将上线的更高进精度的人像分割，可应用于人像美图、影视后期等场景。

而在图像识别方面，新增红酒识别和地标识别这2个新能力。通过红酒识别，用户只需要对着红酒标签拍照，系统就能自动识别红酒的品牌和名称，目前可识别数十万种国内外红酒，识别准确率98%以上，从法国波尔多到中国张裕，商品信息都能得到准确关联，可以轻松为用户提供参考和商品推荐。而地标识别则能够精准识别约5万中外著名地标、景点，准确率高达94%以上。用户只需要拍摄包含国内外著名景点、地标的照片，系统就能自动生成足迹、图文博客等有意思的交互内容，提升用户旅游体验。

同时，开放日现场还宣布，百度大脑即将上线邀测钱币识别功能。该功能可以精准识别中外钱币，支持数百类币种、数千种面额，识别准确率98%以上，不仅能够提升金融机构货币兑换的效率，也能让“外币骗局”无处藏身。

从红酒到地标再到钱币，目前百度大脑的图像识别种类已经多达11种。

语言及知识：能为你写诗，还能读懂你的情绪

百度大脑语言及知识方向能力集，共包括语言处理应用平台、语言处理应用技术、语言处理基础技术、知识理解以及知识图谱。而此次开放日的更新亮点是，语言处理应用技术、知识理解以及智能写作平台。

在语言处理应用技术方面，推出新能力：1.文本纠错，识别文本中有错误的片段，进行错误提示并给出正确的建议文本内容;2.新闻摘要，对新闻内容进行全面的语义理解与分析，自动抽取新闻文本中的关键信息并按指定长度生成摘要，可应用于热点新闻聚合、新闻推荐、语音播报、APP消息Push等场景;3.智能写诗，用户只需要输入任意主题词(如公司名、节气名)，机器便可自动生成融合了该主题词的诗词;4.智能春联，用户输入任意主题词(如自己的名字)，机器可自动生成融合了该主题词的春联，可以应用在企业互动营销、APP春节互动活动; 5.对话情绪识别，可以针对一段对话文本，自动识别出当前会话者所表现出的情绪类别;

在知识理解方面，则推新能力：1.作文检索，有数万篇作文范文，可支持按文体、字数、年级、常见主题等进行查询检索，可应用在少儿教育产品(如学习机)、图书馆等场景;2.知识问答，可提供娱乐、人物、教育、影视、综艺、动漫、小说、文学作品等垂类的问答能力，以及日期历法、年龄差、算数、时间时区差等推理计算能力，可应用于智能音箱、儿童故事机、泛娱乐产品等场景。

同时，不久后，智能写作平台也将上线，将从素材上为创作者提供工具、帮助找到灵感，提升创作者的写作效率和产出质量，降低写作成本。

在百度大脑首场开放日，除了有以上多项核心的技术更新、能力升级、新品推出外，百度大脑在AI市场正式上架4款硬件产品，感兴趣的开发者都可以在 PC 端访问百度 AI 市场进行选购。同时推出百度大脑新品体验师计划，希望可以在帮助开发者成长的同时，推动百度大脑的进化。

其实，百度大脑一直致力于构建开放的技术生态，已成其多年技术积累和业务实践的集大成者。截至目前，百度大脑已经开放了近160项AI能力，平台上开发者数量超过100万，开放能力覆盖语音、视觉、自然语言处理、机器学习等全面AI技术。

此次开放日活动，百度大脑诚邀众多开发者、技术媒体、行业KOL共同参与，了解体验百度大脑AI技术，共同探讨AI在开发、落地应用过程中遇到的实际问题，一起助力AI发展加速度。其实，除了此次的开放日活动外，百度大脑还推出了“月度更新计划”，每个月一次的产品与技术更新，旨在助力企业和个人开发者智能前行，紧跟社会需求，这足以让广大企业和开发者们对百度大脑充满信心，对我国未来人工智能的发展充满期待。